JP2016054409A - 映像認識装置、映像認識方法及びプログラム - Google Patents
映像認識装置、映像認識方法及びプログラム Download PDFInfo
- Publication number
- JP2016054409A JP2016054409A JP2014179544A JP2014179544A JP2016054409A JP 2016054409 A JP2016054409 A JP 2016054409A JP 2014179544 A JP2014179544 A JP 2014179544A JP 2014179544 A JP2014179544 A JP 2014179544A JP 2016054409 A JP2016054409 A JP 2016054409A
- Authority
- JP
- Japan
- Prior art keywords
- position information
- video
- imaging device
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Studio Devices (AREA)
Abstract
【課題】物体を正確に追尾するとともに、その物体の正確な情報を取得できるようにする。【解決手段】位置情報受信部301は、物体に取り付けられたGPSまたはRFから取得された物体(選手)の位置と識別情報とを含むセンサ位置情報を受信器から受信する。そして、位置情報分析部303は、そのセンサ位置情報を分析し、分析結果に基づいて物体を撮影している撮像装置を選択する。次に、映像取得部305は、選択された撮像装置から映像し、映像認識部306は、取得した映像に対して映像認識処理を行う。【選択図】図3
Description
本発明は、特に、物体を追尾するために用いて好適な映像認識装置、映像認識方法及びプログラムに関する。
従来、人物を追跡する技術として、例えば特許文献1に記載された方法のように、撮像装置から取得した映像に対して映像認識を行う方法が知られている。特許文献1に記載の方法は、人物を追尾するためのテンプレート辞書を予め用意しておき、取得した映像に対して、このテンプレート辞書を用いたマッチングをすることにより、人物を追跡する方法である。
一方、映像認識によって人物を追跡する方法の他に、例えば特許文献2に記載された方法のように位置センサを用いる方法も知られている。特許文献2に記載の方法は、送信機を含む位置センサを追跡対象者に取り付けておき、その追跡者の位置情報と識別子とを受信機により受信することにより人物の位置を特定して追跡する方法である。
M. Bertozzi, A. Broggi, M. Del Rose, M. Felisa, A. Rakotomamonjy and F. Suard, "A Pedestrian Detector Using Histograms of Oriented Gradients and a Support Vector Machine Classifier", IEEE Intelligent Transportation Systems Conference, 2007
T. Pajdla, and J. Matas, "Face Recognition with Local Binary Patterns", ECCV, pp. 469 ‐ 481, 2004
P. Viola, M. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", in Proc. Of CVPR, vol.1, pp.511-518, December, 2001
C. Shan, T. Gritti, "Learning discriminative lbp-histogram bins for facial expression recognition", Proc. British Machine Vision Conference, 2008
一般にスポーツの分野では、試合戦略を立てるために試合内容の分析が選手側にとって非常に重要である。そのため、これまでは、各映像における選手位置をオペレータによる手作業で入力し、その入力結果を用いて試合内容を分析するといった方法が取られてきた。また、視聴者へ配信する映像に対しても、カメラマンによる手動操作により撮像装置を制御するといった方法が取られてきた。近年、これらの作業は非常に負荷が大きいため、人物を自動で追跡する技術をスポーツスタジアムなどに適用することによって、この作業負荷を軽減する試みがなされてきた。
しかしながら、図25に示すように、スポーツの試合では、ある領域内に複数の選手2501〜2503が密集したり、選手の身体の向きが頻繁に変わったりすることが多い。従来の映像技術では、人体の位置や姿勢に加えて顔がほぼ正面を向いている場合には、表情などの情報も取得することが可能である。ところが、スポーツの試合などでは人体や顔の一部が隠れたり、人体の向きが正面から横向きや後ろ向きに変わったりする場合が多いため、スタジアムに設定されたカメラ2510〜2517の中から適切なカメラを選択する必要がある。
一方、位置センサだけを用いる方法では、ある程度の位置の計測誤差はあるが、位置と識別情報とを取得することはできる。しかしながら、人体の姿勢や表情などのより詳細な情報を取得することができない。
本発明は前述の問題点に鑑み、物体を正確に追尾するとともに、その物体の正確な情報を取得できるようにすることを目的としている。
本発明に係る映像認識装置は、物体の位置と前記物体の識別情報と含む位置情報を受信する受信手段と、前記受信手段によって受信された位置情報を記憶する記憶手段と、前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析手段と、前記分析手段による分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択手段と、前記選択手段によって選択された撮像装置から、前記物体を含む映像を取得する取得手段と、前記取得手段によって取得された映像に対して、前記物体の認識処理を行う映像認識手段と、を有することを特徴とする。
本発明によれば、物体を正確に追尾するとともに、その物体の正確な情報を取得することができる。
以下、本発明の実施形態について、図面を参照しながら説明する。
(第1の実施形態)
本実施形態は、図2に示すようなスタジアムを想定して説明する。図2に示すように、スタジアムの各所にズームが可能な8つの撮像装置210〜217が設置されている。また、図2に示すように、さらにGlobal Positioning System(GPS)やRadio Frequency(RF)からの受信器218〜221が設置されている。
(第1の実施形態)
本実施形態は、図2に示すようなスタジアムを想定して説明する。図2に示すように、スタジアムの各所にズームが可能な8つの撮像装置210〜217が設置されている。また、図2に示すように、さらにGlobal Positioning System(GPS)やRadio Frequency(RF)からの受信器218〜221が設置されている。
本実施形態では、GPSやRFから受信器218〜221で得られたセンサ位置情報に基づいて、スタジアムの各所に設置されたズームが可能な撮像装置210〜217の中から映像を取得する撮像装置を選択する。そして、選択された撮像装置から取得した映像に対して顔検出や個人識別などの映像認識を行うことにより、センサ位置情報が正しいかどうかを確認し、更には、表情などのより詳細な情報を取得する。
図1は、本実施形態に係る映像認識装置100のハードウェア構成例を示すブロック図である。
図1に示すように、CPU101は、ROM102に格納されているプログラムをRAM103に展開し、後述する処理を実行させる。通信ネットワークI/F104は、画像データなどの各種データを受信するためのインターフェースである。HDD105は、受信した画像データやセンサ位置情報を記憶する。センサ位置情報I/F106は、前述した受信器218〜221からセンサ位置情報を取得するためのインターフェースである。これらの構成は、バス107によって接続されている。
図1に示すように、CPU101は、ROM102に格納されているプログラムをRAM103に展開し、後述する処理を実行させる。通信ネットワークI/F104は、画像データなどの各種データを受信するためのインターフェースである。HDD105は、受信した画像データやセンサ位置情報を記憶する。センサ位置情報I/F106は、前述した受信器218〜221からセンサ位置情報を取得するためのインターフェースである。これらの構成は、バス107によって接続されている。
図3は、本実施形態に係る映像認識装置100の機能構成例を示すブロック図である。
図3に示すように、映像認識装置100は、位置情報受信部301、位置情報記憶部302、位置情報分析部303、撮像装置選択部304、映像取得部305、及び映像認識部306を備えている。以下、これらの構成による処理について、図4のフローチャートを参照しながら説明する。
図3に示すように、映像認識装置100は、位置情報受信部301、位置情報記憶部302、位置情報分析部303、撮像装置選択部304、映像取得部305、及び映像認識部306を備えている。以下、これらの構成による処理について、図4のフローチャートを参照しながら説明する。
図4は、本実施形態に係る映像認識装置100による全体的な処理手順の一例を示すフローチャートである。以下、図2に示す選手201〜203の情報を取得する例について説明する。
まず、ステップS401において、位置情報受信部301は、物体に取り付けられたGPSまたはRFから取得された物体(選手)の位置と識別情報とを含むセンサ位置情報を受信器218〜221から受信する。物体の位置情報を送受信する装置については、GPSやRFに限定するわけではなく他の装置を用いても構わない。なお、本実施形態では、物体を人物とする。
まず、ステップS401において、位置情報受信部301は、物体に取り付けられたGPSまたはRFから取得された物体(選手)の位置と識別情報とを含むセンサ位置情報を受信器218〜221から受信する。物体の位置情報を送受信する装置については、GPSやRFに限定するわけではなく他の装置を用いても構わない。なお、本実施形態では、物体を人物とする。
次に、ステップS402において、位置情報分析部303は、ステップS401で取得したセンサ位置情報が現在の位置と識別情報とを含むものであるかどうかを確認する。この判定の結果、現在の位置と識別情報とを含むものではない場合は、ステップS401に戻り、そのセンサ位置情報を位置情報記憶部302に記憶し、引き続きセンサ位置情報を受信する。一方、ステップS402の判定の結果、現在の位置と識別情報とを含むものである場合には、ステップS403へ進む。
次に、ステップS403において、位置情報分析部303は、位置情報記憶部302から過去のセンサ位置情報を取得する。位置情報記憶部302には、過去のセンサ位置情報が識別子ごとに記憶されている。そして、ステップS404において、位置情報分析部303は、ステップS401で取得した現在のセンサ位置情報と、ステップS403で取得した過去のセンサ位置情報とを分析する。ステップS404の分析により、どのような情報を算出するかについて、以下に説明する。
図5は、図4のステップS404において、位置情報分析部303によるセンサ位置情報を分析する詳細な処理手順の一例を示すフローチャートである。
まず、ステップS501において、図3のステップS301で取得した現在のセンサ位置情報と、ステップS303で取得した過去のセンサ位置情報とを用いて個々の平均動きベクトルを算出する。本実施形態では、n番目の人物の現在のセンサ位置情報をPn(x[t],y[t])、過去のセンサ位置情報をPn(x[t−i],y[t−i])、平均動きベクトルをVn(x,y)とする。
まず、ステップS501において、図3のステップS301で取得した現在のセンサ位置情報と、ステップS303で取得した過去のセンサ位置情報とを用いて個々の平均動きベクトルを算出する。本実施形態では、n番目の人物の現在のセンサ位置情報をPn(x[t],y[t])、過去のセンサ位置情報をPn(x[t−i],y[t−i])、平均動きベクトルをVn(x,y)とする。
図6は、選手が移動している特定シーンの一例を示す図である。例えば選手601に関するセンサ位置情報をそれぞれ時系列的にP1(x[t],y[t])、P1(x[t−1],y[t−1])、P1(x[t−2],y[t−2])とし、ボール600に関するセンサ位置情報をB(x[t],y[t])とする。ボール600に関する位置情報B(x[t],y[t])は、例えば、選手と同様に位置センサをボール600内に組み込むことによって把握することができる。ここで、現在のボール600に関するセンサ位置情報B(x[t],y[t])を基準とした±Δw内に存在する選手だけについて注目する。この場合、選手601の平均動きベクトルV1(x,y)は、以下の式(1)から算出される。
同様に、選手602の平均動きベクトルV2(x,y)と選手603の平均動きベクトルV3(x,y)とを式(1)により求める。なお、本実施形態では、現在のセンサ位置情報と過去の2つのセンサ位置情報との計3つのセンサ位置情報を用いて平均動きベクトルVn(x,y)を算出しているが、これに限られるわけではない。
続いて、ステップS502において、群としての平均動きベクトルGm(x,y)を算出する。スポーツなどでは、選手同士が連携して同じような動きをすることが多い。そのため、ステップS501で個々の平均動きベクトルを求めるだけではなく、複数の人物の平均動きベクトルGm(x,y)を求める。例えば、図7に示すように、同じチームに所属する選手601〜603の群の平均動きベクトルGm(x,y)(=(V1(x,y)+V2(x,y)+V3(x,y))/3)を算出する。
次に、ステップS503において、例えば図8に示すような、複数の人物の位置についての分散の最大値Smaxを算出する。このように、複数の選手の平均動きベクトルに加え、その群のバラつきを計算し、そのバラつきを考慮して映像を取得することにより、選手同士の重複が少ない映像を取得することができる。
以上のように、図4のステップS404では、ステップS401で取得した現在のセンサ位置情報と、ステップS403で取得した過去のセンサ位置情報とを用いて上述したような3つの情報を算出する。
次に、図4のステップS405において、撮像装置選択部304は、ステップS404で算出した情報を用いて、スタジアムの各所に設置された撮像装置210〜217の中から適切な撮像装置を選択する。以下、撮像装置の選択方法について詳細に説明する。
図9は、図4のステップS405において、撮像装置選択部304が撮像装置を選択する詳細な処理手順の一例を示すフローチャートである。
まず、ステップS901において、図5のステップS501で算出した個々の平均動きベクトルを位置情報分析部303から取得する。
まず、ステップS901において、図5のステップS501で算出した個々の平均動きベクトルを位置情報分析部303から取得する。
次に、ステップS902において、撮像装置210〜217の中から、ステップS901で取得した個々の平均動きベクトルと光軸ベクトルが最も近い(平行する)撮像装置を選択する。図10に示す例の場合は、選手601に対しては、平均動きベクトルV1(x,y)と成す角度が0度に近い光軸ベクトル1001の撮像装置213が選択される。同様に、選手602に対しては、光軸ベクトル1002の撮像装置214が選択され、選手603に対しては光軸ベクトル1003の撮像装置212が選択される。
このように、センサ位置情報から選手夫々の動き方向を算出し、その動き方向に基づいて撮像装置を選択することにより、選手毎に最適な映像を取得することができる。本実施形態では、後述する映像認識処理で正面を向いた顔を用いるため、選手が正面を向いた映像を取得するようにしている。なお、配信する映像によっては、人物の背中を中心に撮影した場合がある。このような場合には、平均動きベクトルに対して最も光軸ベクトルとの角度が大きい撮像装置を選択するようにしてもよい。
以上のように選手毎に最適な映像を取得する場合には、図9に示す手順により撮像装置を選択することができる。一方、複数の選手に対して1台の撮像装置を選択するようにしてもよい。以下、複数の選手に対して1台の撮像装置を選択する手順について説明する。
図11は、図4のステップS405において、撮像装置選択部304が撮像装置を選択する詳細な処理手順の他の一例を示すフローチャートである。
まず、ステップS1101において、図5のステップS502で算出した群の平均動きベクトルGm(x,y)を位置情報分析部303から取得する。
まず、ステップS1101において、図5のステップS502で算出した群の平均動きベクトルGm(x,y)を位置情報分析部303から取得する。
次に、ステップS1102において、撮像装置210〜217の中から、ステップS1101で取得した群の平均動きベクトルGm(x,y)と光軸ベクトルが最も近い撮像装置を選択する。図12に示す例の場合は、選手601〜603に対して撮像装置213を選択する。このように、図9に示した撮像装置の選択方法のように選手毎に撮像装置を選択するのではなくて、複数の選手に対して1台の撮像装置を選択することができる。センサ位置情報から複数の選手、つまり群の動き方向を算出し、その群の動き方向に基づいて撮像装置を選択することによって、複数の選手が正面を向いた映像を取得することができる。
図9及び図11に示した手順は、いずれも選手がなるべく正面を向いた映像を取得するための手順である。一方、隠れの少ない映像を取得するという目的で撮像装置を選択するようにしてもよい。以下、このような目的で撮像装置を選択する手順について説明する。
図13は、図4のステップS405において、撮像装置選択部304が撮像装置を選択する詳細な処理手順のその他の一例を示すフローチャートである。
まず、ステップS1301において、図5のステップS502で算出した群の平均動きベクトルGm(x,y)を位置情報分析部303から取得する。続いてステップS1302において、ステップS503で算出した群の分散の最大値Smaxを位置情報分析部303から取得する。
まず、ステップS1301において、図5のステップS502で算出した群の平均動きベクトルGm(x,y)を位置情報分析部303から取得する。続いてステップS1302において、ステップS503で算出した群の分散の最大値Smaxを位置情報分析部303から取得する。
次に、ステップS1303において、分散の最大値Smaxの方向ベクトルと、平均動きベクトルGm(x,y)との成す角が、閾値Th_angle以下かどうかを判定する。分散の最大値Smaxの方向ベクトルと、平均動きベクトルGm(x,y)との成す角が閾値Th_angle以下である場合には、ステップS1304において、平均動きベクトルGm(x,y)と光軸ベクトルが最も遠い撮像装置を選択する。図14に示す例の場合は、平均動きベクトルGm(x,y)と成す角度が90度に近い撮像装置213が選択される。ここで、平均動きベクトルGm(x,y)と光軸ベクトルが最も近い撮像装置215を選択すると、選手601、602の人体の一部が隠れてしまう可能性がある。そのため、隠れの少ない映像を取得するために、撮像装置213が選択される。
一方、分散の最大値Smaxの方向ベクトルと、平均動きベクトルGm(x,y)との成す角が閾値Th_angleより大きい場合には、ステップS1305において、平均動きベクトルGm(x,y)と光軸ベクトルが最も近い撮像装置を選択する。図15に示す例の場合は、撮像装置214が選択される。このように、センサ位置情報から複数の選手の群の動き方向だけでなく、各選手の位置のばらつきを考慮して撮像装置を選択することにより、隠れの少ない映像を取得することができる。
図4の説明に戻り、次に、ステップS406において、映像取得部305は、ステップS405で選択された撮像装置から通信ネットワークI/F104を介して映像を取得する。そして、ステップS407において、映像認識部306は、ステップS406で取得した映像に対して映像認識処理を行う。
図16は、図4のステップS407において、映像認識部306による映像認識処理の詳細な処理手順の一例を示すフローチャートである。
ここで、図4のステップS401で取得したセンサ位置情報は、ある程度の誤差を含んでいるため、人物が密集した状態などでは正確な位置が得られない可能性がある。そのため、図4のステップS406で取得した映像に対して個人を識別する識別処理を行うことにより、各人物の位置をより正確に捉えるようにしている。なお、個人識別処理は、予め登録されている辞書と入力映像とのマッチングにより行う。通常の個人識別処理では、予め登録されている全ての辞書とのマッチングを行う必要があるが、本実施形態では、ステップS401で取得したセンサ位置情報を用いる。つまり、ステップS401で取得したセンサ位置情報に基づいて、ある特定の辞書とだけマッチングすることによって、高速、かつ高精度な個人識別が可能となる。なお、辞書は、HDD105やROM102に予め保持されている。
まず、ステップS1601において、映像認識部306は、位置情報分析部303がステップS401において取得したセンサ位置情報を取得する。そして、ステップS1602において、ステップS1601で取得したセンサ位置情報(識別情報)に対応する人物の辞書を選択する。例えば、選手601〜603の場合には、図17に示すように、これらの選手の辞書を選択する。
次に、ステップS1603において、映像認識部306は、図4のステップS406で取得した映像に対して、ステップS1602で選択した辞書だけを用いて個人識別を行う。まず、ステップS406で取得した映像に対して、非特許文献3に記載の技術を用いた顔の位置検出や非特許文献1に記載の技術を用いた人体位置検出を行う。次に、検出した顔や人体の位置に基づいて、非特許文献2に記載の技術を用いて個人を特定する個人識別処理を行う。この個人識別処理によって、人物1人1人に対して個人を区別するための識別子が割り当てられる。更には、非特許文献4に記載の技術を用いて選手の表情を認識する表情認識を実施してもよい。なお、本実施形態では、肩より上の顔領域を検出することを顔検出と呼び、頭頂から足元まで身体全体を検出することを人体検出と呼ぶ。
また、本実施形態では、図17に示すように顔が正面を向いている辞書だけを保持しているが、顔が横を向いている辞書を保持しておくようにしてもよい。1人の選手に対して顔向きの異なる複数の辞書を用意した場合、選手の動きベクトルと選択された撮像装置とから映像上での身体の向きを推定し、その推定結果に基づいた個人識別処理を行ってもよい。以下、顔向きの異なる複数の辞書を用いて映像認識処理を行う手順について説明する。
図18は、図4のステップS407において、映像認識部306による映像認識処理の詳細な処理手順の他の一例を示すフローチャートである。なお、図18のステップS1801及びS1802は、それぞれ図16のステップS1601及びS1602と同様の処理であるため、説明は省略する。
次に、ステップS1803において、図4のステップS404で算出した平均動きベクトルVn(x,y)と、ステップS405で選択された撮像装置の光軸ベクトルとを取得する。そして、ステップS1804において、ステップS1803で取得した平均動きベクトルVn(x,y)と撮像装置の光軸ベクトルとの成す角度を求める。
次に、ステップS1805において、ステップS1801で取得したセンサ位置情報に対応する人物であって、かつ、ステップS1804で求めた角度に対応する辞書を優先して選択し、個人識別を行う。例えば、平均動きベクトルVn(x,y)と撮像装置の光軸ベクトルとの成す角度が右向きに30度とした場合には、図19に示すように、右向きの辞書から優先的に処理を実施する。個人を特定する処理については、図16のステップS1603と同様である。
また、追尾して取得したセンサ位置情報が、映像認識結果と一致しない可能性もある。つまり、取得したセンサ位置情報には、ある程度の誤差が含まれているため、映像認識処理により識別情報が一致しない場合がある。そこで、このような場合を想定して、センサ位置情報と映像認識結果とを比較し、その人物の最終的な識別子(識別情報)を決定する処理を行ってもよい。以下、このような処理の手順について説明する。
図20は、図4のステップS407において、映像認識部306による映像認識処理の詳細な処理手順のその他の一例を示すフローチャートである。なお、ステップS2001〜S2003は、それぞれ図16のステップS1601〜S1603と同様であるため、説明は省略する。
次に、ステップS2004において、ステップS2001で取得したセンサ位置情報と、ステップS2003での個人識別結果とを比較する。そして、ステップS2005において、人物の識別情報が一致しているかどうかを判定する。例えば、センサ位置情報における識別情報(識別子)の相対関係と、個人識別における識別子の相対関係とが一致しているかどうかを比較する。
ステップS2005の判定の結果、識別情報が一致していない場合はステップS2006へ進む。一方、識別情報が一致している場合には、処理を終了する。ステップS2006においては、ステップS2003での個人識別結果に係る識別情報を採用し、センサ位置情報における識別情報(識別子)を修正する。そして、修正したセンサ位置情報を位置情報記憶部302に記憶するようにする。
図4の説明に戻り、次にステップ408において、位置情報受信部301は、センサ位置情報の受信を完了するか否かを判定する。この判定の結果、センサ位置情報の受信を完了する場合は、そのまま処理を終了し、受信を継続する場合は、ステップS401に戻る。
以上のように本実施形態では、映像による認識処理とセンサ位置情報とを適切に用いて個人を高精度に特定するようにした。すなわち、まず、スタジアム等に設置された受信器から受信したセンサ位置情報を分析し、その分析結果に基づいて撮像装置を選択することにより、映像認識が容易となるような映像を取得するようにした。また、受信器から受信したセンサ位置情報に基づいて、顔識別で用いる辞書を限定するようにした。さらに、受信器から受信した情報と、映像認識によって得られた情報とに矛盾がないかどうか比較するようにした。これにより、高精度に物体を特定し、更には表情などのより詳細な情報を取得することが可能となる。
(第2の実施形態)
本実施形態では、第1の実施形態と同様に、図2に示したスタジアムを想定し、受信器から得られたセンサ位置情報に基づいて、スタジアムの各所に設置されたズームが可能な撮像装置を制御する例について説明する。
本実施形態では、第1の実施形態と同様に、図2に示したスタジアムを想定し、受信器から得られたセンサ位置情報に基づいて、スタジアムの各所に設置されたズームが可能な撮像装置を制御する例について説明する。
図21は、本実施形態に係る映像認識装置2100の機能構成例を示すブロック図である。なお、図3と同一の構成については、同一の符号が付されており、基本的な機能は第1の実施形態と同様であるため、説明は省略する。図21に示すように、本実施形態に係る映像認識装置2100は、図4に示す構成に対して、さらに撮像装置制御部2101を備えている。以下、これらの構成による処理について、図22のフローチャートを参照しながら説明する。
図22は、本実施形態に係る映像認識装置2100のよる全体的な処理手順の一例を示すフローチャートである。なお、図4と同一の処理については、説明を省略する。
ステップS405により撮像装置が選択されると、ステップS2201において、撮像装置制御部2101は、選択された撮像装置に対して制御信号を送信する。以下、この処理の詳細について説明する。
ステップS405により撮像装置が選択されると、ステップS2201において、撮像装置制御部2101は、選択された撮像装置に対して制御信号を送信する。以下、この処理の詳細について説明する。
図23は、ステップS2201において、撮像装置制御部2101による制御処理の詳細な処理手順の一例を示すフローチャートである。
まず、ステップS2301において、ステップS401で取得したセンサ位置情報を用いて、撮像装置のパラメータを制御して初期位置を設定するよう、その撮像装置に対して制御信号を送信する。なお、本実施形態においては、撮像装置のパラメータとは、ズームの倍率とする。なお、ズームを制御する代わりに、センサ位置情報における人物の位置が撮像面の中心に来るように撮像装置をパン・チルト制御するようにしてもよい。また、撮像装置と実際のフィールド上との関係は、予め、実際のフィールド上にマーカーなどを設置することによりキャリブレーションを行っているものとする。
まず、ステップS2301において、ステップS401で取得したセンサ位置情報を用いて、撮像装置のパラメータを制御して初期位置を設定するよう、その撮像装置に対して制御信号を送信する。なお、本実施形態においては、撮像装置のパラメータとは、ズームの倍率とする。なお、ズームを制御する代わりに、センサ位置情報における人物の位置が撮像面の中心に来るように撮像装置をパン・チルト制御するようにしてもよい。また、撮像装置と実際のフィールド上との関係は、予め、実際のフィールド上にマーカーなどを設置することによりキャリブレーションを行っているものとする。
次に、ステップS2302において、ステップS2301で初期位置に制御された撮像装置から映像を取得する。そして、ステップS2303において、ステップS2302で取得した映像に対して顔検出を実施する。例えば、顔検出の方法としては、例えば非特許文献3に記載の技術を用いる。次に、ステップS2304において、ステップS2302で取得した映像に対して人体検出を実施する。人体検出の方法としては、例えば非特許文献1に記載の技術を用いる。
次に、ステップS2305において、ステップS2303で行われた顔検出の結果、顔が検出されたかどうかを判定する。この判定の結果、顔が検出されなかった場合は、ステップS2307に進み、顔が検出された場合には、ステップS2306へ進む。例えば図24の映像2401のように、顔が小さいために顔を検出できなかったような場合は、ステップS2307に進む。
次に、ステップS2306においては、ステップS2304で行われた人体検出の結果、人体が検出されたかどうかを判定する。この判定の結果、人体が検出されなかった場合は、処理を終了する。つまり、図24の映像2402のように、顔は検出されるが、人体は検出できないような映像を取得することになる。
一方、ステップS2306の判定の結果、人体が検出された場合は、ステップS2307へ進み、撮像装置の倍率Zを変更するよう制御信号をその撮像装置に送信する。例えば、人体検出結果や顔検出結果から得られる矩形領域の一辺Wdが所定の長さWcになるような倍率Zに制御する。なお、撮像装置の倍率Zは一定値でも構わないが、顔の輪郭が映像外にはみ出してしまう可能性があるので、矩形領域の一辺の最大値Wdmaxを設定しておき、この矩形領域の一辺の最大値Wdmaxを超えそうな時には倍率変更を終了するようにしてもよい。
本実施形態では、取得した映像に対して顔検出と人体検出とを実施し、顔や人体が検出されたかどうかの結果に基づいて撮像装置の倍率Zを変更することにより、ステップS407で実施される顔識別に適した映像を取得するようにしている。また、第1の実施形態では、ステップS407で顔や人体の位置を検出しているが、本実施形態では、ステップS407で顔や人体の位置検出を省略するようにしてもよい。
以上のように本実施形態では、映像による認識処理とセンサ位置情報とを適切に用いて個人を高精度に特定するようにした。すなわち、センサ位置情報を用いて撮像装置の初期位置を設定した後に映像を取得し、映像に対する顔検出処理を繰り返して撮像装置の倍率等を変更し、顔検出可能な倍率まで撮像装置を制御するようにしている。また、顔検出可能な顔の大きさの映像を取得し、その映像に対して第1の実施形態と同様に顔識別処理を実施するようにしている。これにより、高精度に物体を特定し、更には表情などのより詳細な情報を取得することが可能となる。
(その他の実施形態)
前述した実施形態では、図5の処理において、個々の平均動きベクトル、群の平均動きベクトル及び分散の最大値の3つを算出した。一方、例えば図9に示した手順で、個々の平均動きベクトルによって撮像装置を選択する場合には、図5におけるステップS502の群の平均動きベクトル算出処理及びS503の群の分散の最大値の算出処理を省略してもよい。このように、撮像装置をどのような手順で選択するかによって、図5の処理で必要な情報のみを算出し、撮像装置を選択する際に不要な情報の算出を省略してもよい。
前述した実施形態では、図5の処理において、個々の平均動きベクトル、群の平均動きベクトル及び分散の最大値の3つを算出した。一方、例えば図9に示した手順で、個々の平均動きベクトルによって撮像装置を選択する場合には、図5におけるステップS502の群の平均動きベクトル算出処理及びS503の群の分散の最大値の算出処理を省略してもよい。このように、撮像装置をどのような手順で選択するかによって、図5の処理で必要な情報のみを算出し、撮像装置を選択する際に不要な情報の算出を省略してもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
301 位置情報受信部
302 位置情報分析部
303 位置情報記憶部
304 撮像装置選択部
305 映像取得部
306 映像認識部
302 位置情報分析部
303 位置情報記憶部
304 撮像装置選択部
305 映像取得部
306 映像認識部
Claims (14)
- 物体の位置と前記物体の識別情報と含む位置情報を受信する受信手段と、
前記受信手段によって受信された位置情報を記憶する記憶手段と、
前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析手段と、
前記分析手段による分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択手段と、
前記選択手段によって選択された撮像装置から、前記物体を含む映像を取得する取得手段と、
前記取得手段によって取得された映像に対して、前記物体の認識処理を行う認識手段と、
を有することを特徴とする映像認識装置。 - 前記分析手段は、前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを用いて、物体ごとに動きベクトルを算出し、
前記選択手段は、前記算出した動きベクトルに基づいて前記物体ごとに撮像装置を選択することを特徴とする請求項1に記載の映像認識装置。 - 前記選択手段は、前記動きベクトルと撮像装置の光軸ベクトルとの成す角が最も小さい撮像装置を前記物体ごとに選択することを特徴とする請求項2に記載の映像認識装置。
- 前記分析手段は、前記受信手段によって受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを用いて、複数の物体からなる群の平均動きベクトルを算出し、
前記選択手段は、前記算出した群の平均動きベクトルに基づいて撮像装置を選択することを特徴とする請求項1に記載の映像認識装置。 - 前記選択手段は、前記平均動きベクトルと撮像装置の光軸ベクトルとの成す角が最も小さい撮像装置を選択することを特徴とする請求項4に記載の映像認識装置。
- 前記分析手段は、前記受信手段によって受信された現在の位置情報を用いて、複数の物体の位置の分散の最大値を算出し、
前記選択手段は、前記算出した分散の最大値に基づいて撮像装置を選択することを特徴とする請求項1に記載の映像認識装置。 - 前記選択手段は、前記分散の最大値の方向ベクトルと撮像装置の光軸ベクトルとの成す角に基づいて撮像装置を選択することを特徴とする請求項6に記載の映像認識装置。
- 前記認識処理で用いる複数の物体に関する辞書を保持する保持手段をさらに有し、
前記認識手段は、前記受信手段によって受信された位置情報に基づいてを用いて、前記保持手段に保持されている辞書の中から、前記受信手段によって受信された位置情報に係る物体の辞書を選択して認識処理を行うことを特徴とする請求項1〜7の何れか1項に記載の映像認識装置。 - 前記認識処理で用いる複数の物体に関する辞書を保持する保持手段をさらに有し、
前記認識手段は、前記動きベクトルと撮像装置の光軸ベクトルとから前記映像における前記物体の向きを求め、前記保持手段に保持されている辞書の中から前記物体の向きに対応する辞書を優先的に用いて認識処理を行うことを特徴とする請求項2又は3に記載の映像認識装置。 - 前記物体は人物であり、
前記認識手段は、前記人物の人体の領域を検出する人体検出、前記人物の顔領域を検出する顔検出、前記人物を特定する個人識別、及び前記人物の顔の表情を認識する表情認識のうち、少なくとも1つの処理を行うことを特徴とする請求項1〜7の何れか1項に記載の映像認識装置。 - 前記受信手段によって受信された位置情報と、前記認識手段による認識の結果とが対応していない場合に、前記認識手段は、前記位置情報に係る物体の位置と前記物体の識別情報とを前記認識処理により検出された位置と識別情報とに設定することを特徴とする請求項1〜10の何れか1項に記載の映像認識装置。
- 前記取得手段によって取得された映像おける顔検出及び人体検出の結果に基づいて、前記選択手段によって選択された撮像装置のパラメータを制御する制御手段をさらに有することを特徴とする請求項1〜11の何れか1項に記載の映像認識装置。
- 物体の位置と前記物体の識別情報と含む位置情報を受信する受信工程と、
前記受信工程において受信された位置情報を記憶手段に記憶する記憶工程と、
前記受信工程において受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析工程と、
前記分析工程における分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択工程と、
前記選択工程において選択された撮像装置から、前記物体を含む映像を取得する取得工程と、
前記取得工程において取得された映像に対して、前記物体の認識処理を行う認識工程と、
を有することを特徴とする映像認識方法。 - 物体の位置と前記物体の識別情報と含む位置情報を受信する受信工程と、
前記受信工程において受信された位置情報を記憶手段に記憶する記憶工程と、
前記受信工程において受信された現在の位置情報と、前記記憶手段に記憶された過去の位置情報とを分析する分析工程と、
前記分析工程における分析の結果に基づいて、前記物体を撮影している撮像装置を選択する選択工程と、
前記選択工程において選択された撮像装置から、前記物体を含む映像を取得する取得工程と、
前記取得工程において取得された映像に対して、前記物体の認識処理を行う認識工程と、
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014179544A JP2016054409A (ja) | 2014-09-03 | 2014-09-03 | 映像認識装置、映像認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014179544A JP2016054409A (ja) | 2014-09-03 | 2014-09-03 | 映像認識装置、映像認識方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016054409A true JP2016054409A (ja) | 2016-04-14 |
Family
ID=55744337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014179544A Pending JP2016054409A (ja) | 2014-09-03 | 2014-09-03 | 映像認識装置、映像認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016054409A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019101526A (ja) * | 2017-11-29 | 2019-06-24 | Kddi株式会社 | オブジェクト識別装置および方法 |
CN110546644A (zh) * | 2017-04-10 | 2019-12-06 | 富士通株式会社 | 识别装置、识别方法以及识别程序 |
JP2020052600A (ja) * | 2018-09-26 | 2020-04-02 | Kddi株式会社 | オブジェクト識別装置、方法およびプログラム |
-
2014
- 2014-09-03 JP JP2014179544A patent/JP2016054409A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110546644A (zh) * | 2017-04-10 | 2019-12-06 | 富士通株式会社 | 识别装置、识别方法以及识别程序 |
CN110546644B (zh) * | 2017-04-10 | 2022-10-21 | 富士通株式会社 | 识别装置、识别方法以及记录介质 |
JP2019101526A (ja) * | 2017-11-29 | 2019-06-24 | Kddi株式会社 | オブジェクト識別装置および方法 |
JP2020052600A (ja) * | 2018-09-26 | 2020-04-02 | Kddi株式会社 | オブジェクト識別装置、方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897675B (zh) | 双目视觉深度特征与表观特征相结合的人脸活体检测方法 | |
CN109887040B (zh) | 面向视频监控的运动目标主动感知方法及系统 | |
US8155394B2 (en) | Wireless location and facial/speaker recognition system | |
JP6448223B2 (ja) | 画像認識システム、画像認識装置、画像認識方法、およびコンピュータプログラム | |
US10165254B2 (en) | Method for obtaining light-field data using a non-light-field imaging device, corresponding device, computer program product and non-transitory computer-readable carrier medium | |
KR100714724B1 (ko) | 얼굴 포즈 추정 장치와 추정 방법 그리고 상기 방법에 의한얼굴 인식 시스템 | |
KR101791590B1 (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
US10019624B2 (en) | Face recognition system and face recognition method | |
US20110158540A1 (en) | Pattern recognition method and pattern recognition apparatus | |
CN112470497A (zh) | 经由光学捕获的个性化hrtfs | |
JP5672112B2 (ja) | ステレオ画像較正方法、ステレオ画像較正装置及びステレオ画像較正用コンピュータプログラム | |
CN105678809A (zh) | 手持式自动跟拍装置及其目标跟踪方法 | |
KR101510312B1 (ko) | 복수의 카메라들을 이용한 3d 얼굴 모델링 장치, 시스템 및 방법 | |
EP2704056A2 (en) | Image processing apparatus, image processing method | |
CN110264493A (zh) | 一种针对运动状态下的多目标对象追踪方法和装置 | |
JP2012238119A (ja) | 物体認識装置、物体認識装置の制御方法、およびプログラム | |
CN111182221A (zh) | 一种自动跟随的音视频采集系统和方法 | |
JP2018120283A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2016054409A (ja) | 映像認識装置、映像認識方法及びプログラム | |
CN109544584B (zh) | 一种实现巡检稳像精度测量的方法及系统 | |
WO2019078310A1 (ja) | 顔三次元形状推定装置、顔三次元形状推定方法、及び、非一時的なコンピュータ可読媒体 | |
CN116205952B (zh) | 人脸识别与跟踪的方法、装置、电子设备及存储介质 | |
CN112001224A (zh) | 基于卷积神经网络的视频采集方法和视频采集系统 | |
KR101673144B1 (ko) | 부분 선형화 기반의 3차원 영상 정합 방법 | |
US9245343B1 (en) | Real-time image geo-registration processing |