JP2006352687A

JP2006352687A - 人物追跡システム

Info

Publication number: JP2006352687A
Application number: JP2005178208A
Authority: JP
Inventors: Shigeki Matsumoto; 重貴松本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2005-06-17
Filing date: 2005-06-17
Publication date: 2006-12-28

Abstract

【課題】画像と音声を同時に利用するとともに能動的な追跡方式として着目追跡対象人物の同定の確実性を高めること。
【解決手段】探査用音源1,2、探査用受音器3〜5、応答音源6〜8は、応答音源システムを構成し、追跡対象人物A〜Cの位置を特定する。処理手段17は、例えば探査用音源1から探査音波が発生された時刻から応答音源6からの応答音波が探査用受音器3〜5で受音された時刻までの時間に基づいて応答音源6の位置を特定する。また、処理手段17は、応答音源6の位置と撮像手段14〜16が撮像した画像における画像的特徴領域とに基づいて画像中の画像中の追跡対象人物Aの画像領域を特定するとともに、受音器9〜13で受音した音声中の追跡対象人物Aの音声を応答音源6の位置を用いて分離する.
【選択図】図１

Description

本発明は、人物追跡システムに関し、特に、移動範囲が限られた会議などにおいて画像と音声を同時に利用するとともに、能動的な追跡方式とすることで着目追跡対象人物の同定の確実性を高めることができる人物追跡システムに関する。

ユビキタスにおける通信などで、よりきめ細かなサービスを実現可能にするために、人物の行動理解の基礎となる情報を収集することが必要となる。

従来、人物追跡システムとして画像を利用した方式と音声を利用した方式が存在する。図７は、画像を利用した人物追跡システムを示す概念図である。このシステムでは、会議場などに１個あるいは複数個の撮像手段を配置する。図７では、３個の撮像手段14〜16を配置している。撮像手段14〜16で撮像された画像を処理して画像中の特徴領域A〜Cを抽出し、その空間的位置を算出することにより着目している追跡対象人物(着目追跡対象人物)Aを同定する。

図８は、音声を利用した人物追跡システムを示す概念図である。このシステムでは、会議場などに１個あるいは複数個の受音器(マイクロホン)を配置する。図８では、ｎ個の受音器21〜2nを配置している。受音器21〜2nで受音した音声を処理し、ビームフォーミング(ビーム形成)や独立成分分析などして着目追跡対象人物Aを同定する。ビームフォーミングによる音声分離の技術は非特許文献１に記載されている。
Lucas C. Parra and Christopher V. Alvino: Geometric Source Separation:" Merging Convolutive Source Separation With Geometric Beamforming", IEEE Trans. Speech and Audio Processing, VOL.10, No.6, pp.352-362 (Sep. 2002)

しかしながら、画像を利用した人物追跡システムでは、画像中の特徴領域とその空間的位置を求めることはできるが、さらに発話しているなどの特徴を画像的に抽出しないと複数の人物の中から着目追跡対象人物の画像領域を特定することができないという課題がある。

また、音声を利用した人物追跡システムでは、音源(着目追跡対象人物)の位置が特定されているわけではないので、ビームフォーミングでは遠距離音場によるビームフォーミングしかできない。したがって、複数の人物が同時に発話している場合などには着目追跡対象人物の同定が不確実となるという課題がある。さらに、本来近距離音場であるものを遠距離音場として処理しているために、誤差が大きくなるという課題もある。

また、独立成分分析では分離の対象とする音源以外に対してはヌルを形成することにより音源の方向は特定できるが、これのみでは音源の位置まで特定することができない。分離された音源の信号を用いて相関などの処理を行ったとしても各受音器間の遅延時間差しか求めることができないため、音源つまり着目追跡対象人物の空間的位置を特定することはできないという課題がある。

画像と音声の両方を用いて着目追跡対象人物を同定する試みもなされているが、いずれにしても受動的な方式であるため、追跡の確実性に欠けるという課題は解決されない。

本発明の目的は、上記課題を解決し、画像と音声を同時に利用するとともに能動的な追跡方式とすることで着目追跡対象人物の同定の確実性を高めることができる人物追跡システムを提供することにある。

上記課題を解決するために、本発明は、複数の撮像手段により撮像した画像中の追跡対象人物の画像領域を特定し、かつ複数の受音器により受音した音声中の追跡対象人物の音声を分離する人物追跡システムにおいて、探査音波を発生する少なくとも１個の探査用音源と各追跡対象人物に携帯され、前記探査用音源から発生される探査音波を受信して応答音波を送出する応答音源と既知の空間的位置に配置され、前記応答音源から送出される応答音波を受信する複数個の探査用受音器の組み合わせ、もしくは、各追跡対象人物に携帯され、所定の間隔で応答音波を送出する応答音源と既知の空間的位置に配置され、前記応答音源から送出される応答音波を受信する複数個の探査用受音器の組み合わせの内の少なくとも一方と、複数個の受音器と、既知の空間的位置に既知の姿勢で配置され、追跡対象人物を含む画像を撮像する複数個の撮像手段と、処理手段を具備し、前記処理手段は、前記探査用音源から探査音波が発生された時刻から着目応答音源からの応答音波が前記探査用受音器で受音された時刻までの時間に基づいて該着目応答音源の位置を特定するか、もしくは、着目応答音源からの応答音波が前記探査用受音器で受音された時刻間の時間差に基づいて該着目応答音源の位置を特定するかし、該特定された着目応答音源の位置と前記複数個の撮像手段が撮像した画像における画像的特徴領域とに基づいて画像中の画像中の着目追跡対象人物の画像領域を特定するとともに、前記複数個の受音器により受音した音声中の着目追跡対象人物の音声を、前記特定された着目応答音源の位置を用いて分離することを第１の特徴としている。

また、本発明は、前記処理手段が、前記特定された着目応答音源の位置付近における前記複数個の撮像手段が撮像した画像における共通の画像的特徴領域を着目追跡対象人物の画像領域として特定することを第２の特徴としている。

また、本発明は、前記処理手段が、前記複数個の撮像手段が撮像した画像における共通の画像的特徴領域のうち前記特定された着目応答音源の位置付近の画像的特徴領域を着目追跡対象人物の画像領域として特定することを第３の特徴としている。

また、本発明は、前記処理手段が、前記特定された着目応答音源の位置方向にビームを形成することにより、前記複数個の受音器により受音した音声中の着目追跡対象人物の音声を分離することを第４の特徴としている。

また、本発明は、前記処理手段が、前記特定された着目応答音源の位置方向以外の非着目応答音源の一方向にヌルを形成することにより、前記複数個の受音器により受音した音声中の着目追跡対象人物の音声を分離することを第５の特徴としている。

また、本発明は、前記処理手段が、複数の着目応答音源を特定し、該特定された複数の着目応答音源の位置が近接している場合には、該複数の応答音源の位置を前記複数個の撮像手段の視線方向に垂直な平面に投影したときに、応答音源間の間隔が最大になる撮像手段が撮像した画像において着目追跡対象人物の画像領域を分離することを第６の特徴としている。

さらに、本発明は、前記複数個の受音器のうちの少なくとも１つが、追跡対象人物が携帯するマイクロフォンであることを第７の特徴としている。

本発明では、画像と音声を同時に利用するとともに、応答音源を利用した能動的な方式で着目追跡対象人物を追跡するので、画像中の人物の特定と音声分離の確度を向上させることができる。

ここで、着目追跡対象人物の画像領域を特定するに際し、撮像手段で撮像した画像において応答音源の位置付近における共通の画像的特徴領域を着目追跡対象人物の画像領域として特定することにより、処理に必要な計算量を少なくし、処理の高速化を図ることができる。

また、応答音源システムで求めた応答音源の位置とは独立に、撮像手段で撮像された画像中の特徴点の対応付けを行い、撮像手段の配置位置と姿勢から特徴領域の位置を求めた後、応答音源の位置と一致する位置を含む画像領域を着目追跡対象人物の画像領域として特定することにより、着目追跡対象人物の画像領域を高信頼性で特定することができる。

また、特定された着目応答音源の位置方向にビームを形成したり、特定された着目応答音源の位置方向以外の非着目応答音源の一方向にヌルを形成したりすることにより、受音した音声中の着目追跡対象人物の音声を高い確度で分離することができる。

また、複数の人物の画像が重なってしまうような場合でも、応答音源間の間隔が最大になるような画像を選択して着目追跡対象人物の画像領域を分離することにより、着目追跡対象人物の画像領域を良好に分離できる。

さらに、受音器をマイクロフォンとして追跡対象人物に携帯させることにより、受音器を配置するスペースを不要にすることができる。

以下、図面を参照して本発明を説明する。図１は、本発明に係る人物追跡システムの第１の実施形態を示す概念図である。第１の実施形態の人物追跡システムは、探査用音源1,2、探査用受音器3〜5、応答音源6〜8、受音器9〜13、撮像手段14〜16および処理手段17を備える。追跡対象人物A〜Cはそれぞれ応答音源6〜8を携帯し、追跡対象人物Bはさらに受音器9を携帯する。受音器9をマイクロフォンとして追跡対象人物Bに携帯させることにより、受音器9を配置するスペースを不要にすることができる。もちろん、追跡対象人物A,Cにも受音器を携帯させるようにしてもよい。

探査用受音器3〜5および撮像手段14〜16は、既知の空間的位置に配置され、撮像手段14〜16は、さらに既知の姿勢で配置される。受音器9〜13は、注目する空間領域に存在する人数以上の個数が空間的に異なる位置に配置される。探査用音源1,2、探査用受音器3〜5、受音器10〜13および撮像手段14〜16は、有線または無線により処理手段17に接続され、受音器9は、無線により処理手段17に接続される。探査用音源1,2、探査用受音器3〜5、応答音源6〜8は、いわゆる応答音源システムを構成する。

探査用音源1,2、探査用受音器3〜5、応答音源6〜8の適宜の組み合わせにより複数の応答音源システムが構成される。図１の場合、応答音源6,7,8により第１，第２，第３の応答音源システムが構成され、個々の応答音源システムにより追跡対象人物A，B，Cの位置がそれぞれ特定される。

探査用受音器3〜5や処理手段17では、追跡対象人物A,B,Cのうちいずれの人物を着目追跡対象人物とするか、つまりどの応答音源に応答音波を要求するかを定める必要がある。個々の応答音源システムの動作を、例えば応答音源ごとに探査音波や応答音波の周波数を異ならせたり、変調する符号を異ならせたりして判別するようにすれば、応答音源6〜8からの応答音波を区別して同時に処理できるので、着目追跡対象人物を複数にすることができる。

ここでは、探査用音源1、探査用受音器3〜5および応答音源6で１つの応答音源システムが構成され、これにより着目追跡対象人物Aの空間的位置を特定する場合を想定する。

図２は、着目追跡対象人物Aの位置を特定する動作の説明図である。探査用音源1は、探査音波を発生する。応答音源6は、探査用音源1から発生された探査音波を受音し、所定の時間遅れを持って特定の応答音波を送出する。探査音波および応答音波は、人間の音声帯域外の周波数に設定する。探査用受音器3〜5は、応答音源6から送出された応答音波を受音する。

探査用音源1が探査音波を発生してから探査用受音器3〜5が応答音波を受音するまでの時間遅れから応答音源6の位置つまり着目追跡対象人物Aの位置を特定できる。２次元的位置を特定する場合、最低２個の探査用受音器が必要であり、３次元的位置を特定する場合には、最低３個の探査用受音器が必要である。

探査音波および応答音波は、パルス状音波あるいはバースト状音波である。探査音波および応答音波を適当な符号でコーディングし、受音する音波をコーディングに基づいて判別するようにすることにより、応答音源6が探査音波を受音する確度や探査用受音器3〜5が応答音波を受音する確度を高めることができる。

複数の探査用音源を配置し、２次元的あるいは３次元的位置の特定に必要な個数を超える探査用受音器を配置することにより、探査用音源や探査用受音器が人物の影になったとしても、それ以外の探査用音源や探査用受音器を用いて追跡対象人物の位置を特定することができる。

図１に戻って、処理手段17は、探査用音源1,2のうち探査音波を発生する探査用音源を決定し、該探査用音源が探査音波を発生するタイミングを決定し、応答音源6〜8のうち応答を求める応答音源を決定する処理を行う。上記想定の場合、処理手段17は、探査用音源1を探査音波を発生する探査用音源として決定し、応答音源6を応答を求める応答音源として決定する。また、処理手段17は、探査用音源1から探査音波が発生されてから応答音波が探査用受音器3〜5で受音されるまでの遅延時間を算出し、該遅延時間に基づいて応答音源6の位置を特定する。応答音源6の位置を特定することにより、着目追跡対象人物Aの空間的位置が特定される。

撮像手段14〜16は、追跡対象人物A〜Cを含む空間を撮像し、動画像あるいはスチル画像を出力する。撮像手段14〜16で撮像した画像において、着目追跡対象人物Aに対応する画像領域を特定する。着目追跡対象人物Aに対応する画像領域は、以下の第１または第２の手法のいずれかを用いて特定することができる。

図３は、第１の手法の説明図である。第１の手法では、撮像手段14〜16で撮像した画像において応答音源6の位置付近における共通の画像的特徴領域を着目追跡対象人物Aの画像領域として特定する。

応答音源6の位置は、上述したように応答音源システムで得られている。撮像手段14〜16で撮像された画像中の画像領域の空間的位置は、撮像手段14〜16の配置位置と姿勢から求めることができるので、応答音源6が画像中に占める位置を算出することができる。応答音源6が画像中に占める位置付近において、撮像手段14〜16で撮像された画像に共通の画像的特徴領域を着目追跡対象人物Aに対応する画像領域として特定する。

第１の手法では、撮像手段14〜16で撮像された複数の画像中の特徴点の対応を特徴点ごとに一々調べて特定する必要がないので、処理に必要な計算量が少ないという特徴がある。

図４は、第２の手法の説明図である。第２の手法では、まず、応答音源システムで求められている応答音源6の位置とは独立に、撮像手段14〜16で撮像された画像中の特徴点の対応付けを行い、撮像手段14〜16の配置位置と姿勢から特徴領域の位置を求める。その後、応答音源6の位置と一致する位置を含む画像領域を着目追跡対象人物Aの画像領域として特定する。

第２の手法では、まず、応答音源システムで得られた応答音源6の位置とは独立に求めた特徴点の位置から画像領域を求めているので、着目追跡対象人物Aの画像領域を高信頼性で特定することができる。なお、撮像手段で撮像された画像における空間的位置を求めるには、２次元的位置を求める場合、最低２個の撮像手段を空間的に異なる位置に配置する必要があり、３次元的位置を求める場合には、最低３個の撮像手段を空間的に異なる位置に配置する必要がある。

着目追跡対象人物Aの画像領域を分離して特定するためには、撮像手段14〜16で撮像された画像において個々の追跡対象人物A〜Cの画像が重ならない領域を占めていることが望ましい。ところが、会議場などの狭い空間に複数の追跡対象人物A〜Cが集中しているような場合には、複数の追跡対象人物の画像が重なってしまう状況が発生する。

以下に、このような状況に対処する手法について説明する。図５は、この対処手法の説明図である。なお、応答音源6〜8の位置は、それぞれの応答音源を含む応答音源システムで求められているとする。図５に示すように、応答音源システムによって算出された応答音源6〜8の位置を撮像手段14〜16の視線14′〜16′方向に垂直な射影平面14″〜16″上に投影する。そして、射影平面14″〜16″上で応答音源6〜8の位置間の距離が最大である撮像手段の画面上で、着目追跡対象人物Aに対応する画像領域を分離する。追跡対象人物B,Cが着目対象人物とされている場合にはそれらに対応する画像領域も個別に分離する。

射影平面14″〜16″上で応答音源6〜8の位置間の距離が最大であるということの評価基準には、例えば任意の２個の応答音源間の距離の最小値が最大である、あるいは各応答音源間の平均的な距離が最大であるということを用いることができる。上述のようにして分離された画像領域を参考にすれば、さらに他の撮像手段の画像上で、着目追跡対象人物Aに対応する画像領域を分離することもできる。

次に、着目追跡対象人物Aの音声を分離する手法について説明する。音声の分離は、注目している空間領域に存在する人数以上の個数の受音器9〜13を空間的に異なる位置に配置し、それらで受音された音声を処理することで実現できる。ここで、受音器9〜13は、空間的にアレイ状に配置してもよいし、任意の位置に配置してもよい。

上述したように、着目追跡対象人物(音源)Aの位置は既に特定されているので、着目追跡対象人物Aの方向にビームを形成すれば着目追跡対象人物Aが発する音声を分離して受音できる。また、他の追跡対象人物B,Cの方向にヌルを形成することにより、他の追跡対象人物B,Cが受音されないようにしても着目追跡対象人物Aが発する音声を分離して受音できる。さらに、ビームとヌルを同時に形成することによっても着目追跡対象人物Aが発する音声を分離して受音できる。

図６は、受音器によるビーム形成の様子を示す図であり、着目追跡対象人物Aと受音器21〜2nの間の距離による遅延と該距離に反比例する減衰を音声が受けるという条件を課すことにより、近距離音場におけるビーム形成とヌル形成を可能としている。

次に、本発明に係る人物追跡システムの第２の実施形態について説明する。第２の実施形態は、探査用音源を不要としたものであり、したがって、図１の探査用音源1,2が省かれたシステム構成を有し、図２では探査用音源１が省かれた構成となる(図示省略)。図２を援用して第２の実施形態の動作を以下に説明する。応答音源6は、予め設定された時間間隔で自律的に応答音波を送出する。探査用受音器3〜5は、応答音源6から送出された応答音波を受音し、処理手段17は、応答音源6からの応答音波が各探査用受音器3〜5に到達する時間差から着目追跡対象人物(音源)の位置を特定する。これ以外の動作は、上記第１の実施形態と同じであるので省略する。

第２の実施形態では、２次元あるいは３次元的位置の特定に必要な探査用受音器の個数は上記第１の実施形態より１個多くなるが、探査用音源が不要になり、また、応答音源に探査用音波を受音する機能が不要になるという利点がある。

なお、第１の実施形態と第２の実施形態を組み合わせた形態も構成可能である。この形態は、全体のシステム構成上では探査用音源を備えておくが、探査用音源を用いて画像領域分離を行うシステムと探査用音源を用いないで画像領域分離を行うシステムとを動作上で分離するようにして実現できる。

本発明によれば、会議における人物や家庭内での老人の行動などを追跡し、その情報を高確度で収集することができるので、会議、ネットワークを通してのホームサービス、老人監護などおいて、人物の追跡、行動理解基づくサービスを展開するための基礎となる情報を提供することができる。

本発明に係る人物追跡システムの第１の実施形態を示す概念図である。着目追跡対象人物の位置を特定する動作の説明図である。着目追跡対象人物に対応する画像領域を特定する第１の手法の説明図である。着目追跡対象人物に対応する画像領域を特定する第２の手法の説明図である。着目追跡対象人物の画像領域の分離の説明図である。受音器によるビーム形成の様子を示す図である。画像を利用した人物追跡システムを示す概念図である。音声を利用した人物追跡システムを示す概念図である。

符号の説明

１，２・・・探査用音源、３〜５・・・探査用受音器、６〜８・・・応答音源、９〜１３・・・受音器、１４〜１６・・・撮像手段、１４′〜１６′・・・視線、１４″〜１６″・・・射影平面、１７・・・処理手段、Ａ〜Ｃ・・・追跡対象人物

Claims

複数の撮像手段により撮像した画像中の追跡対象人物の画像領域を特定し、かつ複数の受音器により受音した音声中の追跡対象人物の音声を分離する人物追跡システムにおいて、
探査音波を発生する少なくとも１個の探査用音源と各追跡対象人物に携帯され、前記探査用音源から発生される探査音波を受信して応答音波を送出する応答音源と既知の空間的位置に配置され、前記応答音源から送出される応答音波を受信する複数個の探査用受音器の組み合わせ、もしくは、各追跡対象人物に携帯され、所定の間隔で応答音波を送出する応答音源と既知の空間的位置に配置され、前記応答音源から送出される応答音波を受信する複数個の探査用受音器の組み合わせの内の少なくとも一方と、
複数個の受音器と、
既知の空間的位置に既知の姿勢で配置され、追跡対象人物を含む画像を撮像する複数個の撮像手段と、
処理手段を具備し、
前記処理手段は、前記探査用音源から探査音波が発生された時刻から着目応答音源からの応答音波が前記探査用受音器で受音された時刻までの時間に基づいて該着目応答音源の位置を特定するか、もしくは、着目応答音源からの応答音波が前記探査用受音器で受音された時刻間の時間差に基づいて該着目応答音源の位置を特定するかし、該特定された着目応答音源の位置と前記複数個の撮像手段が撮像した画像における画像的特徴領域とに基づいて画像中の画像中の着目追跡対象人物の画像領域を特定するとともに、前記複数個の受音器により受音した音声中の着目追跡対象人物の音声を、前記特定された着目応答音源の位置を用いて分離することを特徴とする人物追跡システム。
前記処理手段は、前記特定された着目応答音源の位置付近における前記複数個の撮像手段が撮像した画像における共通の画像的特徴領域を着目追跡対象人物の画像領域として特定することを特徴とする請求項１に記載の人物追跡システム。
前記処理手段は、前記複数個の撮像手段が撮像した画像における共通の画像的特徴領域のうち前記特定された着目応答音源の位置付近の画像的特徴領域を着目追跡対象人物の画像領域として特定することを特徴とする請求項１に記載の人物追跡システム。
前記処理手段は、前記特定された着目応答音源の位置方向にビームを形成することにより、前記複数個の受音器により受音した音声中の着目追跡対象人物の音声を分離することを特徴とする請求項１ないし３のいずれかに記載の人物追跡システム。
前記処理手段は、前記特定された着目応答音源の位置方向以外の非着目応答音源の一方向にヌルを形成することにより、前記複数個の受音器により受音した音声中の着目追跡対象人物の音声を分離することを特徴とする請求項１ないし４のいずれかに記載の人物追跡システム。
前記処理手段は、複数の着目応答音源を特定し、該特定された複数の着目応答音源の位置が近接している場合には、該複数の応答音源の位置を前記複数個の撮像手段の視線方向に垂直な平面に投影したときに、応答音源間の間隔が最大になる撮像手段が撮像した画像において着目追跡対象人物の画像領域を分離することを特徴とする請求項１に記載の人物追跡システム。
前記複数個の受音器のうちの少なくとも１つは、追跡対象人物が携帯するマイクロフォンであることを特徴とする請求項１に記載の人物追跡システム。