JP2010271922A

JP2010271922A - 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム

Info

Publication number: JP2010271922A
Application number: JP2009123231A
Authority: JP
Inventors: Gakuhin Ko; 学斌胡
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2009-05-21
Filing date: 2009-05-21
Publication date: 2010-12-02

Abstract

【課題】
画像内に電話で話をしている人の画像が含まれているか否かをより正確に検出する話中人物検出方法等を提供する。
【解決手段】
話中人物検出方法において、複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出ステップＳ１０と、上記画像内における人の皮膚の色に属する画素からなる被検査領域Ｇを決定する被検査領域決定ステップＳ２０と、被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出ステップＳ３０と、一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす角度を算出する顔角度算出ステップＳ４０と、主軸の角度と顔垂直線の角度との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定ステップＳ６０とを有する。
【選択図】図３

Description

本発明は、画像内に電話で話をしている人の画像が含まれているか否かを検出する話中人物検出方法、話中人物検出装置、および話中人物検出プログラムに関する。

金融機関における預金や振込みの手続きには、現金自動預入支払機（ＡＴＭ）が広く利用されている。ＡＴＭによれば振込みや出入金の作業が顧客自身の操作のみでできるため、金融機関窓口の場所や営業時間にとらわれずに手続きを進めることができ、利便性が高い。しかし、この一方で、手続きの作業が顧客自身による操作のみで進められることを悪用した、いわゆる振込め詐欺や還付金詐欺（以降、単に振込め詐欺と称する）の問題が発生している。振込め詐欺は、他人に成りすました犯罪者が利用者に携帯電話で連絡を取り、この利用者に金銭を預金口座などに振り込ませて騙し取るものである。振込め詐欺の被害者すなわち利用者は、詐欺を働く者と携帯電話で通話しながらＡＴＭ操作の指示を受け、指示に従ってＡＴＭを操作することが多い。

そこで、振込め詐欺の被害にあっているか否かを監視するため、ＡＴＭを操作する人物をカメラで撮影し、撮影した画像中の人物が電話で話をしているか否か、すなわち話中の人物を検出する監視方法が知られている（例えば、特許文献１参照）。この監視方法は、撮影した画像中の、顔の横に手とみなせる皮膚の色の領域があるか否かを検知することによって、利用者が携帯電話で話中であるか否かを判断する。そして話中であると判断した場合には、警告の質問やメッセージを表示することによって被害を未然に防ぐ。

特開２００８−１９７９３９号公報

しかしながら、上述した、画像中の皮膚の色の領域が顔の横にあるか否かを検出する監視方法では次のような問題が生じる。すなわち、携帯電話の持ち方や、話中に首を傾げる姿勢をとるか否かは、利用者によって様々であり、皮膚の色の領域が顔の横にあるか否かによって判定すると、携帯電話で話中であってもそのことを見落としてしまうことが生じやすい。この一方で、顔周辺の広い範囲で皮膚の色を検出する場合には、皮膚の色に近い背景といった手以外の体の部分を手と誤って検出してしまう可能性がある。このため、携帯電話で話していない利用者についても警告を発し、不要な迷惑をかけるおそれがある。

また、携帯電話で話す場合、話す声は重要な要素のひとつであるが、音声により判定正とすると、他のＡＴＭ利用者の声やノイズにより誤判定が生じるおそれがある。

本発明は上記問題点を解決し、画像内に電話で話をしている人の画像が含まれているか否かをより正確に検出する話中人物検出方法、話中人物検出装置、および話中人物検出プログラムを提供することを目的とするものである。

上記目的を達成する本発明の話中人物検出方法は、
複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出ステップと、
上記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定ステップと、
上記被検査領域決定ステップで決定された被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出ステップと、
上記特徴点検出ステップで検出された一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす方向を算出する顔方向算出ステップと、
上記主軸算出ステップで算出された主軸の方向と、上記顔方向算出ステップで取得された顔垂直線の方向との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定ステップとを有することを特徴とする。

本発明の話中人物検出方法では、画像中に電話で話をしている人の画像が含まれているか否かの判定が、人の皮膚の色の領域に属する各画素からの距離の総和が最小である主軸と、目を通る線と垂直な顔垂直線との方向の差に基づいて行われる。このため、人が話中に電話を保持する位置や、首を傾げたときの顔の角度に拘わらず、電話で話をしている人の画像が含まれているか否かを判定することが可能となる。したがって、検出漏れや誤検出が抑えられ、より正確な検出が行える。

ここで、上記本発明の話中人物検出方法において、上記被検査領域決定ステップが、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出ステップと、
上記皮膚抽出ステップで抽出された皮膚領域を外側に所定の距離だけ拡大することにより、上記被検査領域とする領域拡大ステップとを有するものであることが好ましい。

皮膚領域を拡大した被検査領域について主軸の方向を求めることで、例えば、人が電話を顔から話した状態で話している場合のように、画像内の顔から手が離れた場合であっても顔と手の領域が拡大され一体となった被検査領域について主軸の方向が求められるので、人が電話を持つ位置の多様さに対応した正確な検出が行える。

また、上記本発明の話中人物検出方法が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する方法であって、
上記特徴点検出ステップが、特徴点として口を検出するものであり、
この話中人物検出方法が、上記特徴点検出ステップでの複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出ステップを有し、
上記話中判定ステップが、上記主軸算出ステップで算出された主軸の方向と、上記顔角度算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、上記口動き検出ステップで口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることが好ましい。

顔垂直線と主軸の方向による判定に加え、口の動きの検出結果を合わせて判定することにより、誤検出の可能性が低減される。

また、上記本発明の話中人物検出方法において、
上記口動き検出ステップが、
上記特徴点検出ステップで検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定ステップと、
上記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出ステップと、
上記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較ステップとを有することが好ましい。

口の中心を含む口サンプル領域内の出現頻度どうしの相関により、誤検出を抑え口の動きを確実に検出することができる。

また、上記本発明の話中人物検出方法において、
上記口動き検出ステップが、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出ステップと、
上記エッジ抽出ステップで抽出されたエッジ画像を平滑化する平滑化ステップと、
上記平滑化ステップで平滑化されたエッジ画像上に、上記特徴点検出ステップで検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定ステップと、
上記仮輪郭線設定ステップで設定された探索曲線を変形しながら、上記平滑化ステップで平滑化されたエッジ画像のうちこの探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査ステップと、
上記口輪郭探査ステップで決定された各画像の口の輪郭の動きを検出する輪郭比較ステップとを有することが好ましい。

平滑化されたエッジ画像から口の輪郭線を決定することによって、口の輪郭の動きを確実に検出することができる。

また、上記目的を達成する本発明の話中人物検出装置は、
複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
上記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
上記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出部と、
上記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす方向を算出する顔方向算出部と、
上記主軸算出部によって算出された主軸の角度と、上記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えたことを特徴とする。

ここで、上記本発明の話中人物検出装置において、上記被検査領域決定部が、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
上記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、上記被検査領域とする領域拡大部とを備えたものであることが好ましい。

また、上記本発明の話中人物検出装置が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する装置であって、
上記特徴点検出部が、特徴点として口を検出するものであり、
この話中人物検出装置が、上記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
上記話中判定部が、上記主軸算出部によって算出された主軸の角度と、上記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、上記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることが好ましい。

また、上記本発明の話中人物検出装置において、上記口動き検出部が、
上記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
上記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
上記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたものであることが好ましい。

また、上記本発明の話中人物検出装置において、上記口動き検出部が、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
上記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
上記平滑化部によって平滑化されたエッジ画像上に、上記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
上記仮輪郭線設定部によって設定された探索曲線を変形しながら、上記平滑化部によって平滑化されたエッジ画像のうちこの探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
上記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたものであることが好ましい。

また、上記目的を達成する本発明の話中人物検出プログラムは、プログラムを実行する演算装置内で実行され、この演算装置を、話中人物検出装置として動作させる話中人物検出プログラムであって、
上記演算装置を、
複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
上記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
上記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出部と、
上記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす方向を算出する顔方向算出部と、
上記主軸算出部によって算出された主軸の角度と、上記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えた話中人物検出装置として動作させることを特徴とする。

ここで、上記本発明の話中人物検出プログラムにおいて、上記被検査領域決定部が、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
上記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、上記被検査領域とする領域拡大部とを備えたものであることが好ましい。

また、上記本発明の話中人物検出プログラムが、上記演算装置を、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出させる話中人物検出として動作させるプログラムであって、
上記特徴点検出部が、特徴点として口を検出するものであり、
この話中人物検出装置が、上記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
上記話中判定部が、上記主軸算出部によって算出された主軸の方向と、上記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、上記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることが好ましい。

また、上記本発明の話中人物検出プログラムにおいて、上記口動き検出部が、
上記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
上記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
上記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたものであることが好ましい。

また、上記本発明の話中人物検出プログラムにおいて、上記口動き検出部が、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
上記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
上記平滑化部によって平滑化されたエッジ画像上に、上記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
上記仮輪郭線設定部によって設定された探索曲線を変形しながら、上記平滑化部によって平滑化されたエッジ画像のうちこの探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
上記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたものであることが好ましい。

以上説明したように、本発明によれば、画像から話中の人物がいるか否かを正確に検出する話中人物検出方法、話中人物検出装置、および話中人物検出プログラムが実現する。

本発明の話中人物検出装置の一実施形態が応用された現金自動預入支払装置の構成を示すブロック図である。話中人物検出装置として動作するコンピュータのハードウエア構成図である。図２に示すコンピュータ３００を利用して実施される話中人物検出方法の一例を示すフローチャートである。第１実施形態の話中人物検出装置を示すブロック図である。図４に示すマスク方向算出部の内部構成を示すブロック図である。監視カメラ２０から出力された画像データの画像の例を示す図である。監視カメラから出力された画像データの画像と特徴点とを示す図である。監視カメラから出力された画像データの画像のうち、皮膚領域検出部で検出された皮膚領域を示す図である。図８に示す皮膚領域と、拡大領域算出部により算出された拡大領域とを示す図である。図９に示す拡大領域の主軸を示す図である。図７に示す画像データの画像と特徴点とから求められた顔垂直線を示す図である。図７に示す画像データの画像における口サンプル領域を示す図である。口サンプル領域内の画素の輝度Ｙごとの出現頻度を表わすグラフである。本発明の第２実施形態において図２に示すコンピュータ３００を利用して実施される話中人物検出方法を示すフローチャートである。本発明の第２実施形態に係る口動き検出部の構成を示すブロック図である。図１５に示す口動き検出部２５０による処理を説明する図である。輪郭線の膨らみと、探索曲線に重なる画素の値の積算値との関係を示すグラフである。

以下図面を参照して本発明の実施の形態を説明する。

図１は、本発明の話中人物検出装置の一実施形態が応用された現金自動預入支払装置の構成を示すブロック図である。

図１に示す現金自動預入支払装置１は、預金や振込みの手続きを行う利用者が使用する現金自動預入支払端末１０と、利用者を撮影する監視カメラ２０と、監視カメラ２０が撮影した画像から、携帯電話を使って話している人物を検出する話中人物検出装置３０とを備えている。

現金自動預入支払端末１０は、預金や振込みの手続きを行う利用者が手続きの操作を行うための装置であり、口座における金銭の決済を担う出入金管理装置と接続されている。現金自動預入支払端末１０は、利用者が操作する操作部１１と、利用者に対するメッセージの画像を表示する表示部１２と、利用者が携帯するカードから情報を読み出すカードリーダ１３と、現金の支払いや受け入れを担う現金取扱部１４と、現金自動預入支払端末１０の各部を制御する端末制御部１５とを備えている。操作部１１は、例えば表示部１２上に重ねて配置されたタッチパネルである。

利用者が表示部１２に表示されたメッセージに応じて操作部１１から手続きの指示や金額等の情報を入力するとともに、カードに記録された預金口座の情報をカードリーダ１３に読み込ませるか、あるいは現金取扱部１４に現金を投入すると、端末制御部１５が出入金管理装置と通信して、口座や金額の情報をやり取りする。この結果、指定された金額が指定された口座に振り込まれることとなる。

監視カメラ２０は、現金自動預入支払端末１０を操作する利用者の頭部およびその周囲を、利用者のほぼ正面から撮影する向きに設置されている。監視カメラ２０は、図示しない固体撮像素子によって画像を撮影して生成した画像データを出力する。画像データは、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３色分の画素値によって表わされる画素の２次元的配列からなる画像を表わす。監視カメラ２０は、画像を一定の間隔で連続して撮影し、画像データを順次出力する。

話中人物検出装置３０は、監視カメラ２０から出力される画像データを受信し、画像データが表わす画像の中に、電話で話をする人を表わす画像が含まれているか否かを検出する。尚、以下では、データ上の画像も単に「画像」と称する。

本実施形態の話中人物検出装置３０における処理は、プログラムを実行するコンピュータによって実現されている。話中人物検出装置３０は、現金自動預入支払端末１０と接続されており、電話で話している人物を検出するとその結果を現金自動預入支払端末１０に送信する。この場合、現金自動預入支払端末１０の端末制御部１５は、表示部１２に、振り込め詐欺に遭っている危険性を警告するメッセージを表示させる。これによって、利用者に、詐欺に遭っている危険性が報知される。また、話中人物検出装置３０は、ネットワークＮを介して監視装置Ｓとも接続されており、検出結果が監視装置Ｓにも送信される。この場合、話中人物検出装置３０に接続されたモニタＭに、現金自動預入支払端末１０の利用者が詐欺に遭っていることを警告するメッセージを表示させる。これによって、金融機関の職員や警備員等に、詐欺が発生している可能性が報知される。

図１に示す各ブロックのうち、話中人物検出装置３０の他のブロックは本発明の主題ではないため詳細な説明を省略し、以下では、本発明の一実施形態である話中人物検出装置についてさらに説明する。

図２は、話中人物検出装置として動作するコンピュータのハードウエア構成図である。

ここでは、このコンピュータ３００のハードウエアおよびＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）と、このコンピュータ３００にインストールされて実行される話中人物検出プログラムとにより、本発明の一実施形態としての話中人物検出装置３０（図１参照）が構成されている。

このコンピュータ３００は、各種プログラムを実行するＣＰＵ３０１、ハードディスク装置３０３に格納されたプログラムが読み出されＣＰＵ３０１での実行のために展開される記憶部としての主メモリ３０２、各種プログラムやデータ等が保存されたハードディスク装置３０３、ＭＯ３３１が装填されてその装填されたＭＯ３３１をアクセスするＭＯドライブ３０４、ＣＤやＤＶＤ（ここでは区別せずにＣＤ／ＤＶＤと称する）が装填され、その装填されたＣＤ／ＤＶＤ３３２をアクセスするＣＤ／ＤＶＤドライブ３０５、および図１に示す監視カメラ２０での撮影により得られた画像データを受信するインターフェース３０６が内蔵されており、これらがバス３０７を介して相互に接続されている。また、コンピュータ３００には、ＣＰＵ３０１からの指示に応じて表示画面上に画像を表示する画像表示装置３２と、メンテナンス作業者の操作に応じた各種の情報を入力するキーボード３３およびマウス３４も備えられており、これらもバス３０７を介して相互に接続されている。

ここで、ＣＤ／ＤＶＤ３３２には、このパーソナルコンピュータを話中人物検出装置として動作させるための話中人物検出プログラムが記憶されており、そのＣＤ／ＤＶＤ３３２は、ＣＤ／ＤＶＤドライブ３０５に装填され、そのＣＤ／ＤＶＤ３３２に記憶された話中人物検出プログラムがこのコンピュータ３００にアップロードされてハードディスク３０３に格納される。このハードディスク装置３０３に格納された話中人物検出プログラムは、このハードディスク装置３０３から読み出され主メモリ３０２上に展開されてＣＰＵ３０１で実行されることにより、このコンピュータ３００が話中人物検出装置３０として動作する。

図３は、図２に示すコンピュータ３００を利用して実施される話中人物検出方法の一例を示すフローチャートである。

この図３に示す話中人物検出方法は、特徴点検出ステップ（Ｓ１０）と、被検査領域決定ステップ（Ｓ２０）と、マスク方向算出ステップ（Ｓ３０）と、顔方向算出ステップ（Ｓ４０）と、口動き検出ステップ（Ｓ５０）と、話中判定ステップ（Ｓ６０）とを有する。

特徴点検出ステップ（Ｓ１０）は、監視カメラ２０から受信した画像データが表す画像から顔の特徴点、より詳細には一対の目および口を検出する。特徴点検出ステップは、顔検出ステップ（Ｓ１１）と、目・口位置検出ステップ（Ｓ１２）とを有する。各ステップの詳細は後述する。

被検査領域決定ステップ（Ｓ２０）は、画像内における人の皮膚の色に属する画素からなる領域を囲った被検査領域を決定する。被検査領域決定ステップは、顔皮膚サンプリングステップ（Ｓ２１）と、皮膚色モデルステップ（Ｓ２２）と、皮膚領域検出ステップ（Ｓ２３）と、拡大領域算出ステップ（Ｓ２４）とを有する。各ステップの詳細は後述する。

マスク方向算出ステップ（Ｓ３０）は、被検査領域決定ステップで決定された被検査領域に属する各画素からの距離の総和が最小である主軸が画像上の基準線となすマスク方向を算出する。この詳細は後述する。

顔方向算出ステップ（Ｓ４０）は、特徴点検出ステップで検出された一対の目のそれぞれを通る線と垂直な顔垂直線が画像上の基準線となす方向を算出する。この詳細は後述する。

口動き検出ステップ（Ｓ５０）は、監視カメラ２０から受信する複数の画像のそれぞれについて、特徴点検出ステップの口の検出結果を利用して口の動きを検出する。口動き検出ステップは、口中心部位置推定ステップ（Ｓ５１）と、ヒストグラム算出ステップ（Ｓ５２）と、前後変化比較ステップ（Ｓ５３）とを有する。各ステップの詳細は後述する。

話中判定ステップ（Ｓ６０）は、マスク方向算出ステップ（Ｓ３０）で算出された主軸の方向と、顔方向算出ステップ（Ｓ４０）で取得された顔垂直線の方向との差に基づいて、画像中に電話で話をしている人の画像が含まれているか否かを判定する。話中判定ステップは、通話状態判定ステップ（Ｓ６１）と、携帯持ち姿勢判定ステップ（Ｓ６２）と、携帯姿勢判定ステップ（Ｓ６３）とを有する。各ステップの詳細は後述する。

ここで、マスク方向算出ステップが本発明の主軸算出ステップの一例に相当する。また、口中心部位置推定ステップが、本発明にいう口サンプル領域設定ステップの一例に相当し、ヒストグラム算出ステップが、本発明にいう分布算出ステップの一例に相当し、前後変化比較ステップが、本発明にいう頻度比較ステップの一例に相当する。また、皮膚領域検出ステップが本発明にいう皮膚抽出ステップの一例に相当し、拡大領域算出ステップが本発明にいう領域拡大ステップの一例に相当する。

続いて、話中人物検出装置について概要から説明する。

図４は、第１実施形態の話中人物検出装置を示すブロック図である。この話中人物検出装置３０は、図２に示すコンピュータ３００内にアップロードされた話中人物検出検出プログラムがコンピュータ３００内で実行されることによりそのコンピュータ３００内に実現される処理装置である。話中人物検出装置３０は、特徴点検出部１１０と、被検査領域決定部１２０と、マスク方向算出部１３０と、顔方向算出部１４０と、口動き検出部１５０と、話中判定部１６０とを有する。

特徴点検出部１１０は、監視カメラ２０から受信した画像データが表す画像から顔の特徴点、より詳細には一対の目および口を検出する。特徴点検出部１１０は、顔検出部１１１と、目・口位置検出部１１２とを有する。被検査領域決定部１２０は、画像内における人の皮膚の色に属する画素からなる領域を囲った被検査領域を決定する。被検査領域決定部１２０は、顔皮膚サンプリング部１２１と、皮膚色モデル部１２２と、皮膚領域検出部１２３と、拡大領域算出部１２４とを有する。マスク方向算出部１３０は、被検査領域決定部１２０で決定された被検査領域に属する各画素からの距離の総和が最小である主軸が画像上の基準線となすマスク方向を算出する。顔方向算出部１４０は、特徴点検出部１１０で検出された一対の目のそれぞれを通る線と垂直な顔垂直線が画像上の基準線となす方向を算出する。口動き検出部１５０は、監視カメラ２０から受信する複数の画像のそれぞれについて、特徴点検出部１１０によるの口の検出結果を利用して口の動きを検出する。口動き検出部１５０は、口中心部位置推定部１５１と、ヒストグラム算出部１５２と、前後変化比較部１５３とを有する。また、話中判定部１６０は、マスク方向算出部１３０で算出された主軸の方向と、顔方向算出部１４０で算出された顔垂直線の方向との差、そしてさらに、口動き検出部１５０によって検出された口の動きに基づいて、画像中に電話で話をしている人の画像が含まれているか否かを判定する。話中判定部１６０は、通話状態判定部１６１と、携帯持ち姿勢判定部１６２と、携帯姿勢判定部１６３とを有する。

ここで、マスク方向算出部１３０が本発明の主軸算出部の一例に相当する。

図３に示す話中人物検出方法との対比では、図４の特徴点検出部１１０が図３の特徴点検出ステップＳ１０に相当し、被検査領域決定部１２０が被検査領域決定ステップＳ２０に相当し、マスク方向算出部１３０がマスク方向算出ステップＳ３０に相当し、顔方向算出部１４０が顔方向算出ステップＳ４０に相当し、口動き検出部１５０が口動き検出ステップＳ５０に相当し、話中判定部１６０が話中判定ステップＳ６０に相当する。

また、図４の顔検出部１１１が図３の顔検出ステップＳ１１に相当し、目・口位置検出部１１２が目・口位置検出ステップＳ１２に相当し、顔皮膚サンプリング部１２１が顔皮膚サンプリングステップＳ２１に相当し、皮膚色モデル部１２２が皮膚色モデルステップＳ２２に相当し、皮膚領域検出部１２３が皮膚領域検出ステップＳ２３に相当し、拡大領域算出部１２４が拡大領域算出ステップＳ２４に相当し、口中心部位置推定部１５１が口中心部位置推定ステップＳ５１に相当し、ヒストグラム算出部１５２がヒストグラム算出ステップＳ５２に相当し、前後変化比較部１５３が前後変化比較ステップＳ５３に相当し、通話状態判定部１６１が通話状態判定ステップＳ６１に相当し、携帯持ち姿勢判定部１６２が携帯持ち姿勢判定ステップＳ６２に相当し、携帯姿勢判定部１６３が携帯姿勢判定ステップＳ６３に相当する。

また、図４の各部の間を結ぶ矢印は、各部間でやり取りされる主要なデータの流れを表わしている。より詳細には、図４に示す各部は、データをやり取りする際に、データを出力する側が処理結果のデータを図２に示す主メモリ３０２に記憶させ、データを受け取る側が主メモリ３０２から処理対象のデータを読み出す。つまり、データのやり取りは、主メモリ３０２への書き込みおよび主メモリ３０２からの読出しを介して行われるが、各部の機能、およびデータの流れを分かりやすくするため、各部による主メモリ３０２への書き込みおよび読出しについては図示および説明を適宜省略する。

また、コンピュータ３００内で話中人物検出プログラムが実行されたときの話中人物検出プログラムの作用は、図４に示す話中人物検出装置の作用と同一であり、ここでは、話中人物検出プログラムを取り上げての図示および説明は省略する。

図５は、図４に示すマスク方向算出部の内部構成を示すブロック図である。

図５に示すマスク方向算出部１３０は、マスク方向算出部１３０に与えられた領域のモメントを算出するモメント算出部１３１と、モメント算出部１３１によって算出されたモメントから、与えられた領域の主軸が、画像上の基準線となす方向を算出する方向算出部１３２とを有する。マスク方向算出部１３０の詳細については後述する。

以下では、図４に示す話中人物検出装置３０の各部の作用について説明する。
この説明により話中人物検出プログラムおよび図３に示す話中人物検出方法の説明を兼ねるものとする。

図４に示す話中人物検出装置３０は、監視カメラ２０によって撮影された、複数色分の画素値によって表わされる画素の２次元的配列からなる画像から、電話で話をしている人の画像が含まれているか否かを検出する装置である。

監視カメラ２０から出力された画像データは、特徴点検出部１１０、被検査領域決定部１２０、顔方向算出部１４０、マスク方向算出部１３０、および口動き検出部１５０に入力される。より詳細には、画像データは主メモリ３０２（図２参照）に一旦記憶され、その後、必要に応じて主メモリ３０２から読み出され、特徴点検出部１１０、被検査領域決定部１２０、顔方向算出部１４０、マスク方向算出部１３０、および口動き検出部１５０の処理に利用される。

特徴点検出部１１０は、画像データが表す画像から顔の特徴点、より詳細には一対の目および口を検出する。特徴点検出部１１０の顔検出部１１１は、画像から人の顔の目および口を囲む矩形領域を検出する。矩形領域の検出には、例えば特開２００６−２８５９５９に示された公知の方法を用いることができ、この方法による矩形領域の検出方法を説明する。

顔検出部１１１は、入力された画像データの画像から、例えば３２×３２画素サイズの部分画像を切り出すサブウィンドウを設定し、サブウィンドウを例えば５画素分ずつ移動させながら、このサブウィンドウで切り出された部分画像が顔の画像であるか否かの判別を行う。画像上での顔の大きさは、監視カメラ２０のズーム倍率や利用者自身の顔の大きさによって異なるため、サブウィンドウで部分画像を切り出す対象の画像としては、入力された画像そのものだけでなく、入力された画像を複数段階の解像度に変換した複数の画像、さらに、これら複数の画像を複数段階の角度で回転処理した複数の画像も対象とする。

切り出された部分画像が顔の画像であるか否かの判別は、例えば３２×３２画素サイズで規格化された、前もって顔であることが分かっているサンプル画像と、前もって顔でないことが分かっているサンプル画像とについて評価スコアを算出しておき、サブウィンドウで切り出した部分画像についての評価スコアとの一致度を算出することによって行う。ここで評価スコアは、３２×３２画素サイズの各画像内の所定の２点を１ペアとして、複数のペアからなるペア群を設定したときの、各ペアにおける２点間の輝度の差分を算出したときの、ペア群における差分の分布すなわち、差分に対する頻度のヒストグラムである。

顔検出部１１１は、監視カメラ２０から受けた画像、およびこの画像を解像度変換し回転処理して生成した複数の画像のそれぞれについて、サブウィンドウを移動しながら部分画像を順次切り出し、切り出した部分画像の評価スコアを算出する。その結果、顔であることが分かっているサンプル画像の評価スコアとの一致度が高く、かつ、顔でないことが分かっているサンプル画像の評価スコアとの一致度が低いサブウィンドウを選択する。このサブウィンドウが、顔を含んだ矩形領域となる。なお、評価スコアとの一致度は、具体的には、ヒストグラムの相関係数を算出することによって求められる。

図６は、監視カメラ２０から出力された画像データの画像の例を示す図である。

図６に示す画像は、監視カメラ２０から出力された１フレーム分の画像データが表わす画像であり、この例の画像には、携帯電話で話をしている人の画像が含まれている。特徴点検出部１１０の顔検出部１１１では、図６に示す画像から、顔であることが分かっているサンプル画像の評価スコアとの一致度が高く、かつ、顔でないことが分かっているサンプル画像の評価スコアとの一致度が低いサブウィンドウである矩形領域Ｗが選択される。

特徴点検出部１１０の目・口位置検出部１１２は、顔検出部１１１から矩形領域Ｗの位置および矩形領域Ｗの画像を表すデータを顔検出部１１１から受け取り、画像の矩形領域Ｗ内における、目および口の位置を検出する。より詳細には、目として瞳を検出する。目および口の位置は、一般的な瞳および口の色範囲に属する画素を探索することで検出する。目・口位置検出部１１２は、瞳のそれぞれの中心、および口の両端すなわち口角の位置を目および口位置として決定する。

図７は、監視カメラから出力された画像データの画像と特徴点とを示す図である。

図７に示す画像には、図６と同じ画像が含まれており、さらに、目・口位置検出部１１２によって、目の位置Ｐ１，Ｐ２および口の両端の位置Ｐ３，Ｐ４が検出されている。目の位置Ｐ１，Ｐ２および口の両端の位置Ｐ３，Ｐ４を表わす位置データは、主メモリ３０２を介して、被検査領域決定部１２０、顔方向算出部１４０、および口動き検出部１５０に送られる。

被検査領域決定部１２０は、画像内における人の皮膚の色に属する画素からなる領域を囲った被検査領域を決定する。

被検査領域決定部１２０の顔皮膚サンプリング部１２１は、目・口位置検出部１１２によって決定された目の位置Ｐ１，Ｐ２および口の両端の位置Ｐ３，Ｐ４を表わすデータに基づいて、皮膚の色のモデルを抽出すべきサンプリング領域を決定する。より詳細には、顔皮膚サンプリング部１２１は、例えば、目の位置Ｐ１，Ｐ２および口の両端の位置Ｐ３，Ｐ４の中央を中心とする領域をサンプリング領域として決定する。

皮膚色モデル部１２２は、監視カメラ２０から出力された画像データの画像のうち、被検査領域決定部１２０によって決定されたサンプリング領域内の各画素値をサンプリングする。各画素は、赤（Ｒ），緑（Ｇ），青（Ｂ）の３色分の画素値によって表わされている。皮膚色モデル部１２２は、各画素の画素値から３つの色差値Ｒ−Ｙ，Ｇ−Ｙ，Ｂ−Ｙを算出し、サンプリング領域内の複数の画素の、色差値Ｒ−Ｙのレベルごとの出現頻度、色差値Ｇ−Ｙのレベルごとの出現頻度、および、色差値Ｂ−Ｙのレベルごとの出現頻度を算出する。この３つの出現頻度が皮膚色モデルである。ここで、Ｙは画素の輝度であり、輝度Ｙは、３色分の画素値から、下式によって算出される。
Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ
各色差における皮膚色モデルの出現頻度は、色差値の平均値を頂点とする、正規分布に類似した分布となることが通常である。

皮膚領域検出部１２３は、皮膚色モデル部１２２で算出された皮膚色モデルを利用して、監視カメラ２０から出力された画像データの画像から皮膚の領域を検出する。より詳細には、皮膚領域検出部１２３は、図７に示す画像の全ての画素について画素値から３つの色差値Ｒ−Ｙ，Ｇ−Ｙ，Ｂ−Ｙを算出し、各画素の色差値が、皮膚色モデル部１２２で算出された皮膚色モデルである出現頻度のどの位置にあるかを求めることによって、皮膚といえる確からしさを求める。より詳細には、皮膚領域検出部１２３は、判定対象となる各画素の色差値が、皮膚色モデルである出現頻度の平均値からどの程度の偏差をもって離れているかに応じて、皮膚といえる確率を算出し、この確率が所定の閾値以上の場合に皮膚であると判定する。例えば、対象画素の色差値が出現頻度の±ａσ（ここで、ａは定数であり、σは標準偏差である。）に対応する確率より大きければ皮膚とみなす。この結果、監視カメラ２０から出力された画像データの画像中において、人の皮膚であると判定された画素からなる皮膚領域が抽出される。皮膚領域検出部１２３は、検出結果として、各画素が皮膚か否かの２値からなるデータを出力する。

図８は、監視カメラから出力された画像データの画像のうち、皮膚領域検出部で検出された皮膚領域を示す図である。

図８に示す画像には、図７に示した人の、顔の領域Ｆと手の領域Ｈとが、皮膚領域として判定された状態が示されている。

被検査領域決定部１２０の拡大領域算出部１２４は、皮膚領域検出部１２３によって抽出された皮膚領域をこの皮膚領域の外側に所定の距離だけ拡大することにより、後段のマスク方向算出部１３０の処理対象となる被検査領域を算出する。より詳細には、拡大領域算出部１２４は、例えば、図８に示す顔の領域Ｆと手の領域Ｈをそれぞれの外側に所定の距離だけ拡大した領域を被検査領域とする。

図９は、図８に示す皮膚領域と、拡大領域算出部により算出された拡大領域とを示す図である。

図９に示す画像には、皮膚領域として抽出された人の顔の領域Ｆおよび手の領域Ｈが示され、さらに、これら顔の領域Ｆおよび手の領域Ｈのそれぞれが外側に拡大した拡大領域Ｇが示されている。拡大領域算出部１２４によって、皮膚領域を拡大した拡大領域を算出することにより、例えば、利用者が、携帯電話を顔から話して持った場合や、携帯電話によって画像中の顔と手が離れた状態であっても、後段のマスク方向算出部１３０の処理対象となる領域を一体の領域として扱うことができる。

拡大領域算出部１２４によって、皮膚領域を拡大する具体的な方法としては、皮膚領域に含まれる全ての画素のそれぞれについて、その画素から例えば１０画素分相当といった所定の距離の範囲にある画素を一律に拡大領域の画素とする、いわゆる膨張法が採用される。ただし、皮膚領域を拡大する具体的な方法としては、この膨張法に限らず、例えば、皮膚領域の輪郭に対応する画素から領域の外側に向かって所定の距離までにある画素を拡大領域とする方法も採用可能である。

皮膚領域検出部１２３は、検出結果として、各画素が拡大領域に属するか否かの２値で表されたデータを出力する。

ここで、皮膚領域検出部１２３が本発明にいう皮膚抽出部の一例に相当し、拡大領域算出部１２４が本発明にいう領域拡大部の一例に相当する。

マスク方向算出部１３０は、拡大領域算出部１２４によって算出された拡大領域Ｇを対象領域とし、この拡大領域Ｇに属する各画素からの距離の総和が最小である主軸が画像上の基準線となす方向を算出する。

図５に示すモメント算出部１３１は、拡大領域算出部１２４によって算出された拡大領域のモメントを算出する。また、方向算出部１３２は、モメント算出部１３１によって算出されたモメントから、上記拡大領域の主軸が、画像上の基準線となす方向を算出する。

まず、拡大領域のモメントの算出について説明する。モメントを算出する前提として、拡大領域の重心を算出する。

拡大領域に画素がＮ個あったとした場合、これらＮ個の画素の画像上の２次元座標における位置を（ｘ_１、ｙ_１）（ｘ_２、ｙ_２）…（ｘ_Ｎ、ｙ_Ｎ）とし、このうちｎ番目の画素の画像上の位置を（ｘ_ｎ、ｙ_ｎ）とすると、拡大領域の重心の位置（ｇ_ｘ，ｇ_ｙ）は下の２つの式によって算出される。

算出された重心の座標を用いて、次に、拡大領域のモメントｍ_ｘｙ、ｍ_ｘｘ、ｍ_ｙｙが下式によって算出される。

最後に、モメントｍ_ｘｙ、ｍ_ｘｘ、ｍ_ｙｙから、下式によって拡大領域の主軸（第一主軸）の方向ｄｉｒｅｃｔｉｏｎが算出される。

ここで、主軸とは、被検査領域である拡大領域に属する各画素からの距離の総和が最小である直線である。主軸は、拡大領域の総体形状が延びる方向を示している。

図１０は、図９に示す拡大領域の主軸を示す図である。

図１０には、重心の位置（ｇ_ｘ，ｇ_ｙ）を通る主軸Ｊが示されている。主軸Ｊは、画像内の手の領域Ｈ（図８参照）の影響を受けて、画像の左上から右下に延びる向きに傾いている。

拡大領域の主軸Ｊが画像上の垂直線Ｖとなす方向ｄｉｒｅｃｔｉｏｎが、マスク方向算出部１３０によって算出される。

図４に示す顔方向算出部１４０は、画像内の人すなわち利用者が頭を傾げた方向を求める。より詳細には、顔方向算出部１４０は、特徴点検出部１１０によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が画像の基準線となす方向を取得する。

図１１は、図７に示す画像データの画像と特徴点とから求められた顔垂直線を示す図である。

顔方向算出部１４０は、特徴点検出部１１０によって検出された一対の目の位置Ｐ１，Ｐ２の座標位置データから、位置Ｐ１，Ｐ２に対する垂直２等分線を算出し、この垂直２等分線を顔垂直線Ｋとする。顔方向算出部１４０は、さらに、顔垂直線Ｋの方向を算出する。

話中判定部１６０は、マスク方向算出部１３０によって算出された主軸の方向ｄｉｒｅｃｔｉｏｎと、顔方向算出部１４０によって取得された顔垂直線の方向との差に基づいて、画像中に電話で話をしている人の画像が含まれているか否かを判定する。ただし、話中判定部１６０は、口動き検出部１５０によって画像中の人の口の動きが検出されたか否かも含めて最終的な判定を行うので、先に、口動き検出部１５０について説明する。

口動き検出部１５０は、監視カメラ２０から一定間隔で出力された複数のフレームを表わす複数の画像から、話中の口の動きを検出する。すでに説明した特徴点検出部１１０の目・口位置検出部１１２は、複数の画像のそれぞれについて口の両端の位置を決定する。

口動き検出部１５０の口中心部位置推定部１５１は、複数の画像のそれぞれについて、目・口位置検出部１１２によって決定された口の両端の位置の中央に、口サンプル領域を設定する。

図１２は、図７に示す画像データの画像における口サンプル領域を示す図である。

図１２に示すように、口中心部位置推定部１５１は、目・口位置検出部１１２によって決定された口の両端の位置Ｐ３，Ｐ４の中点の周囲に口に重なる口サンプル領域Ｒを設定する。

ヒストグラム算出部１５２は、口中心部位置推定部１５１で設定された口サンプル領域Ｒ内の各画素の輝度Ｙを算出し、口サンプル領域Ｒ内の画素の、輝度Ｙごとの出現頻度を求める。

図１３は、口サンプル領域内の画素の輝度Ｙごとの出現頻度を表わすグラフである。図１３のパート（Ａ）は、あるフレームｉの画像における口サンプル領域Ｒ内の出現頻度を示すグラフであり、パート（Ｂ）は、上記フレームｉの次のフレームｊの画像における口サンプル領域内の出現頻度を示すグラフである。

ヒストグラム算出部１５２は、より詳細には、輝度Ｙをその値に応じてＭ個の区間（ビン）に分け、輝度が各区間に属する画素の数（頻度）を算出することによって輝度分布を求める。画像中の人が携帯電話で話をしていると、口が開いたり閉じたりして動くため、口サンプル領域内には、画像（フレーム）によって唇の部分が多く含まれたり、口の中の暗い部分や歯の部分が含まれたりする。このため、画像中の人が話をしていると、輝度分布は、画像ごとに変化する。例えば、図１３のパート（Ａ）に示すフレームｉの画像における出現頻度とパート（Ｂ）に示す次のフレームｊの画像における出現頻度は異なっている。

前後変化比較部１５３は、監視カメラ２０から一定間隔で出力された複数の画像のうちの前後のフレームの出現頻度を比較し相関を求める。本実施形態における前後変化比較部１５３は、あるフレームとその次のフレームとを比較するが、比較対象となるフレームの組は、例えば、監視カメラが出力するフレームレートに応じて、あるフレームと、その数フレーム分先のフレームとすることも可能である。

前後変化比較部１５３は、より詳細には、下式を算出することによって、各フレームのヒストグラム間の距離を表わす相関係数Ｃｙを求める。

ここで、ｑ_ｉｍは、あるフレームｉのｍ番目の区間に属する画素の頻度であり、ｑ_ｊｍは、次のフレームｊのｍ番目の区間に属する画素の頻度である。

前後変化比較部１５３は、口の動きの検出結果を表わすデータとして、上式で算出した相関係数Ｃｙの値を出力する。

ここで、口中心部位置推定部１５１は、本発明にいう口サンプル領域設定部の一例に相当し、ヒストグラム算出部１５２はは、本発明にいう分布算出部の一例に相当する。また、前後変化比較部１５３は、本発明にいう頻度比較部の一例に相当する。

続いて、再び、話中判定部１６０について説明する。

話中判定部１６０の携帯持ち姿勢判定部１６２は、マスク方向算出部１３０によって算出された主軸の方向ｄｉｒｅｃｔｉｏｎと、顔方向算出部１４０によって取得された顔垂直線の方向との差に応じて、画像中に携帯電話を持っている姿勢の人の画像が含まれているか否かを判定する。具体的には、主軸の方向ｄｉｒｅｃｔｉｏｎと顔垂直線の方向との差が、予め定めた閾値を超える場合に携帯電話を持っている姿勢の人の画像が含まれていると判定する。

また、話中判定部１６０の通話状態判定部１６１は、前後変化比較部１５３によって算出された相関係数Ｃｙが、予め定めた閾値を超える場合に、画像中の人が話をしていると判定する。

携帯姿勢判定部１６３は、携帯持ち姿勢判定部１６２によって、携帯電話を持っている姿勢の人の画像が含まれていると判定と判定され、かつ、話中判定部１６０によって、画像中の人が話をしていると判定された場合に、画像中の人が携帯電話で話をしていると判定する。携帯姿勢判定部１６３による判定結果は、話中人物検出装置３０の判定結果として出力される。

このようにして、話中人物検出装置３０が、監視カメラ２０から出力された画像中に電話で話をしている人の画像が含まれているか否かを判定する。話中人物検出装置３０が、電話で話をしている人の画像が含まれていると判定すると、その結果は、図１を参照して説明した端末制御部１５に送信されて表示部１２に警告メッセージが表示されたり、結果が監視装置Ｓに送信されて、職員や警備員が見るモニタＭに警告メッセージが表示される。

本実施形態の話中人物検出装置３０によれば、画像中に電話で話をしている人の画像が含まれているか否かの判定が、人の皮膚の色に属する画素からなる領域を囲った被検査領域Ｇ（図９参照）に属する各画素からの距離の総和が最小である主軸Ｊ（図１０参照）と、目を通る線と垂直な顔垂直線Ｋ（図１１）との方向に基づいて行われる。このため、図６に示す画像の例のように、人が話中に電話を保持する位置や、首を傾げたときの顔の方向に拘わらず、電話で話をしている人の画像が含まれているか否かを判定することが可能となる。したがって、人が電話を保持する位置や首を傾げたときの検出漏れや誤検出が抑えられ、より正確な検出が行える。

また、主軸Ｊを求める被検査領域Ｇ（図９参照）は、皮膚領域Ｆ，Ｈ（図８参照）を外側に拡大した領域とすることによって、人が電話を顔から話した状態で話している場合でも、拡大によって一体となった被検査領域について主軸が求められる。したがって、電話を持つ多様な位置に対応可能である。

次に、本発明の第２実施形態について説明する。

図１４は、本発明の第２実施形態において図２に示すコンピュータ３００を利用して実施される話中人物検出方法を示すフローチャートである。

図１４に示す話中人物検出方法は、図３に示す第１実施形態の話中人物検出方法とは、口動き検出ステップＳ２５０が異なる。口動き検出ステップＳ２５０は、口近傍エッジ抽出ステップ（Ｓ２５１）と、平滑化処理ステップ（Ｓ２５２）と、口輪郭仮設定ステップ（Ｓ２５３）と、輪郭探査ステップ（Ｓ２５４）と、前後変化比較ステップ（Ｓ２５５）とを有する。第２実施形態の口動き検出ステップＳ２５０の詳細については、後に、口動き検出部の処理として説明する。

ここで、口近傍エッジ抽出ステップが本発明にいうエッジ抽出ステップの一例に相当し、平滑化処理ステップが本発明にいう平滑化ステップの一例に相当し、口輪郭仮設定ステップが本発明にいう仮輪郭線設定ステップの一例に相当する。また、輪郭探査ステップが本発明にいう口輪郭探査ステップの一例に相当し、前後変化比較ステップが本発明にいう輪郭比較ステップの一例に相当する。

図２に示すコンピュータ３００で、図１４に示す話中人物検出方法を実行するプログラムがインストールされることにより実現する第２実施形態の話中人物検出装置は、口動き検出部の構成および検出方法が図４に示す第１実施形態の話中人物検出装置と異なり、その他の点は第１実施形態と同じである。そこで、第２実施形態については、図１４の口動き検出ステップＳ２５０に対応する口動き検出部について図示および説明し、その他の部分については必要に応じて第１実施形態における図を流用して説明する。

図１５は、本発明の第２実施形態に係る口動き検出部の構成を示すブロック図である。

図１５に示す口動き検出部２５０は、口近傍エッジ抽出部２５１と、平滑化処理部２５２と、口輪郭仮設定部２５３と、輪郭探査部２５４と、前後変化比較部２５５とを有する。

ここで、口近傍エッジ抽出部２５１が本発明にいうエッジ抽出部の一例に相当し、平滑化処理部２５２が本発明にいう平滑化部の一例に相当し、口輪郭仮設定部２５３が本発明にいう仮輪郭線設定部の一例に相当する。また、輪郭探査部２５４が本発明にいう口輪郭探査部の一例に相当し、前後変化比較部２５５が本発明にいう輪郭比較部の一例に相当する。

口近傍エッジ抽出部２５１は、目・口位置検出部１１２（図４参照）によって決定された口の両端の位置を含む領域を探査領域として設定し、探査領域内の画像データにシャープネスフィルタ処理を施して、各画素の画素値の、隣接する画素の画素値に対する変化分を算出し、この変化分からなる画素値を持つエッジ画像を抽出する。口近傍エッジ抽出部２５１は、例えば、図７に示す画像のうち、口の両端の位置Ｐ３，Ｐ４を含む領域を探査領域とする。探査領域は、標準的な顔の画像の統計に基づき、口の全体を囲み、かつ、鼻や目や顔輪郭外の部分といった口以外の部分を含まない大きさである。

図１６は、図１５に示す口動き検出部２５０による処理を説明する図である。図１６のパート（Ａ）からパート（Ｄ）には、口動き検出部２５０の各部による処理を表わす画像が処理の順に示されている。図１６のパート（Ａ）からパート（Ｄ）には、探査領域内の画像が示されている。

口近傍エッジ抽出部２５１は、例えば、図１６のパート（Ａ）に示すように、口の両端の位置Ｐ３，Ｐ４を含む探査領域Ｑを設定し、探査領域Ｑ内の画素値にシャープネスフィルタ処理を施して、画像中のエッジを抽出する。図１６のパート（Ｂ）には、シャープネスフィルタ処理の結果エッジが示されている。尚、この時点では、図示はしないが、例えばほくろの輪郭や顔の細かい凹凸によるエッジも含まれる。

平滑化処理部２５２は、エッジを表わす画像データに対し、平滑化処理を施す。平滑化処理は、例えば、隣接画素の画素値との平均を算出する平均フィルタ処理によって実現される。平滑化処理によって、図１６のパート（Ｂ）に示すエッジの画像は、パート（Ｃ）に示す、ぼやけた画像となる。例えば、ほくろの輪郭や顔の細かい凹凸によるエッジは、平滑化処理によって小さな値（画像としては薄い点）になる。

口輪郭仮設定部２５３は、平滑化処理が施された画像に、仮の口の輪郭としての探索曲線を設定する。図１６のパート（Ｄ）には、仮の口の輪郭線Ｔが示されている。この仮の探索曲線Ｔは、口の両端の位置Ｐ３，Ｐ４を通り上側に膨らんだ形の曲線である。仮の探索曲線Ｔの膨らみは、標準的な顔の画像の統計に基づき、一般的な口の輪郭よりも探索曲線Ｔが口の外側に配置されるように設定される。したがって、口輪郭仮設定部２５３によって設定された仮の探索曲線Ｔは、探査領域Ｑ内の口よりもはみ出した位置に配置される。

輪郭探査部２５４は、口輪郭仮設定部２５３によって設定された探索曲線Ｔを、口の両端の位置Ｐ３，Ｐ４を通る直線に少しずつ近づけるように、膨らみを小さく変形して、各位置の探索曲線に重なる各画素の、エッジ抽出処理および平滑化処理後の値の積算値を算出する。

図１７は、輪郭線の膨らみと、探索曲線に重なる画素の値の積算値との関係を示すグラフである。

図１７に示すように、探索曲線の膨らみを、仮の探索曲線の膨らみ（ｂ０）から次第に小さくするように変形しながら積算値を算出すると、積算値は、次第に大きくなり、唇の、上の輪郭と重なる状態（グラフ上のｂ１）でピークとなる。輪郭探査部２５４は、このときの探索曲線を画像中の口の輪郭線とみなして決定する。

口近傍エッジ抽出部２５１、平滑化処理部２５２、口輪郭仮設定部２５３、および輪郭探査部２５４は、監視カメラ２０から一定間隔で出力された複数の画像のそれぞれに対し処理を順次実行する。

前後変化比較部２５５は、複数の画像のうちの前後の画像について、輪郭探査部２５４により決定された探索曲線の形、より詳細には膨らみを表すパラメータを比較する。前後変化比較部２５５は、前後の画像のそれぞれの膨らみを表すパラメータの差が所定の閾値よりも大きい場合には、画像中の人の口が、開いたり閉じたりして動いていると判定する。

これによって、画像中の人が話をしているか否かが判別される。

尚、上述した実施形態では、本発明にいう話中人物検出装置および話中人物検出装置を構成する各部の例として、話中人物検出プログラムを実行するコンピュータおよびコンピュータにより実現される機能ブロックを説明したが、本発明はこれに限られるものではなく、例えば、話中人物検出装置および各部は、ワイヤードロジックによる専用の論理回路によって実現されるものであってもよい。

また、上述した実施形態では、本発明にいう被検査領域決定ステップおよび被検査領域決定部の例として、特徴点検出ステップ（部）で検出された特徴点に基づいて設定した領域の色差モデルを作成し、作成した色差モデルに基づいて皮膚の色に属する画画素からなる領域を抽出する処理を説明したが、本発明にいう被検査領域決定（部）はこれに限られるものではなく、例えば、色差モデルを作成せず、予め用意された固定の色差モデルを用いることで、特徴点を用いずに領域を決定するものであってもよい。

３０話中人物検出装置
１１０特徴点検出部
１２０被検査領域決定部
１３０マスク方向算出部
１４０顔方向算出部
１５０，２５０口動き検出部
１６０話中判定部
３００コンピュータ
３０２主メモリ
Ｓ１０特徴点検出ステップ
Ｓ２０被検査領域決定ステップ
Ｓ３０マスク方向算出ステップ
Ｓ４０顔方向算出ステップ
Ｓ５０，Ｓ２５０口動き検出ステップ
Ｓ６０話中判定ステップ

Claims

複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出ステップと、
前記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定ステップと、
前記被検査領域決定ステップで決定された被検査領域に属する各画素からの距離の総和が最小である主軸が前記画像上の基準線となす方向を算出する主軸算出ステップと、
前記特徴点検出ステップで検出された一対の目のそれぞれを通る線と垂直な顔垂直線が前記画像の基準線となす方向を算出する顔方向算出ステップと、
前記主軸算出ステップで算出された主軸の方向と、前記顔角度算出ステップで取得された顔垂直線の方向との差に基づいて、前記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定ステップとを有することを特徴とする話中人物検出方法。
前記被検査領域決定ステップが、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出ステップと、
前記皮膚抽出ステップで抽出された皮膚領域を外側に所定の距離だけ拡大することにより、前記被検査領域とする領域拡大ステップとを有するものであることを特徴とする請求項１記載の話中人物検出方法。
この話中人物検出方法が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する方法であって、
前記特徴点検出ステップが、特徴点として口を検出するものであり、
この話中人物検出方法が、前記特徴点検出ステップでの複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出ステップを有し、
前記話中判定ステップが、前記主軸算出ステップで算出された主軸の方向と、前記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、前記口動き検出ステップで口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることを特徴とする請求項１または２記載の話中人物検出方法。
前記口動き検出ステップが、
前記特徴点検出ステップで検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定ステップと、
前記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出ステップと、
前記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較ステップとを有することを特徴とする請求項３記載の話中人物検出方法。
前記口動き検出ステップが、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出ステップと、
前記エッジ抽出ステップで抽出されたエッジ画像を平滑化する平滑化ステップと、
前記平滑化ステップで平滑化されたエッジ画像上に、前記特徴点検出ステップで検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定ステップと、
前記仮輪郭線設定ステップで設定された探索曲線を変形しながら、前記平滑化ステップで平滑化されたエッジ画像のうち該探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査ステップと、
前記口輪郭探査ステップで決定された各画像の口の輪郭の動きを検出する輪郭比較ステップとを有することを特徴とする請求項３記載の話中人物検出方法。
複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
前記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
前記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が前記画像上の基準線となす方向を算出する主軸算出部と、
前記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が前記画像の基準線となす方向を算出する顔方向算出部と、
前記主軸算出部によって算出された主軸の方向と、前記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、前記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えたことを特徴とする話中人物検出装置。
前記被検査領域決定部が、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
前記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、前記被検査領域とする領域拡大部とを備えたものであることを特徴とする請求項６記載の話中人物検出装置。
この話中人物検出装置が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する装置であって、
前記特徴点検出部が、特徴点として口を検出するものであり、
この話中人物検出装置が、前記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
前記話中判定部が、前記主軸算出部によって算出された主軸の方向と、前記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、前記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることを特徴とする請求項６または７記載の話中人物検出装置。
前記口動き検出部が、
前記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
前記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
前記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたことを特徴とする請求項８記載の話中人物検出装置。
前記口動き検出部が、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
前記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
前記平滑化部によって平滑化されたエッジ画像上に、前記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
前記仮輪郭線設定部によって設定された探索曲線を変形しながら、前記平滑化部によって平滑化されたエッジ画像のうち該探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
前記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたことを特徴とする請求項８記載の話中人物検出装置。
プログラムを実行する演算装置内で実行され、該演算装置を、話中人物検出装置として動作させる話中人物検出プログラムであって、
前記演算装置を、
複数色分の画素値によって表わされる画素の２次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
前記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
前記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が前記画像上の基準線となす方向を算出する主軸算出部と、
前記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が前記画像の基準線となす方向を算出する顔方向算出部と、
前記主軸算出部によって算出された主軸の方向と、前記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、前記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えた話中人物検出装置として動作させることを特徴とする話中人物検出プログラム。
前記被検査領域決定部が、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
前記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、前記被検査領域とする領域拡大部とを備えたものであることを特徴とする請求項１１記載の話中人物検出プログラム。
この話中人物検出プログラムが、前記演算装置を、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出させる話中人物検出として動作させるプログラムであって、
前記特徴点検出部が、特徴点として口を検出するものであり、
この話中人物検出装置が、前記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
前記話中判定部が、前記主軸算出部によって算出された主軸の方向と、前記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、前記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることを特徴とする請求項１１または１２記載の話中人物検出プログラム。
前記口動き検出部が、
前記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
前記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
前記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたことを特徴とする請求項１３記載の話中人物検出プログラム。
前記口動き検出部が、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
前記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
前記平滑化部によって平滑化されたエッジ画像上に、前記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
前記仮輪郭線設定部によって設定された探索曲線を変形しながら、前記平滑化部によって平滑化されたエッジ画像のうち該探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
前記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたことを特徴とする請求項１３記載の話中人物検出プログラム。