JP2010271922A - 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム - Google Patents

話中人物検出方法、話中人物検出装置、および話中人物検出プログラム Download PDF

Info

Publication number
JP2010271922A
JP2010271922A JP2009123231A JP2009123231A JP2010271922A JP 2010271922 A JP2010271922 A JP 2010271922A JP 2009123231 A JP2009123231 A JP 2009123231A JP 2009123231 A JP2009123231 A JP 2009123231A JP 2010271922 A JP2010271922 A JP 2010271922A
Authority
JP
Japan
Prior art keywords
unit
image
mouth
busy
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009123231A
Other languages
English (en)
Inventor
Gakuhin Ko
学斌 胡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2009123231A priority Critical patent/JP2010271922A/ja
Publication of JP2010271922A publication Critical patent/JP2010271922A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Alarm Systems (AREA)

Abstract

【課題】
画像内に電話で話をしている人の画像が含まれているか否かをより正確に検出する話中人物検出方法等を提供する。
【解決手段】
話中人物検出方法において、複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出ステップS10と、上記画像内における人の皮膚の色に属する画素からなる被検査領域Gを決定する被検査領域決定ステップS20と、被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出ステップS30と、一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす角度を算出する顔角度算出ステップS40と、主軸の角度と顔垂直線の角度との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定ステップS60とを有する。
【選択図】 図3

Description

本発明は、画像内に電話で話をしている人の画像が含まれているか否かを検出する話中人物検出方法、話中人物検出装置、および話中人物検出プログラムに関する。
金融機関における預金や振込みの手続きには、現金自動預入支払機(ATM)が広く利用されている。ATMによれば振込みや出入金の作業が顧客自身の操作のみでできるため、金融機関窓口の場所や営業時間にとらわれずに手続きを進めることができ、利便性が高い。しかし、この一方で、手続きの作業が顧客自身による操作のみで進められることを悪用した、いわゆる振込め詐欺や還付金詐欺(以降、単に振込め詐欺と称する)の問題が発生している。振込め詐欺は、他人に成りすました犯罪者が利用者に携帯電話で連絡を取り、この利用者に金銭を預金口座などに振り込ませて騙し取るものである。振込め詐欺の被害者すなわち利用者は、詐欺を働く者と携帯電話で通話しながらATM操作の指示を受け、指示に従ってATMを操作することが多い。
そこで、振込め詐欺の被害にあっているか否かを監視するため、ATMを操作する人物をカメラで撮影し、撮影した画像中の人物が電話で話をしているか否か、すなわち話中の人物を検出する監視方法が知られている(例えば、特許文献1参照)。この監視方法は、撮影した画像中の、顔の横に手とみなせる皮膚の色の領域があるか否かを検知することによって、利用者が携帯電話で話中であるか否かを判断する。そして話中であると判断した場合には、警告の質問やメッセージを表示することによって被害を未然に防ぐ。
特開2008−197939号公報
しかしながら、上述した、画像中の皮膚の色の領域が顔の横にあるか否かを検出する監視方法では次のような問題が生じる。すなわち、携帯電話の持ち方や、話中に首を傾げる姿勢をとるか否かは、利用者によって様々であり、皮膚の色の領域が顔の横にあるか否かによって判定すると、携帯電話で話中であってもそのことを見落としてしまうことが生じやすい。この一方で、顔周辺の広い範囲で皮膚の色を検出する場合には、皮膚の色に近い背景といった手以外の体の部分を手と誤って検出してしまう可能性がある。このため、携帯電話で話していない利用者についても警告を発し、不要な迷惑をかけるおそれがある。
また、携帯電話で話す場合、話す声は重要な要素のひとつであるが、音声により判定正とすると、他のATM利用者の声やノイズにより誤判定が生じるおそれがある。
本発明は上記問題点を解決し、画像内に電話で話をしている人の画像が含まれているか否かをより正確に検出する話中人物検出方法、話中人物検出装置、および話中人物検出プログラムを提供することを目的とするものである。
上記目的を達成する本発明の話中人物検出方法は、
複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出ステップと、
上記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定ステップと、
上記被検査領域決定ステップで決定された被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出ステップと、
上記特徴点検出ステップで検出された一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす方向を算出する顔方向算出ステップと、
上記主軸算出ステップで算出された主軸の方向と、上記顔方向算出ステップで取得された顔垂直線の方向との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定ステップとを有することを特徴とする。
本発明の話中人物検出方法では、画像中に電話で話をしている人の画像が含まれているか否かの判定が、人の皮膚の色の領域に属する各画素からの距離の総和が最小である主軸と、目を通る線と垂直な顔垂直線との方向の差に基づいて行われる。このため、人が話中に電話を保持する位置や、首を傾げたときの顔の角度に拘わらず、電話で話をしている人の画像が含まれているか否かを判定することが可能となる。したがって、検出漏れや誤検出が抑えられ、より正確な検出が行える。
ここで、上記本発明の話中人物検出方法において、上記被検査領域決定ステップが、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出ステップと、
上記皮膚抽出ステップで抽出された皮膚領域を外側に所定の距離だけ拡大することにより、上記被検査領域とする領域拡大ステップとを有するものであることが好ましい。
皮膚領域を拡大した被検査領域について主軸の方向を求めることで、例えば、人が電話を顔から話した状態で話している場合のように、画像内の顔から手が離れた場合であっても顔と手の領域が拡大され一体となった被検査領域について主軸の方向が求められるので、人が電話を持つ位置の多様さに対応した正確な検出が行える。
また、上記本発明の話中人物検出方法が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する方法であって、
上記特徴点検出ステップが、特徴点として口を検出するものであり、
この話中人物検出方法が、上記特徴点検出ステップでの複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出ステップを有し、
上記話中判定ステップが、上記主軸算出ステップで算出された主軸の方向と、上記顔角度算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、上記口動き検出ステップで口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることが好ましい。
顔垂直線と主軸の方向による判定に加え、口の動きの検出結果を合わせて判定することにより、誤検出の可能性が低減される。
また、上記本発明の話中人物検出方法において、
上記口動き検出ステップが、
上記特徴点検出ステップで検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定ステップと、
上記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出ステップと、
上記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較ステップとを有することが好ましい。
口の中心を含む口サンプル領域内の出現頻度どうしの相関により、誤検出を抑え口の動きを確実に検出することができる。
また、上記本発明の話中人物検出方法において、
上記口動き検出ステップが、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出ステップと、
上記エッジ抽出ステップで抽出されたエッジ画像を平滑化する平滑化ステップと、
上記平滑化ステップで平滑化されたエッジ画像上に、上記特徴点検出ステップで検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定ステップと、
上記仮輪郭線設定ステップで設定された探索曲線を変形しながら、上記平滑化ステップで平滑化されたエッジ画像のうちこの探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査ステップと、
上記口輪郭探査ステップで決定された各画像の口の輪郭の動きを検出する輪郭比較ステップとを有することが好ましい。
平滑化されたエッジ画像から口の輪郭線を決定することによって、口の輪郭の動きを確実に検出することができる。
また、上記目的を達成する本発明の話中人物検出装置は、
複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
上記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
上記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出部と、
上記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす方向を算出する顔方向算出部と、
上記主軸算出部によって算出された主軸の角度と、上記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えたことを特徴とする。
ここで、上記本発明の話中人物検出装置において、上記被検査領域決定部が、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
上記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、上記被検査領域とする領域拡大部とを備えたものであることが好ましい。
また、上記本発明の話中人物検出装置が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する装置であって、
上記特徴点検出部が、特徴点として口を検出するものであり、
この話中人物検出装置が、上記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
上記話中判定部が、上記主軸算出部によって算出された主軸の角度と、上記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、上記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることが好ましい。
また、上記本発明の話中人物検出装置において、上記口動き検出部が、
上記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
上記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
上記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたものであることが好ましい。
また、上記本発明の話中人物検出装置において、上記口動き検出部が、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
上記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
上記平滑化部によって平滑化されたエッジ画像上に、上記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
上記仮輪郭線設定部によって設定された探索曲線を変形しながら、上記平滑化部によって平滑化されたエッジ画像のうちこの探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
上記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたものであることが好ましい。
また、上記目的を達成する本発明の話中人物検出プログラムは、プログラムを実行する演算装置内で実行され、この演算装置を、話中人物検出装置として動作させる話中人物検出プログラムであって、
上記演算装置を、
複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
上記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
上記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が上記画像上の基準線となす方向を算出する主軸算出部と、
上記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が上記画像の基準線となす方向を算出する顔方向算出部と、
上記主軸算出部によって算出された主軸の角度と、上記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、上記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えた話中人物検出装置として動作させることを特徴とする。
ここで、上記本発明の話中人物検出プログラムにおいて、上記被検査領域決定部が、
人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
上記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、上記被検査領域とする領域拡大部とを備えたものであることが好ましい。
また、上記本発明の話中人物検出プログラムが、上記演算装置を、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出させる話中人物検出として動作させるプログラムであって、
上記特徴点検出部が、特徴点として口を検出するものであり、
この話中人物検出装置が、上記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
上記話中判定部が、上記主軸算出部によって算出された主軸の方向と、上記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、上記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることが好ましい。
また、上記本発明の話中人物検出プログラムにおいて、上記口動き検出部が、
上記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
上記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
上記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたものであることが好ましい。
また、上記本発明の話中人物検出プログラムにおいて、上記口動き検出部が、
各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
上記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
上記平滑化部によって平滑化されたエッジ画像上に、上記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
上記仮輪郭線設定部によって設定された探索曲線を変形しながら、上記平滑化部によって平滑化されたエッジ画像のうちこの探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
上記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたものであることが好ましい。
以上説明したように、本発明によれば、画像から話中の人物がいるか否かを正確に検出する話中人物検出方法、話中人物検出装置、および話中人物検出プログラムが実現する。
本発明の話中人物検出装置の一実施形態が応用された現金自動預入支払装置の構成を示すブロック図である。 話中人物検出装置として動作するコンピュータのハードウエア構成図である。 図2に示すコンピュータ300を利用して実施される話中人物検出方法の一例を示すフローチャートである。 第1実施形態の話中人物検出装置を示すブロック図である。 図4に示すマスク方向算出部の内部構成を示すブロック図である。 監視カメラ20から出力された画像データの画像の例を示す図である。 監視カメラから出力された画像データの画像と特徴点とを示す図である。 監視カメラから出力された画像データの画像のうち、皮膚領域検出部で検出された皮膚領域を示す図である。 図8に示す皮膚領域と、拡大領域算出部により算出された拡大領域とを示す図である。 図9に示す拡大領域の主軸を示す図である。 図7に示す画像データの画像と特徴点とから求められた顔垂直線を示す図である。 図7に示す画像データの画像における口サンプル領域を示す図である。 口サンプル領域内の画素の輝度Yごとの出現頻度を表わすグラフである。 本発明の第2実施形態において図2に示すコンピュータ300を利用して実施される話中人物検出方法を示すフローチャートである。 本発明の第2実施形態に係る口動き検出部の構成を示すブロック図である。 図15に示す口動き検出部250による処理を説明する図である。 輪郭線の膨らみと、探索曲線に重なる画素の値の積算値との関係を示すグラフである。
以下図面を参照して本発明の実施の形態を説明する。
図1は、本発明の話中人物検出装置の一実施形態が応用された現金自動預入支払装置の構成を示すブロック図である。
図1に示す現金自動預入支払装置1は、預金や振込みの手続きを行う利用者が使用する現金自動預入支払端末10と、利用者を撮影する監視カメラ20と、監視カメラ20が撮影した画像から、携帯電話を使って話している人物を検出する話中人物検出装置30とを備えている。
現金自動預入支払端末10は、預金や振込みの手続きを行う利用者が手続きの操作を行うための装置であり、口座における金銭の決済を担う出入金管理装置と接続されている。現金自動預入支払端末10は、利用者が操作する操作部11と、利用者に対するメッセージの画像を表示する表示部12と、利用者が携帯するカードから情報を読み出すカードリーダ13と、現金の支払いや受け入れを担う現金取扱部14と、現金自動預入支払端末10の各部を制御する端末制御部15とを備えている。操作部11は、例えば表示部12上に重ねて配置されたタッチパネルである。
利用者が表示部12に表示されたメッセージに応じて操作部11から手続きの指示や金額等の情報を入力するとともに、カードに記録された預金口座の情報をカードリーダ13に読み込ませるか、あるいは現金取扱部14に現金を投入すると、端末制御部15が出入金管理装置と通信して、口座や金額の情報をやり取りする。この結果、指定された金額が指定された口座に振り込まれることとなる。
監視カメラ20は、現金自動預入支払端末10を操作する利用者の頭部およびその周囲を、利用者のほぼ正面から撮影する向きに設置されている。監視カメラ20は、図示しない固体撮像素子によって画像を撮影して生成した画像データを出力する。画像データは、赤(R)、緑(G)、および青(B)の3色分の画素値によって表わされる画素の2次元的配列からなる画像を表わす。監視カメラ20は、画像を一定の間隔で連続して撮影し、画像データを順次出力する。
話中人物検出装置30は、監視カメラ20から出力される画像データを受信し、画像データが表わす画像の中に、電話で話をする人を表わす画像が含まれているか否かを検出する。尚、以下では、データ上の画像も単に「画像」と称する。
本実施形態の話中人物検出装置30における処理は、プログラムを実行するコンピュータによって実現されている。話中人物検出装置30は、現金自動預入支払端末10と接続されており、電話で話している人物を検出するとその結果を現金自動預入支払端末10に送信する。この場合、現金自動預入支払端末10の端末制御部15は、表示部12に、振り込め詐欺に遭っている危険性を警告するメッセージを表示させる。これによって、利用者に、詐欺に遭っている危険性が報知される。また、話中人物検出装置30は、ネットワークNを介して監視装置Sとも接続されており、検出結果が監視装置Sにも送信される。この場合、話中人物検出装置30に接続されたモニタMに、現金自動預入支払端末10の利用者が詐欺に遭っていることを警告するメッセージを表示させる。これによって、金融機関の職員や警備員等に、詐欺が発生している可能性が報知される。
図1に示す各ブロックのうち、話中人物検出装置30の他のブロックは本発明の主題ではないため詳細な説明を省略し、以下では、本発明の一実施形態である話中人物検出装置についてさらに説明する。
図2は、話中人物検出装置として動作するコンピュータのハードウエア構成図である。
ここでは、このコンピュータ300のハードウエアおよびOS(Operating System)と、このコンピュータ300にインストールされて実行される話中人物検出プログラムとにより、本発明の一実施形態としての話中人物検出装置30(図1参照)が構成されている。
このコンピュータ300は、各種プログラムを実行するCPU301、ハードディスク装置303に格納されたプログラムが読み出されCPU301での実行のために展開される記憶部としての主メモリ302、各種プログラムやデータ等が保存されたハードディスク装置303、MO331が装填されてその装填されたMO331をアクセスするMOドライブ304、CDやDVD(ここでは区別せずにCD/DVDと称する)が装填され、その装填されたCD/DVD332をアクセスするCD/DVDドライブ305、および図1に示す監視カメラ20での撮影により得られた画像データを受信するインターフェース306が内蔵されており、これらがバス307を介して相互に接続されている。また、コンピュータ300には、CPU301からの指示に応じて表示画面上に画像を表示する画像表示装置32と、メンテナンス作業者の操作に応じた各種の情報を入力するキーボード33およびマウス34も備えられており、これらもバス307を介して相互に接続されている。
ここで、CD/DVD332には、このパーソナルコンピュータを話中人物検出装置として動作させるための話中人物検出プログラムが記憶されており、そのCD/DVD332は、CD/DVDドライブ305に装填され、そのCD/DVD332に記憶された話中人物検出プログラムがこのコンピュータ300にアップロードされてハードディスク303に格納される。このハードディスク装置303に格納された話中人物検出プログラムは、このハードディスク装置303から読み出され主メモリ302上に展開されてCPU301で実行されることにより、このコンピュータ300が話中人物検出装置30として動作する。
図3は、図2に示すコンピュータ300を利用して実施される話中人物検出方法の一例を示すフローチャートである。
この図3に示す話中人物検出方法は、特徴点検出ステップ(S10)と、被検査領域決定ステップ(S20)と、マスク方向算出ステップ(S30)と、顔方向算出ステップ(S40)と、口動き検出ステップ(S50)と、話中判定ステップ(S60)とを有する。
特徴点検出ステップ(S10)は、監視カメラ20から受信した画像データが表す画像から顔の特徴点、より詳細には一対の目および口を検出する。特徴点検出ステップは、顔検出ステップ(S11)と、目・口位置検出ステップ(S12)とを有する。各ステップの詳細は後述する。
被検査領域決定ステップ(S20)は、画像内における人の皮膚の色に属する画素からなる領域を囲った被検査領域を決定する。被検査領域決定ステップは、顔皮膚サンプリングステップ(S21)と、皮膚色モデルステップ(S22)と、皮膚領域検出ステップ(S23)と、拡大領域算出ステップ(S24)とを有する。各ステップの詳細は後述する。
マスク方向算出ステップ(S30)は、被検査領域決定ステップで決定された被検査領域に属する各画素からの距離の総和が最小である主軸が画像上の基準線となすマスク方向を算出する。この詳細は後述する。
顔方向算出ステップ(S40)は、特徴点検出ステップで検出された一対の目のそれぞれを通る線と垂直な顔垂直線が画像上の基準線となす方向を算出する。この詳細は後述する。
口動き検出ステップ(S50)は、監視カメラ20から受信する複数の画像のそれぞれについて、特徴点検出ステップの口の検出結果を利用して口の動きを検出する。口動き検出ステップは、口中心部位置推定ステップ(S51)と、ヒストグラム算出ステップ(S52)と、前後変化比較ステップ(S53)とを有する。各ステップの詳細は後述する。
話中判定ステップ(S60)は、マスク方向算出ステップ(S30)で算出された主軸の方向と、顔方向算出ステップ(S40)で取得された顔垂直線の方向との差に基づいて、画像中に電話で話をしている人の画像が含まれているか否かを判定する。話中判定ステップは、通話状態判定ステップ(S61)と、携帯持ち姿勢判定ステップ(S62)と、携帯姿勢判定ステップ(S63)とを有する。各ステップの詳細は後述する。
ここで、マスク方向算出ステップが本発明の主軸算出ステップの一例に相当する。また、口中心部位置推定ステップが、本発明にいう口サンプル領域設定ステップの一例に相当し、ヒストグラム算出ステップが、本発明にいう分布算出ステップの一例に相当し、前後変化比較ステップが、本発明にいう頻度比較ステップの一例に相当する。また、皮膚領域検出ステップが本発明にいう皮膚抽出ステップの一例に相当し、拡大領域算出ステップが本発明にいう領域拡大ステップの一例に相当する。
続いて、話中人物検出装置について概要から説明する。
図4は、第1実施形態の話中人物検出装置を示すブロック図である。この話中人物検出装置30は、図2に示すコンピュータ300内にアップロードされた話中人物検出検出プログラムがコンピュータ300内で実行されることによりそのコンピュータ300内に実現される処理装置である。話中人物検出装置30は、特徴点検出部110と、被検査領域決定部120と、マスク方向算出部130と、顔方向算出部140と、口動き検出部150と、話中判定部160とを有する。
特徴点検出部110は、監視カメラ20から受信した画像データが表す画像から顔の特徴点、より詳細には一対の目および口を検出する。特徴点検出部110は、顔検出部111と、目・口位置検出部112とを有する。被検査領域決定部120は、画像内における人の皮膚の色に属する画素からなる領域を囲った被検査領域を決定する。被検査領域決定部120は、顔皮膚サンプリング部121と、皮膚色モデル部122と、皮膚領域検出部123と、拡大領域算出部124とを有する。マスク方向算出部130は、被検査領域決定部120で決定された被検査領域に属する各画素からの距離の総和が最小である主軸が画像上の基準線となすマスク方向を算出する。顔方向算出部140は、特徴点検出部110で検出された一対の目のそれぞれを通る線と垂直な顔垂直線が画像上の基準線となす方向を算出する。口動き検出部150は、監視カメラ20から受信する複数の画像のそれぞれについて、特徴点検出部110によるの口の検出結果を利用して口の動きを検出する。口動き検出部150は、口中心部位置推定部151と、ヒストグラム算出部152と、前後変化比較部153とを有する。また、話中判定部160は、マスク方向算出部130で算出された主軸の方向と、顔方向算出部140で算出された顔垂直線の方向との差、そしてさらに、口動き検出部150によって検出された口の動きに基づいて、画像中に電話で話をしている人の画像が含まれているか否かを判定する。話中判定部160は、通話状態判定部161と、携帯持ち姿勢判定部162と、携帯姿勢判定部163とを有する。
ここで、マスク方向算出部130が本発明の主軸算出部の一例に相当する。
図3に示す話中人物検出方法との対比では、図4の特徴点検出部110が図3の特徴点検出ステップS10に相当し、被検査領域決定部120が被検査領域決定ステップS20に相当し、マスク方向算出部130がマスク方向算出ステップS30に相当し、顔方向算出部140が顔方向算出ステップS40に相当し、口動き検出部150が口動き検出ステップS50に相当し、話中判定部160が話中判定ステップS60に相当する。
また、図4の顔検出部111が図3の顔検出ステップS11に相当し、目・口位置検出部112が目・口位置検出ステップS12に相当し、顔皮膚サンプリング部121が顔皮膚サンプリングステップS21に相当し、皮膚色モデル部122が皮膚色モデルステップS22に相当し、皮膚領域検出部123が皮膚領域検出ステップS23に相当し、拡大領域算出部124が拡大領域算出ステップS24に相当し、口中心部位置推定部151が口中心部位置推定ステップS51に相当し、ヒストグラム算出部152がヒストグラム算出ステップS52に相当し、前後変化比較部153が前後変化比較ステップS53に相当し、通話状態判定部161が通話状態判定ステップS61に相当し、携帯持ち姿勢判定部162が携帯持ち姿勢判定ステップS62に相当し、携帯姿勢判定部163が携帯姿勢判定ステップS63に相当する。
また、図4の各部の間を結ぶ矢印は、各部間でやり取りされる主要なデータの流れを表わしている。より詳細には、図4に示す各部は、データをやり取りする際に、データを出力する側が処理結果のデータを図2に示す主メモリ302に記憶させ、データを受け取る側が主メモリ302から処理対象のデータを読み出す。つまり、データのやり取りは、主メモリ302への書き込みおよび主メモリ302からの読出しを介して行われるが、各部の機能、およびデータの流れを分かりやすくするため、各部による主メモリ302への書き込みおよび読出しについては図示および説明を適宜省略する。
また、コンピュータ300内で話中人物検出プログラムが実行されたときの話中人物検出プログラムの作用は、図4に示す話中人物検出装置の作用と同一であり、ここでは、話中人物検出プログラムを取り上げての図示および説明は省略する。
図5は、図4に示すマスク方向算出部の内部構成を示すブロック図である。
図5に示すマスク方向算出部130は、マスク方向算出部130に与えられた領域のモメントを算出するモメント算出部131と、モメント算出部131によって算出されたモメントから、与えられた領域の主軸が、画像上の基準線となす方向を算出する方向算出部132とを有する。マスク方向算出部130の詳細については後述する。
以下では、図4に示す話中人物検出装置30の各部の作用について説明する。
この説明により話中人物検出プログラムおよび図3に示す話中人物検出方法の説明を兼ねるものとする。
図4に示す話中人物検出装置30は、監視カメラ20によって撮影された、複数色分の画素値によって表わされる画素の2次元的配列からなる画像から、電話で話をしている人の画像が含まれているか否かを検出する装置である。
監視カメラ20から出力された画像データは、特徴点検出部110、被検査領域決定部120、顔方向算出部140、マスク方向算出部130、および口動き検出部150に入力される。より詳細には、画像データは主メモリ302(図2参照)に一旦記憶され、その後、必要に応じて主メモリ302から読み出され、特徴点検出部110、被検査領域決定部120、顔方向算出部140、マスク方向算出部130、および口動き検出部150の処理に利用される。
特徴点検出部110は、画像データが表す画像から顔の特徴点、より詳細には一対の目および口を検出する。特徴点検出部110の顔検出部111は、画像から人の顔の目および口を囲む矩形領域を検出する。矩形領域の検出には、例えば特開2006−285959に示された公知の方法を用いることができ、この方法による矩形領域の検出方法を説明する。
顔検出部111は、入力された画像データの画像から、例えば32×32画素サイズの部分画像を切り出すサブウィンドウを設定し、サブウィンドウを例えば5画素分ずつ移動させながら、このサブウィンドウで切り出された部分画像が顔の画像であるか否かの判別を行う。画像上での顔の大きさは、監視カメラ20のズーム倍率や利用者自身の顔の大きさによって異なるため、サブウィンドウで部分画像を切り出す対象の画像としては、入力された画像そのものだけでなく、入力された画像を複数段階の解像度に変換した複数の画像、さらに、これら複数の画像を複数段階の角度で回転処理した複数の画像も対象とする。
切り出された部分画像が顔の画像であるか否かの判別は、例えば32×32画素サイズで規格化された、前もって顔であることが分かっているサンプル画像と、前もって顔でないことが分かっているサンプル画像とについて評価スコアを算出しておき、サブウィンドウで切り出した部分画像についての評価スコアとの一致度を算出することによって行う。ここで評価スコアは、32×32画素サイズの各画像内の所定の2点を1ペアとして、複数のペアからなるペア群を設定したときの、各ペアにおける2点間の輝度の差分を算出したときの、ペア群における差分の分布すなわち、差分に対する頻度のヒストグラムである。
顔検出部111は、監視カメラ20から受けた画像、およびこの画像を解像度変換し回転処理して生成した複数の画像のそれぞれについて、サブウィンドウを移動しながら部分画像を順次切り出し、切り出した部分画像の評価スコアを算出する。その結果、顔であることが分かっているサンプル画像の評価スコアとの一致度が高く、かつ、顔でないことが分かっているサンプル画像の評価スコアとの一致度が低いサブウィンドウを選択する。このサブウィンドウが、顔を含んだ矩形領域となる。なお、評価スコアとの一致度は、具体的には、ヒストグラムの相関係数を算出することによって求められる。
図6は、監視カメラ20から出力された画像データの画像の例を示す図である。
図6に示す画像は、監視カメラ20から出力された1フレーム分の画像データが表わす画像であり、この例の画像には、携帯電話で話をしている人の画像が含まれている。特徴点検出部110の顔検出部111では、図6に示す画像から、顔であることが分かっているサンプル画像の評価スコアとの一致度が高く、かつ、顔でないことが分かっているサンプル画像の評価スコアとの一致度が低いサブウィンドウである矩形領域Wが選択される。
特徴点検出部110の目・口位置検出部112は、顔検出部111から矩形領域Wの位置および矩形領域Wの画像を表すデータを顔検出部111から受け取り、画像の矩形領域W内における、目および口の位置を検出する。より詳細には、目として瞳を検出する。目および口の位置は、一般的な瞳および口の色範囲に属する画素を探索することで検出する。目・口位置検出部112は、瞳のそれぞれの中心、および口の両端すなわち口角の位置を目および口位置として決定する。
図7は、監視カメラから出力された画像データの画像と特徴点とを示す図である。
図7に示す画像には、図6と同じ画像が含まれており、さらに、目・口位置検出部112によって、目の位置P1,P2および口の両端の位置P3,P4が検出されている。目の位置P1,P2および口の両端の位置P3,P4を表わす位置データは、主メモリ302を介して、被検査領域決定部120、顔方向算出部140、および口動き検出部150に送られる。
被検査領域決定部120は、画像内における人の皮膚の色に属する画素からなる領域を囲った被検査領域を決定する。
被検査領域決定部120の顔皮膚サンプリング部121は、目・口位置検出部112によって決定された目の位置P1,P2および口の両端の位置P3,P4を表わすデータに基づいて、皮膚の色のモデルを抽出すべきサンプリング領域を決定する。より詳細には、顔皮膚サンプリング部121は、例えば、目の位置P1,P2および口の両端の位置P3,P4の中央を中心とする領域をサンプリング領域として決定する。
皮膚色モデル部122は、監視カメラ20から出力された画像データの画像のうち、被検査領域決定部120によって決定されたサンプリング領域内の各画素値をサンプリングする。各画素は、赤(R),緑(G),青(B)の3色分の画素値によって表わされている。皮膚色モデル部122は、各画素の画素値から3つの色差値R−Y,G−Y,B−Yを算出し、サンプリング領域内の複数の画素の、色差値R−Yのレベルごとの出現頻度、色差値G−Yのレベルごとの出現頻度、および、色差値B−Yのレベルごとの出現頻度を算出する。この3つの出現頻度が皮膚色モデルである。ここで、Yは画素の輝度であり、輝度Yは、3色分の画素値から、下式によって算出される。
Y = 0.299R + 0.587G + 0.114B
各色差における皮膚色モデルの出現頻度は、色差値の平均値を頂点とする、正規分布に類似した分布となることが通常である。
皮膚領域検出部123は、皮膚色モデル部122で算出された皮膚色モデルを利用して、監視カメラ20から出力された画像データの画像から皮膚の領域を検出する。より詳細には、皮膚領域検出部123は、図7に示す画像の全ての画素について画素値から3つの色差値R−Y,G−Y,B−Yを算出し、各画素の色差値が、皮膚色モデル部122で算出された皮膚色モデルである出現頻度のどの位置にあるかを求めることによって、皮膚といえる確からしさを求める。より詳細には、皮膚領域検出部123は、判定対象となる各画素の色差値が、皮膚色モデルである出現頻度の平均値からどの程度の偏差をもって離れているかに応じて、皮膚といえる確率を算出し、この確率が所定の閾値以上の場合に皮膚であると判定する。例えば、対象画素の色差値が出現頻度の±aσ(ここで、aは定数であり、σは標準偏差である。)に対応する確率より大きければ皮膚とみなす。この結果、監視カメラ20から出力された画像データの画像中において、人の皮膚であると判定された画素からなる皮膚領域が抽出される。皮膚領域検出部123は、検出結果として、各画素が皮膚か否かの2値からなるデータを出力する。
図8は、監視カメラから出力された画像データの画像のうち、皮膚領域検出部で検出された皮膚領域を示す図である。
図8に示す画像には、図7に示した人の、顔の領域Fと手の領域Hとが、皮膚領域として判定された状態が示されている。
被検査領域決定部120の拡大領域算出部124は、皮膚領域検出部123によって抽出された皮膚領域をこの皮膚領域の外側に所定の距離だけ拡大することにより、後段のマスク方向算出部130の処理対象となる被検査領域を算出する。より詳細には、拡大領域算出部124は、例えば、図8に示す顔の領域Fと手の領域Hをそれぞれの外側に所定の距離だけ拡大した領域を被検査領域とする。
図9は、図8に示す皮膚領域と、拡大領域算出部により算出された拡大領域とを示す図である。
図9に示す画像には、皮膚領域として抽出された人の顔の領域Fおよび手の領域Hが示され、さらに、これら顔の領域Fおよび手の領域Hのそれぞれが外側に拡大した拡大領域Gが示されている。拡大領域算出部124によって、皮膚領域を拡大した拡大領域を算出することにより、例えば、利用者が、携帯電話を顔から話して持った場合や、携帯電話によって画像中の顔と手が離れた状態であっても、後段のマスク方向算出部130の処理対象となる領域を一体の領域として扱うことができる。
拡大領域算出部124によって、皮膚領域を拡大する具体的な方法としては、皮膚領域に含まれる全ての画素のそれぞれについて、その画素から例えば10画素分相当といった所定の距離の範囲にある画素を一律に拡大領域の画素とする、いわゆる膨張法が採用される。ただし、皮膚領域を拡大する具体的な方法としては、この膨張法に限らず、例えば、皮膚領域の輪郭に対応する画素から領域の外側に向かって所定の距離までにある画素を拡大領域とする方法も採用可能である。
皮膚領域検出部123は、検出結果として、各画素が拡大領域に属するか否かの2値で表されたデータを出力する。
ここで、皮膚領域検出部123が本発明にいう皮膚抽出部の一例に相当し、拡大領域算出部124が本発明にいう領域拡大部の一例に相当する。
マスク方向算出部130は、拡大領域算出部124によって算出された拡大領域Gを対象領域とし、この拡大領域Gに属する各画素からの距離の総和が最小である主軸が画像上の基準線となす方向を算出する。
図5に示すモメント算出部131は、拡大領域算出部124によって算出された拡大領域のモメントを算出する。また、方向算出部132は、モメント算出部131によって算出されたモメントから、上記拡大領域の主軸が、画像上の基準線となす方向を算出する。
まず、拡大領域のモメントの算出について説明する。モメントを算出する前提として、拡大領域の重心を算出する。
拡大領域に画素がN個あったとした場合、これらN個の画素の画像上の2次元座標における位置を(x、y)(x、y)…(x、y)とし、このうちn番目の画素の画像上の位置を(x、y)とすると、拡大領域の重心の位置(g,g)は下の2つの式によって算出される。
Figure 2010271922
Figure 2010271922
算出された重心の座標を用いて、次に、拡大領域のモメントmxy、mxx、myyが下式によって算出される。
Figure 2010271922
Figure 2010271922
Figure 2010271922
最後に、モメントmxy、mxx、myyから、下式によって拡大領域の主軸(第一主軸)の方向directionが算出される。
Figure 2010271922
ここで、主軸とは、被検査領域である拡大領域に属する各画素からの距離の総和が最小である直線である。主軸は、拡大領域の総体形状が延びる方向を示している。
図10は、図9に示す拡大領域の主軸を示す図である。
図10には、重心の位置(g,g)を通る主軸Jが示されている。主軸Jは、画像内の手の領域H(図8参照)の影響を受けて、画像の左上から右下に延びる向きに傾いている。
拡大領域の主軸Jが画像上の垂直線Vとなす方向directionが、マスク方向算出部130によって算出される。
図4に示す顔方向算出部140は、画像内の人すなわち利用者が頭を傾げた方向を求める。より詳細には、顔方向算出部140は、特徴点検出部110によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が画像の基準線となす方向を取得する。
図11は、図7に示す画像データの画像と特徴点とから求められた顔垂直線を示す図である。
顔方向算出部140は、特徴点検出部110によって検出された一対の目の位置P1,P2の座標位置データから、位置P1,P2に対する垂直2等分線を算出し、この垂直2等分線を顔垂直線Kとする。顔方向算出部140は、さらに、顔垂直線Kの方向を算出する。
話中判定部160は、マスク方向算出部130によって算出された主軸の方向directionと、顔方向算出部140によって取得された顔垂直線の方向との差に基づいて、画像中に電話で話をしている人の画像が含まれているか否かを判定する。ただし、話中判定部160は、口動き検出部150によって画像中の人の口の動きが検出されたか否かも含めて最終的な判定を行うので、先に、口動き検出部150について説明する。
口動き検出部150は、監視カメラ20から一定間隔で出力された複数のフレームを表わす複数の画像から、話中の口の動きを検出する。すでに説明した特徴点検出部110の目・口位置検出部112は、複数の画像のそれぞれについて口の両端の位置を決定する。
口動き検出部150の口中心部位置推定部151は、複数の画像のそれぞれについて、目・口位置検出部112によって決定された口の両端の位置の中央に、口サンプル領域を設定する。
図12は、図7に示す画像データの画像における口サンプル領域を示す図である。
図12に示すように、口中心部位置推定部151は、目・口位置検出部112によって決定された口の両端の位置P3,P4の中点の周囲に口に重なる口サンプル領域Rを設定する。
ヒストグラム算出部152は、口中心部位置推定部151で設定された口サンプル領域R内の各画素の輝度Yを算出し、口サンプル領域R内の画素の、輝度Yごとの出現頻度を求める。
図13は、口サンプル領域内の画素の輝度Yごとの出現頻度を表わすグラフである。図13のパート(A)は、あるフレームiの画像における口サンプル領域R内の出現頻度を示すグラフであり、パート(B)は、上記フレームiの次のフレームjの画像における口サンプル領域内の出現頻度を示すグラフである。
ヒストグラム算出部152は、より詳細には、輝度Yをその値に応じてM個の区間(ビン)に分け、輝度が各区間に属する画素の数(頻度)を算出することによって輝度分布を求める。画像中の人が携帯電話で話をしていると、口が開いたり閉じたりして動くため、口サンプル領域内には、画像(フレーム)によって唇の部分が多く含まれたり、口の中の暗い部分や歯の部分が含まれたりする。このため、画像中の人が話をしていると、輝度分布は、画像ごとに変化する。例えば、図13のパート(A)に示すフレームiの画像における出現頻度とパート(B)に示す次のフレームjの画像における出現頻度は異なっている。
前後変化比較部153は、監視カメラ20から一定間隔で出力された複数の画像のうちの前後のフレームの出現頻度を比較し相関を求める。本実施形態における前後変化比較部153は、あるフレームとその次のフレームとを比較するが、比較対象となるフレームの組は、例えば、監視カメラが出力するフレームレートに応じて、あるフレームと、その数フレーム分先のフレームとすることも可能である。
前後変化比較部153は、より詳細には、下式を算出することによって、各フレームのヒストグラム間の距離を表わす相関係数Cyを求める。
Figure 2010271922
ここで、qimは、あるフレームiのm番目の区間に属する画素の頻度であり、qjmは、次のフレームjのm番目の区間に属する画素の頻度である。
前後変化比較部153は、口の動きの検出結果を表わすデータとして、上式で算出した相関係数Cyの値を出力する。
ここで、口中心部位置推定部151は、本発明にいう口サンプル領域設定部の一例に相当し、ヒストグラム算出部152はは、本発明にいう分布算出部の一例に相当する。また、前後変化比較部153は、本発明にいう頻度比較部の一例に相当する。
続いて、再び、話中判定部160について説明する。
話中判定部160の携帯持ち姿勢判定部162は、マスク方向算出部130によって算出された主軸の方向directionと、顔方向算出部140によって取得された顔垂直線の方向との差に応じて、画像中に携帯電話を持っている姿勢の人の画像が含まれているか否かを判定する。具体的には、主軸の方向directionと顔垂直線の方向との差が、予め定めた閾値を超える場合に携帯電話を持っている姿勢の人の画像が含まれていると判定する。
また、話中判定部160の通話状態判定部161は、前後変化比較部153によって算出された相関係数Cyが、予め定めた閾値を超える場合に、画像中の人が話をしていると判定する。
携帯姿勢判定部163は、携帯持ち姿勢判定部162によって、携帯電話を持っている姿勢の人の画像が含まれていると判定と判定され、かつ、話中判定部160によって、画像中の人が話をしていると判定された場合に、画像中の人が携帯電話で話をしていると判定する。携帯姿勢判定部163による判定結果は、話中人物検出装置30の判定結果として出力される。
このようにして、話中人物検出装置30が、監視カメラ20から出力された画像中に電話で話をしている人の画像が含まれているか否かを判定する。話中人物検出装置30が、電話で話をしている人の画像が含まれていると判定すると、その結果は、図1を参照して説明した端末制御部15に送信されて表示部12に警告メッセージが表示されたり、結果が監視装置Sに送信されて、職員や警備員が見るモニタMに警告メッセージが表示される。
本実施形態の話中人物検出装置30によれば、画像中に電話で話をしている人の画像が含まれているか否かの判定が、人の皮膚の色に属する画素からなる領域を囲った被検査領域G(図9参照)に属する各画素からの距離の総和が最小である主軸J(図10参照)と、目を通る線と垂直な顔垂直線K(図11)との方向に基づいて行われる。このため、図6に示す画像の例のように、人が話中に電話を保持する位置や、首を傾げたときの顔の方向に拘わらず、電話で話をしている人の画像が含まれているか否かを判定することが可能となる。したがって、人が電話を保持する位置や首を傾げたときの検出漏れや誤検出が抑えられ、より正確な検出が行える。
また、主軸Jを求める被検査領域G(図9参照)は、皮膚領域F,H(図8参照)を外側に拡大した領域とすることによって、人が電話を顔から話した状態で話している場合でも、拡大によって一体となった被検査領域について主軸が求められる。したがって、電話を持つ多様な位置に対応可能である。
次に、本発明の第2実施形態について説明する。
図14は、本発明の第2実施形態において図2に示すコンピュータ300を利用して実施される話中人物検出方法を示すフローチャートである。
図14に示す話中人物検出方法は、図3に示す第1実施形態の話中人物検出方法とは、口動き検出ステップS250が異なる。口動き検出ステップS250は、口近傍エッジ抽出ステップ(S251)と、平滑化処理ステップ(S252)と、口輪郭仮設定ステップ(S253)と、輪郭探査ステップ(S254)と、前後変化比較ステップ(S255)とを有する。第2実施形態の口動き検出ステップS250の詳細については、後に、口動き検出部の処理として説明する。
ここで、口近傍エッジ抽出ステップが本発明にいうエッジ抽出ステップの一例に相当し、平滑化処理ステップが本発明にいう平滑化ステップの一例に相当し、口輪郭仮設定ステップが本発明にいう仮輪郭線設定ステップの一例に相当する。また、輪郭探査ステップが本発明にいう口輪郭探査ステップの一例に相当し、前後変化比較ステップが本発明にいう輪郭比較ステップの一例に相当する。
図2に示すコンピュータ300で、図14に示す話中人物検出方法を実行するプログラムがインストールされることにより実現する第2実施形態の話中人物検出装置は、口動き検出部の構成および検出方法が図4に示す第1実施形態の話中人物検出装置と異なり、その他の点は第1実施形態と同じである。そこで、第2実施形態については、図14の口動き検出ステップS250に対応する口動き検出部について図示および説明し、その他の部分については必要に応じて第1実施形態における図を流用して説明する。
図15は、本発明の第2実施形態に係る口動き検出部の構成を示すブロック図である。
図15に示す口動き検出部250は、口近傍エッジ抽出部251と、平滑化処理部252と、口輪郭仮設定部253と、輪郭探査部254と、前後変化比較部255とを有する。
ここで、口近傍エッジ抽出部251が本発明にいうエッジ抽出部の一例に相当し、平滑化処理部252が本発明にいう平滑化部の一例に相当し、口輪郭仮設定部253が本発明にいう仮輪郭線設定部の一例に相当する。また、輪郭探査部254が本発明にいう口輪郭探査部の一例に相当し、前後変化比較部255が本発明にいう輪郭比較部の一例に相当する。
口近傍エッジ抽出部251は、目・口位置検出部112(図4参照)によって決定された口の両端の位置を含む領域を探査領域として設定し、探査領域内の画像データにシャープネスフィルタ処理を施して、各画素の画素値の、隣接する画素の画素値に対する変化分を算出し、この変化分からなる画素値を持つエッジ画像を抽出する。口近傍エッジ抽出部251は、例えば、図7に示す画像のうち、口の両端の位置P3,P4を含む領域を探査領域とする。探査領域は、標準的な顔の画像の統計に基づき、口の全体を囲み、かつ、鼻や目や顔輪郭外の部分といった口以外の部分を含まない大きさである。
図16は、図15に示す口動き検出部250による処理を説明する図である。図16のパート(A)からパート(D)には、口動き検出部250の各部による処理を表わす画像が処理の順に示されている。図16のパート(A)からパート(D)には、探査領域内の画像が示されている。
口近傍エッジ抽出部251は、例えば、図16のパート(A)に示すように、口の両端の位置P3,P4を含む探査領域Qを設定し、探査領域Q内の画素値にシャープネスフィルタ処理を施して、画像中のエッジを抽出する。図16のパート(B)には、シャープネスフィルタ処理の結果エッジが示されている。尚、この時点では、図示はしないが、例えばほくろの輪郭や顔の細かい凹凸によるエッジも含まれる。
平滑化処理部252は、エッジを表わす画像データに対し、平滑化処理を施す。平滑化処理は、例えば、隣接画素の画素値との平均を算出する平均フィルタ処理によって実現される。平滑化処理によって、図16のパート(B)に示すエッジの画像は、パート(C)に示す、ぼやけた画像となる。例えば、ほくろの輪郭や顔の細かい凹凸によるエッジは、平滑化処理によって小さな値(画像としては薄い点)になる。
口輪郭仮設定部253は、平滑化処理が施された画像に、仮の口の輪郭としての探索曲線を設定する。図16のパート(D)には、仮の口の輪郭線Tが示されている。この仮の探索曲線Tは、口の両端の位置P3,P4を通り上側に膨らんだ形の曲線である。仮の探索曲線Tの膨らみは、標準的な顔の画像の統計に基づき、一般的な口の輪郭よりも探索曲線Tが口の外側に配置されるように設定される。したがって、口輪郭仮設定部253によって設定された仮の探索曲線Tは、探査領域Q内の口よりもはみ出した位置に配置される。
輪郭探査部254は、口輪郭仮設定部253によって設定された探索曲線Tを、口の両端の位置P3,P4を通る直線に少しずつ近づけるように、膨らみを小さく変形して、各位置の探索曲線に重なる各画素の、エッジ抽出処理および平滑化処理後の値の積算値を算出する。
図17は、輪郭線の膨らみと、探索曲線に重なる画素の値の積算値との関係を示すグラフである。
図17に示すように、探索曲線の膨らみを、仮の探索曲線の膨らみ(b0)から次第に小さくするように変形しながら積算値を算出すると、積算値は、次第に大きくなり、唇の、上の輪郭と重なる状態(グラフ上のb1)でピークとなる。輪郭探査部254は、このときの探索曲線を画像中の口の輪郭線とみなして決定する。
口近傍エッジ抽出部251、平滑化処理部252、口輪郭仮設定部253、および輪郭探査部254は、監視カメラ20から一定間隔で出力された複数の画像のそれぞれに対し処理を順次実行する。
前後変化比較部255は、複数の画像のうちの前後の画像について、輪郭探査部254により決定された探索曲線の形、より詳細には膨らみを表すパラメータを比較する。前後変化比較部255は、前後の画像のそれぞれの膨らみを表すパラメータの差が所定の閾値よりも大きい場合には、画像中の人の口が、開いたり閉じたりして動いていると判定する。
これによって、画像中の人が話をしているか否かが判別される。
尚、上述した実施形態では、本発明にいう話中人物検出装置および話中人物検出装置を構成する各部の例として、話中人物検出プログラムを実行するコンピュータおよびコンピュータにより実現される機能ブロックを説明したが、本発明はこれに限られるものではなく、例えば、話中人物検出装置および各部は、ワイヤードロジックによる専用の論理回路によって実現されるものであってもよい。
また、上述した実施形態では、本発明にいう被検査領域決定ステップおよび被検査領域決定部の例として、特徴点検出ステップ(部)で検出された特徴点に基づいて設定した領域の色差モデルを作成し、作成した色差モデルに基づいて皮膚の色に属する画画素からなる領域を抽出する処理を説明したが、本発明にいう被検査領域決定(部)はこれに限られるものではなく、例えば、色差モデルを作成せず、予め用意された固定の色差モデルを用いることで、特徴点を用いずに領域を決定するものであってもよい。
30 話中人物検出装置
110 特徴点検出部
120 被検査領域決定部
130 マスク方向算出部
140 顔方向算出部
150,250 口動き検出部
160 話中判定部
300 コンピュータ
302 主メモリ
S10 特徴点検出ステップ
S20 被検査領域決定ステップ
S30 マスク方向算出ステップ
S40 顔方向算出ステップ
S50,S250 口動き検出ステップ
S60 話中判定ステップ

Claims (15)

  1. 複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出ステップと、
    前記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定ステップと、
    前記被検査領域決定ステップで決定された被検査領域に属する各画素からの距離の総和が最小である主軸が前記画像上の基準線となす方向を算出する主軸算出ステップと、
    前記特徴点検出ステップで検出された一対の目のそれぞれを通る線と垂直な顔垂直線が前記画像の基準線となす方向を算出する顔方向算出ステップと、
    前記主軸算出ステップで算出された主軸の方向と、前記顔角度算出ステップで取得された顔垂直線の方向との差に基づいて、前記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定ステップとを有することを特徴とする話中人物検出方法。
  2. 前記被検査領域決定ステップが、
    人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出ステップと、
    前記皮膚抽出ステップで抽出された皮膚領域を外側に所定の距離だけ拡大することにより、前記被検査領域とする領域拡大ステップとを有するものであることを特徴とする請求項1記載の話中人物検出方法。
  3. この話中人物検出方法が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する方法であって、
    前記特徴点検出ステップが、特徴点として口を検出するものであり、
    この話中人物検出方法が、前記特徴点検出ステップでの複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出ステップを有し、
    前記話中判定ステップが、前記主軸算出ステップで算出された主軸の方向と、前記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、前記口動き検出ステップで口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることを特徴とする請求項1または2記載の話中人物検出方法。
  4. 前記口動き検出ステップが、
    前記特徴点検出ステップで検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定ステップと、
    前記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出ステップと、
    前記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較ステップとを有することを特徴とする請求項3記載の話中人物検出方法。
  5. 前記口動き検出ステップが、
    各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出ステップと、
    前記エッジ抽出ステップで抽出されたエッジ画像を平滑化する平滑化ステップと、
    前記平滑化ステップで平滑化されたエッジ画像上に、前記特徴点検出ステップで検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定ステップと、
    前記仮輪郭線設定ステップで設定された探索曲線を変形しながら、前記平滑化ステップで平滑化されたエッジ画像のうち該探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査ステップと、
    前記口輪郭探査ステップで決定された各画像の口の輪郭の動きを検出する輪郭比較ステップとを有することを特徴とする請求項3記載の話中人物検出方法。
  6. 複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
    前記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
    前記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が前記画像上の基準線となす方向を算出する主軸算出部と、
    前記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が前記画像の基準線となす方向を算出する顔方向算出部と、
    前記主軸算出部によって算出された主軸の方向と、前記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、前記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えたことを特徴とする話中人物検出装置。
  7. 前記被検査領域決定部が、
    人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
    前記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、前記被検査領域とする領域拡大部とを備えたものであることを特徴とする請求項6記載の話中人物検出装置。
  8. この話中人物検出装置が、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出する装置であって、
    前記特徴点検出部が、特徴点として口を検出するものであり、
    この話中人物検出装置が、前記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
    前記話中判定部が、前記主軸算出部によって算出された主軸の方向と、前記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、前記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることを特徴とする請求項6または7記載の話中人物検出装置。
  9. 前記口動き検出部が、
    前記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
    前記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
    前記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたことを特徴とする請求項8記載の話中人物検出装置。
  10. 前記口動き検出部が、
    各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
    前記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
    前記平滑化部によって平滑化されたエッジ画像上に、前記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
    前記仮輪郭線設定部によって設定された探索曲線を変形しながら、前記平滑化部によって平滑化されたエッジ画像のうち該探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
    前記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたことを特徴とする請求項8記載の話中人物検出装置。
  11. プログラムを実行する演算装置内で実行され、該演算装置を、話中人物検出装置として動作させる話中人物検出プログラムであって、
    前記演算装置を、
    複数色分の画素値によって表わされる画素の2次元的配列からなる画像から一対の目を含む人の顔の特徴点を検出する特徴点検出部と、
    前記画像内における人の皮膚の色に属する画素値を持つ画素からなる被検査領域を決定する被検査領域決定部と、
    前記被検査領域決定部によって決定された被検査領域に属する各画素からの距離の総和が最小である主軸が前記画像上の基準線となす方向を算出する主軸算出部と、
    前記特徴点検出部によって検出された一対の目のそれぞれを通る線と垂直な顔垂直線が前記画像の基準線となす方向を算出する顔方向算出部と、
    前記主軸算出部によって算出された主軸の方向と、前記顔方向算出部によって取得された顔垂直線の方向との差に基づいて、前記画像中に電話で話をしている人の画像が含まれているか否かを判定する話中判定部とを備えた話中人物検出装置として動作させることを特徴とする話中人物検出プログラム。
  12. 前記被検査領域決定部が、
    人の皮膚の色に属する画素値を持つ画素からなる皮膚領域を抽出する皮膚抽出部と、
    前記皮膚抽出部によって抽出された皮膚領域を外側に所定の距離だけ拡大することにより、前記被検査領域とする領域拡大部とを備えたものであることを特徴とする請求項11記載の話中人物検出プログラム。
  13. この話中人物検出プログラムが、前記演算装置を、連続して撮影された複数の画像から、電話で話をする人を表わす画像が含まれているか否かを検出させる話中人物検出として動作させるプログラムであって、
    前記特徴点検出部が、特徴点として口を検出するものであり、
    この話中人物検出装置が、前記特徴点検出部での複数の画像のそれぞれについての検出結果から、口の動きを検出する口動き検出部を備え、
    前記話中判定部が、前記主軸算出部によって算出された主軸の方向と、前記顔方向算出ステップで取得された顔垂直線の方向との差が、所定の閾値よりも大きく、かつ、前記口動き検出部によって口の動きを検出した場合に、画像中の人物が電話で話していると判定するものであることを特徴とする請求項11または12記載の話中人物検出プログラム。
  14. 前記口動き検出部が、
    前記特徴点検出部によって検出された口の位置に基づいて各画像の口に重なるサンプル領域を設定するサンプル領域設定部と、
    前記サンプル領域設定部で設定されたサンプル領域内の複数の画素の、各画素値ごとの出現頻度を各画像ごとに算出する分布算出部と、
    前記分布算出部で算出された各画像の出現頻度どうしの相関に基づいて口の動き検出する比較部とを備えたことを特徴とする請求項13記載の話中人物検出プログラム。
  15. 前記口動き検出部が、
    各画像について、各画素の画素値の、隣接する画素の画素値からの変化分からなる画素値を持つエッジ画像を抽出するエッジ抽出部と、
    前記エッジ抽出部によって抽出されたエッジ画像を平滑化する平滑化部と、
    前記平滑化部によって平滑化されたエッジ画像上に、前記特徴点検出部によって検出された口の位置に基づいて、口の輪郭を仮に想定した探索曲線を設定する仮輪郭線設定部と、
    前記仮輪郭線設定部によって設定された探索曲線を変形しながら、前記平滑化部によって平滑化されたエッジ画像のうち該探索曲線と重なる画素についての画素値の積算値が最大となる探索曲線を口の輪郭として決定する口輪郭探査部と、
    前記口輪郭探査部によって決定された各画像の口の輪郭の動きを検出する輪郭比較部とを備えたことを特徴とする請求項13記載の話中人物検出プログラム。
JP2009123231A 2009-05-21 2009-05-21 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム Withdrawn JP2010271922A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009123231A JP2010271922A (ja) 2009-05-21 2009-05-21 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009123231A JP2010271922A (ja) 2009-05-21 2009-05-21 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム

Publications (1)

Publication Number Publication Date
JP2010271922A true JP2010271922A (ja) 2010-12-02

Family

ID=43419899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009123231A Withdrawn JP2010271922A (ja) 2009-05-21 2009-05-21 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム

Country Status (1)

Country Link
JP (1) JP2010271922A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180039402A (ko) * 2016-10-10 2018-04-18 주식회사 하이퍼커넥트 영상 표시 장치 및 영상 표시 방법
JP2021530789A (ja) * 2018-09-27 2021-11-11 北京市商▲湯▼科技▲開▼▲発▼有限公司Beijing Sensetime Technology Development Co., Ltd. 動作認識方法、電子機器及び記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180039402A (ko) * 2016-10-10 2018-04-18 주식회사 하이퍼커넥트 영상 표시 장치 및 영상 표시 방법
JP2021530789A (ja) * 2018-09-27 2021-11-11 北京市商▲湯▼科技▲開▼▲発▼有限公司Beijing Sensetime Technology Development Co., Ltd. 動作認識方法、電子機器及び記憶媒体
JP7295936B2 (ja) 2018-09-27 2023-06-21 北京市商▲湯▼科技▲開▼▲発▼有限公司 動作認識方法、電子機器及び記憶媒体

Similar Documents

Publication Publication Date Title
US11716527B2 (en) Photographing apparatus, method and medium using image recognition
CN110348543B (zh) 眼底图像识别方法、装置、计算机设备及存储介质
WO2022134337A1 (zh) 人脸遮挡检测方法、系统、设备及存储介质
US7973828B2 (en) Red-eye filter method and apparatus
WO2022151755A1 (zh) 目标检测方法及装置、电子设备、存储介质、计算机程序产品和计算机程序
CN101983507A (zh) 自动红眼检测
CN112135041B (zh) 一种人脸特效的处理方法及装置、存储介质
CN112396050B (zh) 图像的处理方法、设备以及存储介质
WO2021121302A1 (zh) 一种视频采集控制方法、电子设备、计算机可读存储介质
US11720745B2 (en) Detecting occlusion of digital ink
CN111898610B (zh) 卡片缺角检测方法、装置、计算机设备及存储介质
WO2022252737A1 (zh) 图像处理方法及装置、处理器、电子设备及存储介质
JP4367010B2 (ja) システム、プログラムおよび方法
JP4348028B2 (ja) 画像処理方法、画像処理装置、撮像装置及びコンピュータプログラム
JP4203279B2 (ja) 注目判定装置
JP4599110B2 (ja) 画像処理装置及びその方法、撮像装置、プログラム
JP2012068948A (ja) 顔属性推定装置およびその方法
JP2010271922A (ja) 話中人物検出方法、話中人物検出装置、および話中人物検出プログラム
JP2006323779A (ja) 画像処理方法、画像処理装置
JPH09147119A (ja) 人物注目方向検出方式
JP5448468B2 (ja) 取引監視装置
JP3963789B2 (ja) 眼検出装置、眼検出プログラム、そのプログラムを記録する記録媒体及び眼検出方法
KR101276792B1 (ko) 눈 검출 장치 및 방법
US20220392252A1 (en) Facial Skin Detection Method and Apparatus
JP2003022441A (ja) 領域抽出方法、領域抽出プログラム、領域抽出プログラムを記録したコンピュータ読取可能な記録媒体、および領域抽出装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120807