JP2019159787A - 人物検出方法および人物検出プログラム - Google Patents

人物検出方法および人物検出プログラム Download PDF

Info

Publication number
JP2019159787A
JP2019159787A JP2018045476A JP2018045476A JP2019159787A JP 2019159787 A JP2019159787 A JP 2019159787A JP 2018045476 A JP2018045476 A JP 2018045476A JP 2018045476 A JP2018045476 A JP 2018045476A JP 2019159787 A JP2019159787 A JP 2019159787A
Authority
JP
Japan
Prior art keywords
person
omnidirectional image
image
candidate
candidate area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018045476A
Other languages
English (en)
Inventor
駿人 寺中
Hayato Teranaka
駿人 寺中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2018045476A priority Critical patent/JP2019159787A/ja
Publication of JP2019159787A publication Critical patent/JP2019159787A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】検出感度を維持しつつ誤検出の抑制が可能な人物検出方法を提供する。【解決手段】人物検出方法は、全方位画像から候補領域を検出しS202、候補領域の、全方位画像における極座標の角度を算出しS203、候補領域から、尤度を算出するとともに、全方位画像における候補領域の極座標の角度を推定しS204、算出された極座標の角度と、推定された極座標の角度と、に基づいて尤度の信頼度を算出しS205、信頼度に基づいて尤度を修正し、修正された尤度に基づいて、候補領域の画像が人物かどうかを判定しS206〜S209、判定された判定結果を出力するS210。【選択図】図16

Description

本発明は、人物検出方法および人物検出プログラムに関する。
近年、ディープラーニング(深層学習)による画像認識の技術開発が精力的に進められている。ディープラーニングは、ニューラルネットワークと称される人間の脳の神経細胞のつながりをモデル化したアルゴリズムにより実現される。
魚眼レンズカメラのような広角レンズのカメラで撮影された全方位画像においては、レンズの歪み特性により、同じ人物であっても、画像上の位置(画像の中心からの距離および角度)に応じて、画像内の人物の見え方が変化するという特徴をもつ。
全方位画像等の撮影画像から人物を検出する技術としては、下記特許文献1および非特許文献1に開示されたものがある。
下記特許文献1では、魚眼レンズカメラによる全方位画像において動き領域を検出し、動き領域の画像を透視投影変換し、変換後の画像を、全方位画像の中心からの距離に応じた大きさの人物パターンを用いてスキャンすることで人物を検出する技術が開示されている。
下記非特許文献1では、撮影画像から、ニューラルネットワークの第1ネットワークで候補オブジェクトを特定し、第2ネットワークで候補オブジェクトのカテゴリおよび信頼度スコアを算出して画像上に表示する技術が開示されている。
特開2010−199713号公報 Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun、 "Faster R−CNN: Towards Real−Time Object Detection with Region Proposal Networks"、 arXiv:1506. 01497v3、 2016
しかし、特許文献1の技術は、全方位画像上の人物の位置に応じた人物の見え方の変化に対応した人物検出をしていない。このため、ノイズ等による人物の誤検出は起こりにくいが、検出漏れが発生する可能性がある。
また、非特許文献1の技術は、特徴量を用いた高感度の人物検出が可能であるが、画像上の人物の位置に依存しない検出を行う。このため、全方位画像上に人物と類似する特徴を備えたノイズがあれば、そのノイズを人物として誤検出する可能性がある。
本発明は、このような問題を解決するためになされたものである。すなわち、全方位画像からの人物検出において、検出感度を維持しつつ誤検出の抑制が可能な、人物検出方法および人物検出プログラムを提供することを目的とする。
本発明の上記課題は、以下の手段によって解決される。
(1)コンピューターに、全方位画像から人物を検出する処理を実行させる方法であって、前記全方位画像から人物の候補の画像を含む候補領域を検出する段階(a)と、検出された前記候補領域の、前記全方位画像における極座標の角度を算出する段階(b)と、検出された前記候補領域から、人らしさを示す尤度を算出するとともに、前記全方位画像における前記候補領域の極座標の角度を推定する段階(c)と、算出された前記極座標の角度と、推定された前記極座標の角度と、に基づいて、前記尤度の信頼度を算出する段階(d)と、算出された前記信頼度に基づいて前記尤度を修正し、修正された前記尤度に基づいて、前記候補領域の画像が人物かどうかを判定する段階(e)と、判定された判定結果を出力する段階(f)と、をコンピューターに実行させる人物検出方法。
(2)前記段階(a)および(c)は、深層学習により学習されたニューラルネットワークにより実行される、上記(1)に記載の人物検出方法。
(3)前記段階(c)は、人物の画像を入力データとし、尤度および前記全方位画像における前記人物の画像の極座標の角度を出力データとする教師データを用いて深層学習されたニューラルネットワークにより、前記候補領域に基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、上記(2)に記載の人物検出方法。
(4)前記全方位画像は、前記候補領域の極座標に応じて、前記全方位画像における前記候補領域の人物の見え方が異なる、上記(1)〜(3)のいずれかに記載の人物検出方法。
(5)前記候補領域は矩形の領域である、上記(1)〜(4)のいずれかに記載の人物検出方法。
(6)前記段階(c)は、前記候補領域のみに基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、上記(1)〜(5)のいずれかに記載の人物検出方法。
(7)前記段階(b)は、前記候補領域の、前記全方位画像における極座標の距離をさらに算出し、前記段階(c)は、前記候補領域から、前記全方位画像における前記候補領域の極座標の距離をさらに推定し、前記段階(d)は、算出された前記極座標の角度および距離と、推定された前記極座標の角度および距離と、に基づいて、前記尤度の信頼度を算出する、上記(1)〜(6)のいずれかに記載の人物検出方法。
(8)前記段階(f)は、前記判定結果を、前記コンピューターに接続された表示装置または処理装置へ出力する、上記(1)〜(7)のいずれかに記載の人物推定方法。
(9)コンピューターに、全方位画像から人物を検出する処理を実行させるプログラムであって、前記全方位画像から人物の候補の画像を含む候補領域を検出する手順(a)と、検出された前記候補領域の、前記全方位画像における極座標の角度を算出する手順(b)と、検出された前記候補領域から、人らしさを示す尤度を算出するとともに、前記全方位画像における前記候補領域の極座標の角度を推定する手順(c)と、算出された前記極座標の角度と、推定された前記極座標の角度と、に基づいて、前記尤度の信頼度を算出する手順(d)と、算出された前記信頼度に基づいて前記尤度を修正し、修正された前記尤度に基づいて、前記候補領域の画像が人物かどうかを判定する手順(e)と、判定された判定結果を出力する手順(f)と、をコンピューターに実行させるための人物検出プログラム。
(10)前記手順(a)および(c)は、深層学習により学習されたニューラルネットワークにより実行される、上記(9)に記載の人物検出プログラム。
(11)前記手順(c)は、人物の画像を入力データとし、尤度および前記全方位画像における前記人物の画像の極座標の角度を出力データとする教師データを用いて深層学習されたニューラルネットワークにより、前記候補領域に基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、上記(10)に記載の人物検出プログラム。
(12)前記全方位画像は、前記候補領域の極座標に応じて、前記全方位画像における前記候補領域の人物の見え方が異なる、上記(9)〜(11)のいずれかに記載の人物検出プログラム。
(13)前記候補領域は矩形の領域である、上記(9)〜(12)のいずれかに記載の人物検出プログラム。
(14)前記手順(c)は、前記候補領域のみに基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、上記(9)〜(13)のいずれかに記載の人物検出プログラム。
(15)前記手順(b)は、前記候補領域の、前記全方位画像における極座標の距離をさらに算出し、前記手順(c)は、前記候補領域から、前記全方位画像における前記候補領域の極座標の距離をさらに推定し、前記手順(d)は、算出された前記極座標の角度および距離と、推定された前記極座標の角度および距離と、に基づいて、前記尤度の信頼度を算出する、上記(9)〜(14)のいずれかに記載の人物検出プログラム。
(16)前記手順(f)は、前記判定結果を、前記コンピューターに接続された表示装置または処理装置へ出力する、上記(9)〜(15)のいずれかに記載の人物推定プログラム。
人物検出システムの構成を示すブロック図である。 魚眼レンズカメラにより撮影された全方位画像の模式図である。 魚眼レンズカメラにより撮影された人物の画像を、魚眼レンズカメラから立位の姿勢の人物の位置までの距離ごとに示す模式図である。 人物検出システムの制御部の機能について説明するためのブロック図である。 全方位画像における候補矩形の極座標について説明するための説明図である。 全方位画像上の候補矩形の極座標と、候補矩形の見え方に基づき推定される極座標とを比較して示す説明図である。 特徴計算部の深層学習について説明するための説明図である。 全方位画像に基づく人物検出の際の、深層学習された特徴計算部による尤度の算出および極座標の推定、信頼度計算部による信頼度の算出、ならびに判定部による尤度の修正について説明するための説明図である。 比較例として、一般的なFaster R−CNNにおける深層学習について説明するための説明図である。 比較例として、一般的なFaster R−CNNによる人物検出について説明するための説明図である。 代表的な人物検出システムの用途の例を示す図である。 人物検出システムの、店舗内の領域ごとに客数を計測する用途の例を示す図である。 人物検出システムの、店舗内の領域ごとに客数を計測する用途の他の例を示す図である。 人物検出システムの、道路の通行人の情報を得る用途の例を示す図である。 人物検出システムの人物検出のための深層学習の動作を示すフローチャートである。 人物検出システムの人物検出の動作を示すフローチャートである。 人物の判定結果として表示された画像を示す説明図である。
以下、図面を参照して、本発明の実施形態に係る、人物検出方法および人物検出プログラムについて説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
図1は、人物検出システムの構成を示すブロック図である。人物検出システム100は、制御部110、記憶部120、表示部130、入力部140、および通信部150を有し、これらは信号をやりとりするためのバス160を介して相互に接続される。人物検出システム100は、コンピューターにより構成され得る。
人物検出システム100は、上記構成要素以外の構成要素を含んでもよく、上記構成要素のうちの一部が含まれなくてもよい。たとえば、人物検出システム100に全方位画像を撮影するための、広角レンズを備える全方位カメラが含まれてもよい。
人物検出システム100は、全方位画像から人物を検出するシステムである。全方位画像とは、たとえば魚眼レンズカメラのような、周囲360度の撮影が可能な、広角レンズを備える全方位カメラで撮影された画像である。なお、全方位画像には、比較的広い視野角のカメラで撮影された画像が広く含まれ、180度程度の視野角のカメラから360度に近い視野角のカメラにより撮影された画像であってもよい。全方位画像には、動画および静止画が含まれる。
図2は、魚眼レンズカメラにより撮影された全方位画像の模式図である。図3は、魚眼レンズカメラにより撮影された人物の画像を、魚眼レンズカメラから立位の姿勢の人物の位置までの距離ごとに示す模式図である。
図2に示す全方位画像200には、魚眼レンズカメラの直下の立位の姿勢の人物201、および魚眼レンズカメラから遠い位置の立位の姿勢の人物202が含まれている。
図3に示すように、全方位画像200においては、魚眼レンズカメラから人物までの距離によって人物の見え方が異なる。すなわち、魚眼レンズカメラの直下にいる人物は、図3の右図に示すように、頭部および頭部の両端からはみ出した肩のみの画像となる。この場合、図2に示す人物201のように、魚眼レンズカメラに最も近い位置にこの人物がいるため、人物の画像の大きさが比較的大きくなる。魚眼レンズカメラから遠い位置にいる人物は、図3の左図および図2に示す人物202のように、下半身が伸びる方向が全方位画像200の中央に向いた全身の画像となる。この場合、魚眼レンズカメラから遠い位置にこの人物がいるため、人物の画像の大きさが比較的小さくなる。人物の、魚眼レンズカメラからの距離が、図2における人物201と人物202の中間である場合、その人物は、図3の中央の図に示すように、頭部に対する胴体の割合が人物201の画像より大きくなる一方で、頭部から下半身に向かうにしたがい縮小されたような画像となる。
このように、全方位画像200では、レンズの歪み特性のために、同じ人物であってもカメラからの距離(すなわち、全方位画像200の画像中心からの距離)および角度によって見え方が異なる。
制御部110は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)を含み、プログラムにしたがって、上記各部の制御および各種の演算処理を行う。
記憶部120は、あらかじめ各種プログラムや各種データを格納しておくROM(Read Only Memory)、作業領域として一時的にプログラムやデータを記憶するRAM(Random Access Memory)、各種プログラムや各種データを記憶するSSD(Solid State Drive)等からなる。
表示部130は、たとえば液晶ディスプレイであり、各種の情報を表示する。
入力部140は、マウス等のポインティングデバイスやキーボードを含み、各種の入力を受け付ける。
通信部150は、他の機器と通信するためのインターフェースであり、イーサネット(登録商標)、SATA、IEEE1394などの規格によるネットワークインターフェースが用いられる。また、通信部103として、Bluetooth(登録商標)、IEEE802.11などの無線通信インターフェースなどが用いられ得る。
制御部110の機能についてさらに説明する。
図4は、制御部の機能について説明するためのブロック図である。制御部110は、画像取得部111、検出部112、特徴計算部113、信頼度計算部114、判定部115、および出力部116を構成する。検出部112および特徴計算部113は、深層学習により学習されるニューラルネットワークにより構成され得る。
画像取得部111は、入力画像である全方位画像を、たとえば通信部150により全方位カメラから受信することで取得する。
検出部112は、全方位画像から、人物検出システム100による検出対象である人物の候補の画像が含まれる候補領域を検出する。候補領域は、たとえば矩形の領域であり得る。なお、1つの全方位画像において検出される候補領域の形状は矩形に限らず、また大きさも物体の大きさに応じて変更され得る。以下、候補領域を候補矩形とも称する。検出部112は、前景と背景を区別可能な技術により候補矩形を検出し得る。たとえば、検出部112はRPN(Region Proposal Network)により候補矩形を検出し得る。すなわち、ニューラルネットワークによる畳み込み処理により特徴マップを生成し、特徴マップ上に設定されたグリッドポイントのうち、物体としての特徴を有するポイントを特定し、特定されたポイントに対応する全方位画像上の領域を候補矩形として検出し得る。なお、候補矩形は、ニューラルネットワークによらず、背景差分法や時間差分法により検出されてもよい。
特徴計算部113は、候補矩形のそれぞれから、人らしさを示す尤度(以下、単に「尤度」と称する)を算出するとともに、全方位画像における候補矩形の極座標を推定する。候補矩形の極座標は、全方位画像の中心からの距離rと、全方位画像における所定の方向に対する角度θとにより定義される。所定の方向は全方位画像における任意の方向とし得る。候補矩形の極座標は、候補矩形の重心の極座標とし得る。
図5は、全方位画像における候補矩形の極座標について説明するための説明図である。なお、図5においては、候補矩形の境界線である矩形は省略している。
図5において、黒丸の点は全方位画像の中心(全方位レンズカメラのレンズの中心に対応する)である。白丸の点は候補矩形の重心である。図5の例においては、全方位画像上の候補矩形の座標は、候補矩形の重心の座標(r,θ)として定義されている。
特徴計算部113は、後述するように、候補矩形を入力データとし、候補矩形の尤度、および全方位画像上の候補矩形の極座標を出力データとする教師データにより深層学習されたニューラルネットワークにより構成される。これにより、特徴計算部113は、候補矩形に基づいて、尤度を算出するとともに、全方位画像上の当該候補矩形の極座標を推定する。
図6は、全方位画像上の候補矩形の極座標と、候補矩形の見え方に基づき推定される極座標とを比較して示す説明図である。なお、図6においては、説明を簡単にするために、全方位画像中の人物は同じ人物として図示している。候補矩形の境界線である矩形は省略している。
図6に示す全方位画像においては、魚眼レンズカメラに最も近い位置にいる人物200aの候補矩形、および魚眼レンズカメラに最も遠い位置にいる人物200bの候補矩形が含まれている。人物200aの候補矩形の極座標は(r,θ)であり、人物200bの候補矩形の極座標は(r,θ)である。図6においては、人物200aの候補矩形、および人物200bの候補矩形について、それぞれの全方位画像上の極座標に対応する位置にこれらの人物がいた場合に、魚眼レンズカメラにより撮影される見え方(頭部と胴体との大きさの比、候補矩形の大きさ、下半身が伸びる方向等の特徴)が正しく図示されている。
一方、画像200cは人物の特徴をもっているように見えるが、極座標の距離rが人物200bの極座標の距離rと同じrであるにもかかわらず大きさが大きく異なっている。また、極座標の角度θが人物200aの極座標の角度θと異なるにもかかわらず、見え方が同じである。すなわち、画像200cは、全方位画像上の候補矩形の極座標が(r,θ)である一方、候補矩形の見え方に基づき推定される極座標は(r,θ)であり、両者は矛盾する。このことから、画像200cは、全方位画像上の極座標に対応する位置にいる人物が、全方位画像において当然に有するであろう見え方と異なる見え方をしているため、画像200cは人物ではない可能性が高い。よって、全方位画像上の候補矩形の極座標と、候補矩形の見え方に基づき推定される極座標とで矛盾があるかどうかにより、候補矩形が人物かどうかを判断できる。
候補矩形の見え方に基づき推定される極座標は次のように生成される。すなわち、特徴計算部113をニューラルネットワークにより構成し、入力データである候補矩形と、正解ラベル(出力データ)である、全方位画像上の当該候補矩形の極座標と、を教師データとして深層学習させる。学習後の特徴計算部113に候補矩形が入力させることで、候補矩形から、全方位画像上の当該候補矩形の極座標が推定され、出力される。推定された、全方位画像上の候補矩形の極座標は、候補矩形のみから推定されるため、候補矩形の見え方を反映する。
なお、特徴計算部113は、Faster R−CNNと同様に、入力データである候補矩形と、正解ラベルである尤度と、を教師データとする深層学習も併せて実行する。すなわち、特徴計算部113は、入力データである候補矩形と、正解ラベルである、当該候補矩形の尤度、および全方位画像上の当該候補矩形の極座標と、を教師データとして深層学習されたニューラルネットワークにより構成される。そして、特徴計算部113は、候補矩形に基づいて、尤度を算出するとともに、全方位画像上の当該候補矩形の極座標を推定し、出力する。
信頼度計算部114は、特徴計算部113により出力された、候補矩形に基づいて推定された極座標(以下、単に「推定された極座標」と称する)と、全方位画像における当該候補矩形の極座標と、に基づいて、尤度に対する信頼度を算出する。信頼度を算出するために、信頼度計算部114は、全方位画像から、当該全方位画像に含まれる候補矩形の極座標を算出する。以下、信頼度計算部114により算出された極座標を、単に「算出された極座標」と称する。
信頼度は、下記式(1)により算出される。
R=1/(1+a・Δr+b・Δθ) ・・・(1)
ここで、Rは信頼度であり、0以上1以下の値をもつ。Δrは、算出された極座標の距離rと、推定された極座標の距離rとの差の絶対値[m]である。Δθは、算出された極座標の角度θ、と推定された極座標の角度θとの差の絶対値[rad]である。a,bは重み付け定数であり、Rが0以上1以下となるように、かつ人物検出システム100による人物検出における誤検出が適切に抑制されるように、実験等により適切な値に設定される。
判定部115は、信頼度計算部114により算出された信頼度に基づいて尤度を修正する。尤度は、尤度に信頼度を乗じることで修正される。判定部115は、修正された尤度に基づいて、検出部112により検出された候補領域の画像が人物かどうかを判定する。具体的には、判定部115は、修正された尤度が所定の閾値以上の場合は、候補矩形の画像が人物であると判定し、所定の閾値未満の場合は、候補矩形の画像が人物ではないと判定する。所定の閾値は、人物検出システム100による人物検出における誤検出の抑制の観点から実験等により適切な値に設定され得る。
出力部116は、判定部115による判定結果を出力する。出力部116は、人物と判定された候補矩形が太線の矩形で囲まれることなどにより、検出された人物が特定された全方位画像を表示部130に表示することにより、判定結果として出力し得る。判定結果は、通信部150により接続された、図示しない表示装置へ送信されて表示されてもよい。判定結果は、通信部150により接続された、図示しない処理装置へ送信されて、処理または利用されてもよい。
図7は、特徴計算部の深層学習について説明するための説明図である。
特徴計算部113は、入力データである候補矩形と、正解ラベルである、尤度、および全方位画像上の候補矩形の極座標と、を教師データとして深層学習される。深層学習のために特徴計算部113に入力される候補矩形は、画像取得部111および検出部112により生成し得る。この際、画像取得部111には、教師データとして用いる候補矩形が含まれる全方位画像が入力画像として入力される。検出部112により、全方位画像から検出された候補矩形が、教師データの入力データとして、深層学習のために特徴計算部113に入力される。
なお、教師データの入力データとして用いる候補矩形は、全方位画像から人物の画像を背景差分法や時間差分法により抽出することで生成してもよい。
図7に示すように、画像取得部111に入力画像として入力される全方位画像には、2つの人物の画像203、204と、人物の特徴に比較的近い特徴をもつノイズ画像Nが含まれている。
深層学習にあたっては、上述したように、検出部112により、全方位画像から候補矩形が検出され得る。候補矩形の境界線は、破線により示されている。なお、図7においては、説明を簡単にするために、検出部112を構成するRPNにおいて、特徴マップ上のグリットポイントに対応する領域のすべてが候補矩形として検出されたものとして候補矩形を記載している。
正解ラベルは、候補矩形とともに教師データをなし、各候補矩形と対応づけて、教師データの出力データとして特徴計算部113に入力される。人物の画像203が含まれる候補矩形は、尤度、極座標の距離、および極座標の角度が、それぞれ、1、20m、90°、の正解ラベルが対応づけられる。人物の画像204が含まれる候補矩形は、尤度、極座標の距離、および極座標の角度が、それぞれ、1、60m、40°、の正解ラベルが対応づけられる。教師データとして用いる人物の画像203、204に対応づけられる正解ラベルの尤度は当然に1とされる。
正解ラベルは、ユーザーにより各候補矩形に対し入力部140から入力され得る。なお、正解ラベルの極座標は、画像取得部111に入力される全方位画像から検出部112により算出されてもよい。
ノイズ画像Nが含まれる候補矩形は、尤度が0の正解ラベルが対応づけられる。ノイズ画像Nが含まれる候補矩形については、極座標の正解ラベルの対応づけは行わない。すなわち、ノイズ画像Nが含まれる候補矩形に対しては、極座標については深層学習させないようにする。なお、ノイズ画像Nが含まれる候補矩形以外の、人物の画像が含まれない候補矩形についても、尤度が0の正解ラベルを対応づけ、極座標の正解ラベルは対応づけない。
特徴計算部113は、教師データである候補矩形が入力されたときに、当該候補矩形に対応づけられた正解ラベルが出力されるように深層学習される。すなわち、たとえば教師データである候補矩形が入力されたときに出力される尤度、極座標の距離、および極座標の角度と、正解ラベルの尤度、極座標の距離、および極座標の角度と、のそれぞれの差に基づいて損失関数を算出する。そして損失関数の値が最小化するように、誤差逆伝搬法によりニューラルネットワークの重み係数を更新することで特徴計算部113の深層学習を行う。
図8は、全方位画像に基づく人物検出の際の、深層学習された特徴計算部による尤度の算出および極座標の推定、信頼度計算部による信頼度の算出、ならびに判定部による尤度の修正について説明するための説明図である。
図8に示すように、画像取得部111に、入力画像として入力される全方位画像には、2つの人物の画像203、204と、人物の特徴に比較的近い特徴をもつノイズ画像Nが含まれている。検出部112により、全方位画像から候補矩形が検出される。候補矩形の境界線は、破線により示されている。なお、図8においては、説明を簡単にするために、検出部112を構成するRPNにおいて、特徴マップ上のグリットポイントに対応する領域のすべてが候補矩形として検出されるものとして候補矩形を記載している。また、入力画像として入力される全方位画像は、図7において深層学習に用いられる入力画像と同じものとしている。
深層学習された特徴計算部113は、入力された候補矩形に基づいて、尤度を算出するとともに、全方位画像における候補矩形の極座標を推定する。人物の画像203が含まれる候補矩形については、当該候補矩形に基づいて、尤度が0.9と算出され、極座標の距離および角度については、それぞれ、20mおよび90°と推定されている。全方位画像に基づいて信頼度計算部114により算出された極座標の距離および角度は、それぞれ、20mおよび90°である。信頼度計算部114は、推定された極座標と、算出された極座標との差がないため、上記式(1)により信頼度を1と算出する。判定部115は、特徴計算部113により算出された尤度に、算出した信頼度を乗じる修正を行う。修正後の尤度は0.9である。信頼度が1の場合は、修正前の尤度と修正後の尤度は同じ値となる。
人物の画像204が含まれる候補矩形については、当該候補矩形に基づいて、尤度が0.9と算出され、極座標の距離および角度については、それぞれ、60mおよび40°と推定されている。全方位画像に基づいて信頼度計算部114により算出された極座標の距離および角度は、それぞれ、60mおよび40°である。信頼度計算部114は、推定された極座標と、算出された極座標との差がないため、上記式(1)により信頼度を1と算出する。判定部115は、特徴計算部113により算出された尤度に、算出した信頼度を乗じる修正を行う。修正後の尤度は0.9である。
ノイズ画像Nが含まれる候補矩形については、当該候補矩形に基づいて、尤度が0.8と算出され、極座標の距離および角度は、それぞれ、60mおよび40°と推定されている。全方位画像に基づき信頼度計算部114により算出された極座標の距離および角度は、それぞれ、20mおよび270°である。信頼度計算部114は、推定された極座標と、算出された極座標との差に基づいて、上記式(1)により信頼度を0.1と算出する。判定部115は、特徴計算部113により算出された尤度に、算出した信頼度を乗じる修正を行う。修正後の尤度は0.08となる。ノイズ画像Nに対し尤度を低下させる修正がなされることにより、ノイズ画像Nが人物として検出されるという誤検出が抑制される。
なお、特徴計算部113により算出された尤度が所定の閾値未満の場合は、極座標の推定等はされなくてもよい。所定の閾値は、人物検出システム100による人物検出における誤検出の抑制の観点、および人物検出の効率性の観点から、実験等により適切な値に設定され得る。ノイズ画像Nが含まれる候補矩形以外の、人物の画像が含まれない候補矩形については、特徴計算部113により算出された尤度が0であるため、極座標の推定はされていない。
図9は、比較例として、一般的なFaster R−CNNにおける深層学習について説明するための説明図である。図10は、比較例として、一般的なFaster R−CNNによる人物検出について説明するための説明図である。なお、説明を簡単にするために、入力画像として入力される全方位画像は、図7、8に示す実施形態において例示した全方位画像と同じものとしている。
図9に示すように、一般的なFaster R−CNNにおける深層学習においては、入力データである候補矩形と、正解ラベルである尤度を教師データとして用いる。
入力画像として入力される全方位画像には、2つの人物の画像203、204と、人物の特徴に比較的近い特徴をもつノイズ画像Nが含まれている。深層学習にあたっては、全方位画像から候補矩形が検出される。候補矩形の境界線は、破線により示されている。なお、図9においては、説明を簡単にするために、全方位画像から特徴マップを生成するRPNにおいて、特徴マップ上のグリットポイントに対応する領域のすべてが候補矩形として検出されたものとして候補矩形を記載している。
正解ラベルは、候補矩形とともに教師データをなし、各候補矩形と対応づけて、教師データとして入力される。正解ラベルとしては、実施形態と異なり、尤度のみが用いられる。人物の画像203が含まれる候補矩形、および人物の画像204が含まれる候補矩形は、それぞれ、尤度が1の正解ラベルが対応づけられる。
ノイズ画像Nが含まれる候補矩形は、尤度が0の正解ラベルが対応づけられる。ノイズ画像Nが含まれる候補矩形以外の、人物の画像が含まれない候補矩形についても、尤度が0の正解ラベルが対応づけられる。
深層学習においては、教師データである候補矩形が入力されたときに、当該候補矩形に対応づけられた正解ラベルが出力されるように学習される。
図10に示すように、一般的なFaster R−CNNによる人物検出においては、入力画像である全方位画像から候補矩形が検出される。候補矩形の境界線は、破線により示されている。なお、説明を簡単にするために、特徴マップを生成するRPNにおいて、特徴マップ上のグリットポイントに対応する領域のすべてが候補矩形として検出されたものとして候補矩形を記載している。
候補矩形に基づいて、尤度が算出される。人物の画像203が含まれる候補矩形については、尤度が0.9と算出されている。人物の画像204が含まれる候補矩形についても、尤度が0.9と算出されている。ノイズ画像Nが含まれる候補矩形については、尤度が0.8と算出されている。
一般的なFaster R−CNNにおいては、候補矩形から算出される尤度が所定の閾値以上であれば、当該候補矩形が人物であると判断される。すなわち、候補矩形における画像の見え方が、当該候補矩形の全方位画像における位置であれば当然に有するであろう見え方をしていなくても、当該候補矩形が人らしければ(すなわち尤度が所定の閾値以上であれば)、当該候補矩形を人物であると判断される。このため、人物と類似する特徴を備えたノイズを人物と誤検出可能性が比較的高くなる。
実施形態に係る人物検出システム100の用途の例について説明する。なお、以下説明する図11〜14の例においては、人物検出システム100には全方位カメラが構成要素として含まれている。
図11は、代表的な人物検出システムの用途の例を示す図である。
図11の例においては、人物検出システム100は、壁側に商品棚300が配置された店舗の天井に設置されている。これにより、人物検出システム100の全方位カメラから近い位置の客205と、遠い位置の客206を含む、店舗全体を俯瞰した全方位画像を撮影できるとともに、全方位画像に含まれる客205、206を人物として検出できる。
図12は、人物検出システムの、店舗内の領域ごとに客数を計測する用途の例を示す図である。図13は、人物検出システムの、店舗内の領域ごとに客数を計測する用途の他の例を示す図である。
図12の例においては、人物検出システム100は、店舗の任意の場所に配置された商品棚300の上方の天井に設置されている。また、図13の例においては、人物検出システム100は、全方位カメラが、店舗の壁側に配置された商品棚300の上方から斜め方向に店舗全体を俯瞰した撮影ができるように設置されている。このような例によれば、客205、206が人物として検出されることで、客205、206がどのような店舗に多く集まるかだけでなく、どの商品棚300に多く集まるか等を計測できる。また、客205、206が立ち止まった、あるいは通り過ぎた商品棚300や、店舗内のスペースの情報を計測できる。これらの計測結果は、マーケティング情報として活用できる。
図14は、人物検出システムの、道路の通行人の情報を得る用途の例を示す図である。
図14の例においては、人物検出システム100は、道路の脇に設置された柱400の上端に設置されることで、道路の広い範囲で通行人207を検出できる。
一般に、監視カメラを用いた監視映像は、長時間の録画によりデータサイズが増大するため、保持できるデータサイズの制限から、保存されたデータのうち古い映像のデータから消去される。人物検出システム100によれば、防犯等を目的とした監視の観点から有用な、人物の特徴を抽出して保存できる。たとえば、判定部115により人物と判定された候補矩形のみを保存できる。これにより、保存されるデータサイズの増大を抑制できる。なお、人物と判定された候補矩形から人物の顔や服装等のみを抽出して保存するようにしてもよい。
実施形態に係る人物検出システム100の動作について説明する。
図15は、人物検出システムの人物検出のための深層学習の動作を示すフローチャートである。本フローチャートは、人物検出システム100の制御部110により、プログラムにしたがい実行され得る。
制御部110は、深層学習に用いるデータとして全方位画像を取得する(S101)。深層学習に用いるデータである全方位画像は、たとえばあらかじめ記憶部120に記憶されており、記憶部120から読みだされることで取得され得る。
制御部110は、全方位画像から候補矩形を検出する(S102)。検出された候補矩形は表示部130に表示され得る。候補矩形は、たとえば図7に示すような、全方位画像に候補矩形が破線の境界線で区切られた画像により表示され得る。
制御部110は、候補矩形ごとに、ユーザーにより表示部130に表示された候補矩形を参照して入力された正解ラベルを入力部140から受付け、候補矩形ごとに正解ラベルを対応づけて設定する(S103)。
制御部110は、各候補矩形に対し、正解ラベルが出力されるように深層学習を行う(S104)。
図16は、人物検出システムの人物検出の動作を示すフローチャートである。本フローチャートは、人物検出システム100の制御部110により、プログラムにしたがい実行され得る。
制御部110は、通信部150を介して全方位カメラから全方位画像を取得する(S201)。
制御部110は、全方位画像から候補矩形を検出し(S202)、検出した候補矩形の全方位画像における極座標(r,θ)を算出する(S203)。
制御部110は、検出した候補矩形のみに基づいて、尤度Lを算出するとともに、候補矩形の全方位画像における極座標(r,θ)を推定する(S204)。
制御部110は、算出された極座標の角度θと、推定された極座標の角度θとの差Δθ、ならびに、算出された極座標の距離rと、推定された極座標の距離rとの差Δrを算出する。制御部110は、ΔθおよびΔrから信頼度Rを算出する(S205)。
制御部110は、尤度Lに信頼度Rを乗じて尤度Lを修正することで、修正後の尤度Lcを算出する(S206)。
制御部110は、修正後の尤度Lcが所定の閾値以上かどうか判断する(S207)。制御部110は、修正後の尤度Lcが所定の閾値以上であると判断したときは(S207:YES)、候補矩形を人物と判断する(S208)。制御部110は、修正後の尤度Lcが所定の閾値以上でないと判断したときは(S207:NO)、候補矩形を人物ではないと判断する(S209)。
制御部110は、人物の判定結果を表示する(S210)。
図17は、人物の判定結果として表示された画像を示す説明図である。なお、図17においては、信頼度による修正を行わなかった場合の判定結果も全方位画像上に破線の矩形として併せて示されている。図17においては、撮影された対象物等を判りやすく示すために、簡単な線図によるイラストにより全方位画像を表している。
実施形態により人物であると判定された候補矩形が黒い実線の境界線により全方位画像上に示されており、全方位画像における左側の人物が人物として検出されている。一方、全方位画像の右側に存在する機具については人物として検出されていない。すなわち、実施形態によれば、検出感度を維持しつつ誤検出を抑制されている。
信頼度による修正を行わなかった場合は、破線の矩形で示すように、全方位画像における左側の人物が人物として検出されているが、右側に存在する自転車も人物として誤検出されている。
本実施形態は以下の効果を奏する。
全方位画像から検出された候補領域の尤度を、当該全方位画像における当該候補領域の極座標の角度と、当該検出された候補領域から推定された極座標の角度と、に基づいて算出した信頼度で修正し、修正後の尤度により当該候補領域の画像が人物かどうか判定し表示する。これにより、全方位画像からの人物検出において、検出感度を維持しつつ誤検出を抑制できる。
さらに、候補領域の検出、ならびに、候補領域からの尤度の算出および極座標の推定をニューラルネットワークにより行う。これにより、より効果的に人物の誤検出を抑制できるとともに検出感度を向上できる。
さらに、候補領域からの尤度の算出および極座標の推定を、人物の画像を入力データとし、尤度および全方位画像における当該人物の画像の極座標の角度を出力データとする教師データを用いて深層学習されたニューラルネットワークにより行う。これにより、より効果的に人物の誤検出を抑制できるとともに検出感度を向上できる。
さらに、全方位画像は、候補領域の極座標に応じて、全方位画像における候補領域の人物の見え方が異なる。これにより、候補領域の極座標に応じて、全方位画像における候補領域の人物の見え方が比較的大きく異なる場合であっても、人物検出の検出感度を維持しつつ誤検出を抑制できる。
さらに、候補領域を矩形の領域とする。これにより、全方位画像からの候補領域の検出を、一般的な候補領域検出方法を利用して容易に実現できる。
さらに、候補領域のみに基づいて極座標の推定を行う。これにより、簡単かつ効果的に人物の誤検出を抑制できる。
さらに、候補領域に基づいて全方位画像における候補領域の極座標の角度とともに距離を推定し、算出された極座標の角度および距離と、指定された極座標の角度および距離と、に基づいて信頼度を算出する。これにより、さらに効果的に人物の誤検出を抑制できる。
さらに、候補領域の画像が人物かどうかの判定結果を人物検出システムに接続された表示装置または処理装置へ出力する。これにより、全方位画像による人物検出結果を多面的かつ広範囲で利用できる。
本発明は上述した実施形態に限定されない。
たとえば、算出された極座標の距離と、推定された極座標の距離とに基づいて信頼度を算出してもよい。また、算出された極座標の角度と、推定された極座標の角度とに基づいて信頼度を算出してもよい。
また、候補矩形の極座標は、候補矩形の重心以外の極座標であってもよい。たとえば、候補矩形のいずれかの頂点の極座標であってもよい。
また、実施形態においてプログラムにより実行される処理の一部または全部を回路などのハードウェアに置き換えて実施してもよい。
N ノイズ画像、
100 人物検出システム、
110 制御部、
111 画像取得部、
112 検出部、
113 特徴計算部、
114 信頼度計算部、
115 判定部、
116 出力部、
200 全方位画像、
200a、200b 人物、
200c 画像、
201〜207 人物、
300 商品棚。

Claims (16)

  1. コンピューターに、全方位画像から人物を検出する処理を実行させる方法であって、
    前記全方位画像から人物の候補の画像を含む候補領域を検出する段階(a)と、
    検出された前記候補領域の、前記全方位画像における極座標の角度を算出する段階(b)と、
    検出された前記候補領域から、人らしさを示す尤度を算出するとともに、前記全方位画像における前記候補領域の極座標の角度を推定する段階(c)と、
    算出された前記極座標の角度と、推定された前記極座標の角度と、に基づいて、前記尤度の信頼度を算出する段階(d)と、
    算出された前記信頼度に基づいて前記尤度を修正し、修正された前記尤度に基づいて、前記候補領域の画像が人物かどうかを判定する段階(e)と、
    判定された判定結果を出力する段階(f)と、
    をコンピューターに実行させる人物検出方法。
  2. 前記段階(a)および(c)は、深層学習により学習されたニューラルネットワークにより実行される、請求項1に記載の人物検出方法。
  3. 前記段階(c)は、人物の画像を入力データとし、尤度および前記全方位画像における前記人物の画像の極座標の角度を出力データとする教師データを用いて深層学習されたニューラルネットワークにより、前記候補領域に基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、請求項2に記載の人物検出方法。
  4. 前記全方位画像は、前記候補領域の極座標に応じて、前記全方位画像における前記候補領域の人物の見え方が異なる、請求項1〜3のいずれか一項に記載の人物検出方法。
  5. 前記候補領域は矩形の領域である、請求項1〜4のいずれか一項に記載の人物検出方法。
  6. 前記段階(c)は、前記候補領域のみに基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、請求項1〜5のいずれか一項に記載の人物検出方法。
  7. 前記段階(b)は、前記候補領域の、前記全方位画像における極座標の距離をさらに算出し、
    前記段階(c)は、前記候補領域から、前記全方位画像における前記候補領域の極座標の距離をさらに推定し、
    前記段階(d)は、算出された前記極座標の角度および距離と、推定された前記極座標の角度および距離と、に基づいて、前記尤度の信頼度を算出する、請求項1〜6のいずれか一項に記載の人物検出方法。
  8. 前記段階(f)は、前記判定結果を、前記コンピューターに接続された表示装置または処理装置へ出力する、請求項1〜7のいずれか一項に記載の人物推定方法。
  9. コンピューターに、全方位画像から人物を検出する処理を実行させるプログラムであって、
    前記全方位画像から人物の候補の画像を含む候補領域を検出する手順(a)と、
    検出された前記候補領域の、前記全方位画像における極座標の角度を算出する手順(b)と、
    検出された前記候補領域から、人らしさを示す尤度を算出するとともに、前記全方位画像における前記候補領域の極座標の角度を推定する手順(c)と、
    算出された前記極座標の角度と、推定された前記極座標の角度と、に基づいて、前記尤度の信頼度を算出する手順(d)と、
    算出された前記信頼度に基づいて前記尤度を修正し、修正された前記尤度に基づいて、前記候補領域の画像が人物かどうかを判定する手順(e)と、
    判定された判定結果を出力する手順(f)と、
    をコンピューターに実行させるための人物検出プログラム。
  10. 前記手順(a)および(c)は、深層学習により学習されたニューラルネットワークにより実行される、請求項9に記載の人物検出プログラム。
  11. 前記手順(c)は、人物の画像を入力データとし、尤度および前記全方位画像における前記人物の画像の極座標の角度を出力データとする教師データを用いて深層学習されたニューラルネットワークにより、前記候補領域に基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、請求項10に記載の人物検出プログラム。
  12. 前記全方位画像は、前記候補領域の極座標に応じて、前記全方位画像における前記候補領域の人物の見え方が異なる、請求項9〜11のいずれか一項に記載の人物検出プログラム。
  13. 前記候補領域は矩形の領域である、請求項9〜12のいずれか一項に記載の人物検出プログラム。
  14. 前記手順(c)は、前記候補領域のみに基づいて、前記全方位画像における前記候補領域の極座標の角度を推定する、請求項9〜13のいずれか一項に記載の人物検出プログラム。
  15. 前記手順(b)は、前記候補領域の、前記全方位画像における極座標の距離をさらに算出し、
    前記手順(c)は、前記候補領域から、前記全方位画像における前記候補領域の極座標の距離をさらに推定し、
    前記手順(d)は、算出された前記極座標の角度および距離と、推定された前記極座標の角度および距離と、に基づいて、前記尤度の信頼度を算出する、請求項9〜14のいずれか一項に記載の人物検出プログラム。
  16. 前記手順(f)は、前記判定結果を、前記コンピューターに接続された表示装置または処理装置へ出力する、請求項9〜15のいずれか一項に記載の人物推定プログラム。
JP2018045476A 2018-03-13 2018-03-13 人物検出方法および人物検出プログラム Pending JP2019159787A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018045476A JP2019159787A (ja) 2018-03-13 2018-03-13 人物検出方法および人物検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018045476A JP2019159787A (ja) 2018-03-13 2018-03-13 人物検出方法および人物検出プログラム

Publications (1)

Publication Number Publication Date
JP2019159787A true JP2019159787A (ja) 2019-09-19

Family

ID=67997042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018045476A Pending JP2019159787A (ja) 2018-03-13 2018-03-13 人物検出方法および人物検出プログラム

Country Status (1)

Country Link
JP (1) JP2019159787A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021149252A1 (ja) * 2020-01-24 2021-07-29
JPWO2021152801A1 (ja) * 2020-01-30 2021-08-05

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021149252A1 (ja) * 2020-01-24 2021-07-29
WO2021149252A1 (ja) * 2020-01-24 2021-07-29 株式会社日立国際電気 学習データセット生成装置および方法
JP7104252B2 (ja) 2020-01-24 2022-07-20 株式会社日立国際電気 学習データセット生成装置および方法
JPWO2021152801A1 (ja) * 2020-01-30 2021-08-05

Similar Documents

Publication Publication Date Title
CN110322500B (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
EP3016071B1 (en) Estimating device and estimation method
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
JP7151488B2 (ja) 移動物体検出装置、移動物体検出方法及びプログラム
US8928778B2 (en) Camera device, image processing system, image processing method and image processing program
KR101621370B1 (ko) 도로에서의 차선 검출 방법 및 장치
CN109583391B (zh) 关键点检测方法、装置、设备及可读介质
JP2016508652A (ja) 画像シーケンスにおける物体のオクルージョンの決定
CN110349212B (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
CN107980138A (zh) 一种虚警障碍物检测方法及装置
US9747690B2 (en) Image processing device, image processing method, and program
US11488354B2 (en) Information processing apparatus and information processing method
US10496874B2 (en) Facial detection device, facial detection system provided with same, and facial detection method
US11948363B2 (en) Person detection device and person detection method
JP7255173B2 (ja) 人検出装置および人検出方法
JP2020149641A (ja) 物体追跡装置および物体追跡方法
US20180114339A1 (en) Information processing device and method, and program
US20210174062A1 (en) Image processing device, image processing method, and recording medium
CN115965653A (zh) 一种光斑追踪方法、装置、电子设备及存储介质
JP7188067B2 (ja) 人検出装置および人検出方法
CN113587928B (zh) 导航方法、装置、电子设备、存储介质及计算机程序产品
US20120051600A1 (en) Distance Estimation from Image Motion for Moving Obstacle Detection
JP2019159787A (ja) 人物検出方法および人物検出プログラム
WO2018179119A1 (ja) 映像解析装置、映像解析方法および記録媒体
US20130142388A1 (en) Arrival time estimation device, arrival time estimation method, arrival time estimation program, and information providing apparatus