JP7036208B2

JP7036208B2 - 物体検出方法および物体検出装置

Info

Publication number: JP7036208B2
Application number: JP2020523539A
Authority: JP
Inventors: 大気関井
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-06-05
Filing date: 2019-04-03
Publication date: 2022-03-15
Anticipated expiration: 2039-04-03
Also published as: WO2019235050A1; JPWO2019235050A1

Description

本発明は、画像から、複数の物体と、複数の物体の間の関係とを検出する物体検出方法および物体検出装置に関する。

近年、画像から複数の物体を検出し、複数の物体の間に存在する関係を推定する技術が提案されている。例えば非特許文献１では、複数のＣＮＮ（Convolutional Neural Network）を用い、物体の候補および関係の候補を段階的に絞ることで、複数の物体とそれらの間の関係を推定している。より詳しくは、画像から人物を検出するためのＣＮＮと、人物以外の物体（例えば傘）を検出するためのＣＮＮと、それらの関係を検出するためのＣＮＮとを用意し、各ＣＮＮによって人物、物体、関係の各候補を抽出した後、抽出した各候補を統合し、その後、畳み込みを行って各候補を絞っている。

Ji Zhang , et al., "Relationship Proposal Networks", Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference, July 21-26, 2017

ところが、非特許文献１の技術では、候補を絞り込むための中間処理（統合および畳み込み）が必要であり、また、複数のＣＮＮで畳み込みを行った上で、各候補の統合後に再度畳み込みを行うため、畳み込みの処理も冗長である。このため、非特許文献１の技術では、画像から複数の物体とそれらの物体間の関係とを高速で推定（検出）することが困難である。

本発明は、上記の問題点を解決するためになされたもので、その目的は、画像から複数の物体とそれらの関係とを高速で検出することができる物体検出方法および物体検出装置を提供することにある。

本発明の一側面に係る物体検出方法は、画像から複数の物体と前記複数の物体の関係とを検出する物体検出方法であって、前記複数の物体が前記画像上で占める領域の候補を検出する候補検出ステップと、検出した前記候補ごとに、前記候補を一の候補として、前記一の候補の周囲の予め設定された範囲内の他の候補を参照して、前記一の候補の前記他の候補に対する所定の関係の尤度を表す関係スコアを検出する関係スコア検出ステップと、所定のアルゴリズムに基づいて、検出した前記候補から前記複数の物体の前記領域を決定する物体決定ステップと、決定した前記領域に対応する候補のペアについて検出された前記関係スコアに基づいて、前記複数の物体の前記関係を決定する関係決定ステップとを含む。

本発明の他の側面に係る物体検出装置は、画像から複数の物体と前記複数の物体の関係とを検出する物体検出装置であって、前記複数の物体が前記画像上で占める領域の候補を検出するとともに、検出した前記候補ごとに、前記候補を一の候補として、前記一の候補の周囲の予め設定された範囲内の他の候補を参照して、前記一の候補の前記他の候補に対する所定の関係の尤度を表す関係スコアを検出する候補／関係スコア検出部と、所定のアルゴリズムに基づいて、検出した前記候補から前記複数の物体の前記領域を決定する物体決定部と、決定した前記領域に対応する候補のペアについて検出された前記関係スコアに基づいて、前記複数の物体の前記関係を決定する関係決定部とを含む。

複数の物体が画像上で占める領域の候補を検出し、検出した候補間の関係の尤度を表す関係スコアを検出するため、候補の検出と関係スコアの検出とを、例えば単一のＣＮＮを用いたニューロ演算によって同時に（並列して、まとめて）行うことができる。これにより、上記関係スコアに基づいて、複数の物体とそれらの物体間の関係とを高速で検出することが可能となる。

本発明の実施の形態の物体検出装置の概略の構成を示すブロック図である。上記物体検出装置が有する候補／関係スコア検出部の構成を模式的に示す説明図である。上記物体検出装置による物体検出方法の処理の流れを示すフローチャートである。上記候補／関係スコア検出部による候補の検出の手順を模式的に示す説明図である。特定のグリッドに対して複数の候補を検出する例を模式的に示す説明図である。他のグリッドに対して複数の候補を検出する例を模式的に示す説明図である。クラススコアが最大であるクラスをグリッドごとに模式的に示す説明図である。上記候補／関係スコア検出部による関係スコアの検出の手順を模式的に示す説明図である。上記候補／関係スコア検出部から出力される特徴マップを示す説明図である。上記物体検出装置の物体決定部が、複数の候補から、複数の物体の領域を決定した状態を示す説明図である。図１０で示した各領域に対応する候補から選択される２つの候補についての関係をグラフ表現した説明図である。閾値処理の前後での２つの候補間の関係を模式的に示す説明図である。関係スコアを絞り込む前後での２つの候補間の関係を模式的に示す説明図である。上記物体検出装置の他の構成を示すブロック図である。図１４の物体検出装置による物体検出方法の処理の流れを示すフローチャートである。

本発明の実施の形態について、図面に基づいて説明すれば、以下の通りである。なお、本発明は、以下の内容に限定されるわけではない。

〔物体検出装置の構成〕
図１は、本実施形態の物体検出装置１の概略の構成を示すブロック図である。物体検出装置１は、例えば、パーソナルコンピュータなどの端末装置で構成されており、店舗内に設置される少なくとも１台の監視カメラ１０と通信回線（有線、無線を問わない）を介して接続されている。監視カメラ１０での撮影によって取得された画像（動画または静止画）のデータが物体検出装置１に入力されると、物体検出装置１では、後述する物体検出方法による処理を実行し、これによって、画像上の複数の物体と、各物体の間の関係とが検出される。

なお、本明細書において、「関係」とは、複数の物体間のかかわりまたは状態、一方の物体の他方の物体に対する作用または動作、の少なくともいずれかを含む。したがって、例えば、画像上で人物が傘を持っているとき、「持っている」という状態、または「持つ」という動作が上記の関係に相当する。この他、（人物が傘を）「差す」とか、ＡがＢに「属する」、といった動作または状態も、上記の関係に含まれる。

なお、物体検出装置１は、必ずしも監視カメラ１０と接続されている必要はなく、外部から画像データを取得できる構成であればよい。例えば、物体検出装置１は、画像データのファイルを添付した電子メールを他の端末装置から受信することにより、上記画像データを取得したり、記録媒体に記録された画像データを読取装置によって読み取ることにより、物体検出に必要な上記画像データを取得する構成であってもよい。以下、物体検出装置１の詳細について説明する。

物体検出装置１は、制御部２と、記憶部３と、入力部４と、表示部５と、通信部６と、検出処理部７とを有している。

制御部２は、例えば中央演算処理装置（ＣＰＵ；Central Processing Unit）で構成されており、記憶部３に記憶された動作プログラムに従って動作し、物体検出装置１の各部の動作を制御する。

記憶部３は、上記動作プログラムや、監視カメラ１０で取得された画像のデータなどを記憶するメモリである。記憶部３は、例えばハードディスクで構成されるが、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、光ディスク、光磁気ディスク、不揮発性メモリなどの記録媒体から適宜選択して構成されてもよい。

入力部４は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成されており、ユーザによる各種の指示入力を受け付ける。表示部５は、監視カメラ１０で取得された画像や、後述する検出処理部７で検出された結果（例えば物体と物体との関係）などの各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部６は、外部（監視カメラ１０を含む）と通信するためのインターフェースであり、入出力端子などを含んで構成される。なお、例えば監視カメラ１０と物体検出装置１とが無線で通信（例えば画像データの送受信）を行う場合、通信部６は、アンテナ、送受信回路、変調回路、復調回路などを含んで構成されてもよい。

検出処理部７は、画像から複数の物体と、複数の物体の関係とを検出する物体検出処理を行うブロックであり、候補／関係スコア検出部７ａと、物体決定部７ｂと、関係決定部７ｃとを含んで構成されている。検出処理部７は、例えばリアルタイムな画像処理に特化した演算装置であるＧＰＵ（Graphics Processing Unit）で構成されるが、制御部２と同一のまたは別個のＣＰＵで構成されてもよく、その他の演算装置で構成されてもよい。

候補／関係スコア検出部７ａは、例えばＣＮＮで構成されており、画像が入力されたときに、複数の物体が画像上で占める領域の候補（バウンディングボックスとも呼ばれる矩形状の枠）を検出するとともに、検出した複数の候補の間での所定の関係の尤度（確からしさ、信頼度）を表す関係スコアを検出する。なお、上記候補の検出にあたっては、例えば、Joseph Redmon, et al., "You Only Look Once: Unified, Real-Time Object Detection", Computer Vision and Pattern Recognition (cs.CV), Submitted on 8 Jun 2015 (v1), last revised 9 May 2016 に記載の技術（以下、“YOLO”と略記する）を採用することができるが、上記関係スコアの検出およびその関係スコアに基づく関係の決定については、“YOLO”には一切記載されていない。

また、候補／関係スコア検出部７ａは、画像上に設定された複数のグリッドのそれぞれに対する候補の相対位置（例えばグリッドの中心に対する候補の中心の位置）、上記画像に対する候補の相対的なサイズ（縦横の大きさ）、物体に対する候補の尤度を表す検出スコア、グリッドにおける物体のクラス（種類）の尤度を表すクラススコアの少なくともいずれかのパラメータをＣＮＮによって検出する。なお、物体に対する候補の尤度とは、候補が物体を示すことの確からしさ、および／または、候補が物体にフィットしていることの確からしさを表す。また、物体のクラスの尤度とは、グリッドにおける物体が属するクラスの確からしさを表す。なお、上記各パラメータ（候補の相対位置等）の検出にあたっては、“YOLO”の技術を採用することができる。

ここで、本実施形態の候補／関係スコア検出部７ａを構成するＣＮＮについて、説明を補足しておく。

図２は、候補／関係スコア検出部７ａ（ＣＮＮ）の構成を模式的に示す説明図である。ＣＮＮは、入力層１１と、畳み込み層１２と、プーリング層１３と、出力層１４とを有して構成される。畳み込み層１２およびプーリング層１３は、少なくとも１組あればよいが、複数組あってもよい。

ＣＮＮを構成する上述した各層は、それぞれ複数のノード（またはユニット）を有しており、各層間で、複数のノードの少なくとも一部がエッジで結ばれている。ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことであるが、上記のノードは、人間の神経細胞に相当する工学的なニューロンのモデルを表す。各層は、活性化関数（応答関数）と呼ばれる関数を持ち、エッジは重みを持つ。したがって、各層のノードから出力される値は、前の層のノードの値と、エッジの重みと、層が持つ活性化関数とから計算される。なお、エッジの重みは、学習によって変化させることができる。

入力層１１の各ノードには、１枚の画像を構成する各画素のデータ（画素値）がそれぞれ入力される。畳み込み層１２は、前の層の所定のノードから出力される値に対してフィルタ処理を行って特徴マップを得る。プーリング層１３は、畳み込み層１２から出力された特徴マップをさらに縮小して新たな特徴マップを得る。出力層１４は、ＣＮＮの最終層であり、前の層のノードの値と、エッジの重みと、出力層１４が持つ活性化関数とから、上述の各パラメータ（領域の候補、関係スコア、候補の相対位置、候補の相対的なサイズ、検出スコア、クラススコア）を出力する。なお、出力層１４は、フィルタ処理を行う畳み込み層で構成されてもよいし、１つ前の層の全ノードからの出力を結合し、所定の演算を行って各パラメータを出力する全結合層で構成されてもよい。

候補／関係スコア検出部７ａ（ＣＮＮ）の学習アルゴリズムとしては、例えば、正解付きの画像データを用い、上記画像データを入力したときに得られる出力層１４からの出力値と、正解を示す値との２乗誤差が最小となるように、最急降下法を用いて、各層（エッジ）の重みを出力層１４側から入力層１１側に向かって順次変化させていく誤差逆伝播法（バックプロパゲーション）を用いることができる。このようにＣＮＮを予め学習させておくことにより、検出対象の複数の物体が含まれる画像をＣＮＮに入力させたときに、上述した各パラメータをＣＮＮから出力させて、それらを検出（推定）することができる。

物体決定部７ｂは、所定のアルゴリズムに基づいて、候補／関係スコア検出部７ａによって検出した複数の物体の候補から、複数の物体の領域を決定する。関係決定部７ｃは、物体決定部７ｂが決定した（複数の物体の）領域に対応する候補のペアについて検出された関係スコアに基づいて、複数の物体の関係を決定する。なお、物体の領域の決定および物体間の関係の決定の詳細については、以下の物体検出方法の説明の中で併せて説明する。

〔物体検出方法〕
次に、本実施形態の物体検出方法について説明する。図３は、図１の物体検出装置１による物体検出方法の処理の流れを示すフローチャートである。本実施形態の物体検出方法は、候補検出ステップ（Ｓ１）と、関係スコア検出ステップ（Ｓ２）と、物体決定ステップ（Ｓ３）と、関係決定ステップ（Ｓ４）とを含む。以下、より詳細に説明する。

（Ｓ１；候補検出ステップ）
Ｓ１では、検出処理部７の候補／関係スコア検出部７ａが、所定のアルゴリズムに基づくニューロ演算（ＣＮＮ）により、複数の物体が画像上で占める領域の候補を検出する。より詳しくは、以下の通りである。

図４は、候補／関係スコア検出部７ａによる候補の検出の手順を模式的に示している。同図に示すように、候補／関係スコア検出部７ａは、ＨおよびＷを２以上の整数として、入力画像をＨ×Ｗ個（図４では例として４×４＝１６個）の複数のグリッドに分割したときの各グリッドごとに、全クラスに共通で２個の候補Ｂをクラススコア付きで検出する。なお、上記入力画像として、ここでは、ＣＮＮの出力層１４（図２参照）に入力される画像、すなわち、入力層１１に入力された画像から、畳み込み層１２およびプーリング層１３によって特徴が抽出された後の画像を考える。以下の説明では、上記入力画像のことを、単に画像とも称する。

なお、各グリッドごとに検出する候補Ｂの数をＫとしたとき、図４では、Ｋ＝２としているが、Ｋを２以外の値に設定することも可能である。また、Ｋの値は、クラスごとに（異なる値に）設定されてもよい。

また、Ｓ１では、候補／関係スコア検出部７ａは、画像上に設定された複数のグリッドのそれぞれに対する候補Ｂの相対位置、画像に対する候補Ｂの相対的なサイズ、候補Ｂの検出スコア、グリッドごとのクラススコアをさらに検出する。ここで、各グリッドに対する候補Ｂの相対位置は、各グリッドの中心に対する、候補Ｂの中心の縦方向（Ｈ方向）および横方向（Ｗ方向）の相対位置であり、縦方向および横方向についての２次元の情報である。また、候補Ｂの相対的なサイズは、画像全体の縦方向および横方向のサイズに対する、候補Ｂの縦方向および横方向のサイズであり、候補Ｂの相対位置と同様に、縦方向および横方向についての２次元の情報である。また、候補Ｂの検出スコアは、候補Ｂが画像上の物体を示すことの確からしさの情報、および／または、候補Ｂが物体にフィットしていることの確からしさの情報であり、Ｐ＝１または２として、Ｐ次元の情報であると言える。さらに、クラススコアは、設定されるクラスの数をＣ個として、各グリッドごとにＣ種類検出されるため、Ｃ次元の情報であると言える。

したがって、後述する関係スコアの検出を考慮しなければ、候補／関係スコア検出部７ａ（ＣＮＮの出力層１４）から出力される特徴マップは、Ｈ×Ｗ×｛Ｋ（２＋２＋Ｐ）＋Ｃ）｝で表される３階のテンソルとなる。

図５は、特定のグリッドに対して複数の候補Ｂを検出する例を模式的に示している。図４では、検出する候補Ｂの縦横のサイズを一定として示しているが、候補／関係スコア検出部７ａを構成するＣＮＮは、予め所定の画像パターンを用いて学習されているため、検出する候補Ｂの縦横のサイズを、画像または画像上の物体に応じて変化させることができる。例えば、各グリッドの位置を、Ｈ方向の座標をｈとし、Ｗ方向の座標をｗとして、（ｈ，ｗ）で表し、（ｈ，ｗ）＝（１，２）のグリッド（斜線のグリッド参照）に着目したとき、候補／関係スコア検出部７ａは、複数の物体領域の候補Ｂとして、上記グリッド内に中心が位置する２つの候補Ｂ₁・Ｂ₂を検出する（ここではＫ＝２に設定されているため、検出される候補数は２個である）。図５の例では、候補／関係スコア検出部７ａが、候補Ｂ₂として、物体（例えば傘）にフィットする枠を検出した例を示している。

図６は、他のグリッドに対して複数の候補Ｂを検出する例を模式的に示している。ここでは、（ｈ，ｗ）＝（３，２）、（３，４）、（４，３）、の各グリッドに対する候補Ｂの検出例を示している。このように、図５と同様の候補Ｂの検出が、他のグリッドに対しても行われ、最終的に、全グリッドに対して複数の候補Ｂが検出される。

図７は、各グリッドごとに検出されるクラススコアに基づき、クラススコアが最大であるクラスをグリッドごとに模式的に示したものである（クラスの違いはハッチングの違いで示している）。同図では、例として、「傘」についてのクラススコアが最大であるグリッドの領域と、「傘を持つ人物」についてのクラススコアが最大であるグリッドの領域と、「他の人物」についてのクラススコアが最大であるグリッドの領域とを区別して示している。候補／関係スコア検出部７ａがグリッドごとにクラススコアを検出することにより、そのクラススコアに基づき、各グリッドにおいてどのクラスが最も確からしいかを検出することができる。

（Ｓ２；関係スコア検出ステップ）
Ｓ２では、候補／関係スコア検出部７ａが、所定のアルゴリズムに基づくニューロ演算（ＣＮＮ）により、各候補間の関係の尤度を表す関係スコアを検出する。このＳ２の関係スコア検出ステップは、上述したＳ１の候補検出ステップと並列に実行される。ここでは、Ｓ１の候補検出ステップと、Ｓ２の関係スコア検出ステップとをまとめて、候補／関係スコア検出ステップＳ１０と呼ぶ。以下、Ｓ２の関係スコア検出ステップの詳細について説明する。

図８は、候補／関係スコア検出部７ａによる関係スコアの検出の手順を模式的に示している。ここで、Ｈ’×Ｗ’（ただしＨ’＜Ｈ、Ｗ’＜Ｗ）の範囲内のいずれかのグリッドｉにおいて検出された一の候補を、Ｂ（ｋ，ｉ）とする。ただし、ｋは１からＫまでのいずれかの整数であり、ｉは１からＨ’×Ｗ’までのいずれかの整数であり、グリッドｉは、Ｈ’×Ｗ’の範囲内の第ｉ番目のグリッドを指す。また、Ｈ’×Ｗ’の範囲内のいずれかのグリッドｊにおいて検出された他の候補を、Ｂ（ｋ，ｊ）とする。ただし、ｊは１からＨ’×Ｗ’までのいずれかの整数であり、グリッドｊは、Ｈ’×Ｗ’の範囲内の第ｊ番目のグリッドを指す。

同図に示すように、候補／関係スコア検出部７ａは、Ｓ１で検出した各候補Ｂから、一の候補Ｂ（ｋ，ｉ）を抽出するとともに、その一の候補Ｂ（ｋ，ｉ）の周囲の予め設定されたＨ’×Ｗ’の範囲内の他の候補Ｂ（ｋ，ｊ）、Ｂ（ｋ，ｊ＋１）、・・・を順に参照して、一の候補Ｂ（ｋ，ｉ）の他の候補Ｂ（ｋ，ｊ）、Ｂ（ｋ，ｊ＋１）、・・・に対する関係スコアをそれぞれ検出し、この処理をＳ１で検出した各候補Ｂごとに（各候補Ｂから抽出する一の候補を順に変えて）行う。候補／関係スコア検出部７ａを構成するＣＮＮは、予め所定の画像パターンを用いて学習されているため、一の候補Ｂ（ｋ，ｉ）の他の候補Ｂ（ｋ，ｊ）等に対する関係スコアについても、ＣＮＮでのニューロ演算によって検出することができる。なお、図８では、便宜的に、一の候補Ｂ（ｋ，ｉ）および他の候補Ｂ（ｋ，ｊ）、Ｂ（ｋ，ｊ＋１）、・・・を一定のサイズで示しているが、画像または物体に応じて縦横のサイズが変化する点は上記と同様である。

ここで、２つの候補間にある関係Ｒが存在する場合をＲ＝１とし、関係Ｒが存在しない場合をＲ＝０としたとき、グリッドｉ内の一の候補Ｂ（ｋ，ｉ）の、グリッドｊ内の他の候補Ｂ（ｋ，ｊ）に対する関係Ｒの有無およびその確率（関係スコアＰ）は、例えば以下のように表される。すなわち、グリッドｉ内の一の候補Ｂ（ｋ，ｉ）の、グリッドｊ内の他の候補Ｂ（ｋ，ｊ）に対する関係Ｒの存在は、Ｒ＝１｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）で表され、関係Ｒが存在する確率（関係スコアＰ）は、Ｐ｛Ｒ＝１｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝で表される。同様に、グリッドｉ内の一の候補Ｂ（ｋ，ｉ）の、グリッドｊ内の他の候補Ｂ（ｋ，ｊ）に対する関係Ｒの不存在は、Ｒ＝０｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）で表され、関係Ｒが不存在である確率（関係スコアＰ）は、Ｐ｛Ｒ＝０｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝で表される。候補／関係スコア検出部７ａは、少なくとも、各候補間に関係Ｒが存在する関係スコアＰ（Ｒ＝１の場合）をＣＮＮによって検出する。なお、上記したＰ｛Ｒ＝１｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝と、Ｐ｛Ｒ＝０｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝は、いずれも、０から１までのいずれかの値をとり、Ｐ｛Ｒ＝１｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝＋Ｐ｛Ｒ＝０｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝＝１である。

また、画像上で一の候補Ｂ（ｋ，ｉ）が「人物」の領域に対応しており、他の候補Ｂ（ｋ，ｊ）が「傘」の領域に対応している場合、一の候補Ｂ（ｋ，ｉ）の他の候補Ｂ（ｋ，ｊ）に対する関係Ｒの一例としては、「人物が傘を持つ」場合の「持つ」が考えられる。この場合、グリッドｉ内の一の候補Ｂ（ｋ，ｉ）の、グリッドｊ内の他の候補Ｂ（ｋ，ｊ）に対する関係Ｒ（「持つ」という関係）が存在する確率（関係スコアＰ）は、Ｐ｛持つ＝１｜Ｂ（ｋ，ｉ），Ｂ（ｋ，ｊ）｝のように表すことができる。

図９は、候補／関係スコア検出部７ａ（ＣＮＮの出力層１４）から出力される特徴マップを示している。上記した関係スコアＰ（ここではＲ＝１についてのスコアを考える）は、Ｈ’×Ｗ’の範囲内の各グリッドごとに、候補Ｂ（ｋ，ｉ）がＫ個存在し、候補Ｂ（ｋ，ｊ）もＫ個存在することから、Ｈ’×Ｗ’の範囲内で得られる関係スコアＰの個数は、合計でＨ’×Ｗ’×Ｋ×Ｋ（＝Ｈ’Ｗ’ＫＫ）個となる。本実施形態では、候補／関係スコア検出部７ａは、単一のＣＮＮにより、Ｓ１での候補の検出（ＣＮＮによるニューロ演算）と、Ｓ２での関係スコアＰの検出（ＣＮＮによるニューロ演算）とをまとめて（同時に、並列に）行う。これにより、候補／関係スコア検出部７ａから出力される特徴マップは、同図に示すように、Ｈ×Ｗ×｛Ｋ（２＋２＋Ｐ）＋Ｃ）＋Ｈ’Ｗ’ＫＫ｝で表される３階のテンソルとなる。

（Ｓ３；物体決定ステップ）
Ｓ３では、物体決定部７ｂが、所定のアルゴリズムに基づいて、Ｓ１で検出した複数の物体の候補Ｂから、複数の物体の領域を決定する。ここで、上記所定のアルゴリズムは、Non-Maximum Suppression（ＮＭＳ）である。ＮＭＳは、同じクラスとして認識され、重なっている領域（候補Ｂ）のうち、スコア（Ｓ１で求めた検出スコアまたはクラススコア）の低いほうの領域（または候補）を除去し、スコアの高いほうの領域（または候補）を残すことで、重複を抑制するアルゴリズムである。なお、２つの領域（または候補）の「重なり」は、ＩｏＵ（Intersection over Union）値と閾値とに基づいて判断することができる。ＩｏＵ値は、例えば２つの候補ｐ、ｑに着目した場合、｛（候補ｐと候補ｑの両方に含まれる領域の面積）／（候補ｐ、ｑの少なくとも一方に含まれる領域の面積）｝の値（割合）を指し、このＩｏＵ値が閾値以上の場合に、２つの候補ｐおよびｑが「重なっている」と判断することができる。

図１０は、物体決定部７ｂが図６で示した複数の候補（破線の枠参照）に対してＮＭＳを適用し、複数の物体の領域Ｂ_A、Ｂ_B、Ｂ_C、Ｂ_Dを決定した状態を示している。領域Ｂ_A、Ｂ_B、Ｂ_C、Ｂ_Dは、画像上で、それぞれ、「傘を持つ人物」の領域、「傘」の領域、「傘を持つ人物と対面している人物の顔」の領域、「傘を持つ人物と対面している人物全体」の領域に対応している。このように、ＮＭＳを適用することにより、重複する領域の候補から適切な候補を絞り込み、絞り込んだ候補を画像上での物体の領域として適切に決定することができる。

（Ｓ４；関係決定ステップ）
Ｓ４では、関係決定部７ｃが、Ｓ３で決定した領域に対応する候補の組（ペア）について、Ｓ２で検出された関係スコアＰに基づいて、複数の物体の関係を決定する。より具体的には、以下の通りである。

まず、関係決定部７ｃは、Ｓ３で決定した領域に対応する候補のペアについての関係をグラフ表現する。図１１は、図１０で示した各領域Ｂ_A、Ｂ_B、Ｂ_C、Ｂ_Dに対応する候補Ｂ_a、Ｂ_b、Ｂ_c、Ｂ_dから選択される２つの候補についての関係をグラフ表現した図である。図１１では、２つの候補間の関係を矢印で示すとともに、矢印の太さ（線幅）を関係スコアＰの値に対応させて表現している。なお、矢印の始点にある候補は、図８で示したＨ’×Ｗ’の範囲内のいずれかのグリッドｉにおいて検出された一の候補Ｂ（ｋ，ｉ）に対応しており、矢印の終点にある候補は、Ｈ’×Ｗ’の範囲内のいずれかのグリッドｊにおいて検出された他の候補Ｂ（ｋ，ｊ）に対応している。

図１１において、例えば、候補Ｂ_aから候補Ｂ_bに向かう矢印は、候補Ｂ_a（「人物」）が候補Ｂ_b（「傘」）に対して関係（人物が傘を「持つ」という関係）があること、およびその「持つ」という関係の尤度を表す関係スコアＰが最大であることを示している（矢印の線幅が最も大きいため）。候補Ｂ_a、Ｂ_b、Ｂ_c、Ｂ_dから選択される２つの候補のいずれについても、それらの間の関係スコアＰは、Ｓ２の関係スコア検出ステップで既に検出されているため、関係決定部７ｃは、図１１のように、上記２つの候補間の関係を、上記関係スコアＰを用いてグラフ化することができる。

図１１のように、関係スコアＰが複数存在する場合（図１１で矢印の本数が複数である場合）、関係決定部７ｃは、複数の関係スコアＰに対して閾値処理を行って閾値未満の関係スコアＰを除外する。図１２は、閾値処理の前後での２つの候補間の関係を模式的に示している。このように閾値未満の関係スコアＰを除外することにより、閾値以上の関係スコアＰを示す矢印だけが残る。これにより、複数の候補のペアの中から、関係を決定する必要のある候補のペアを絞り込むことができる。同図では、閾値処理の結果、候補Ｂ_aから候補Ｂ_bに対して得られる関係スコアＰ１と、候補Ｂ_bから候補Ｂ_aに対して得られる関係スコアＰ２のみが残り、複数の候補のペアの中から、関係を決定する必要のあるペアが、候補Ｂ_aおよび候補Ｂ_bのペアに絞られたことを示している。

このように、２つの候補Ｂ_a・Ｂ_bからなるペアについて得られる関係スコアＰとして、一方の候補Ｂ_aから他方の候補Ｂ_bに対して得られる関係スコアＰ１と、他方の候補Ｂ_bから一方の候補Ｂ_aに対して得られる関係スコアＰ２とが存在するとき、関係決定部７ｃは、より小さいほうの関係スコアを除外する。図１３は、関係スコアＰを絞り込む前後での２つの候補間の関係を模式的に示している。同じ２つの候補Ｂ_a・Ｂ_bについて得られる関係スコアＰ１・Ｐ２のうち、より小さいほうの関係スコア（同図では関係スコアＰ２）を除外することにより、信頼性の高い関係スコアＰ１だけが残る。これにより、残った関係スコアＰ１に基づいて、２つの候補Ｂ_a・Ｂ_b間の関係、つまり、２つの候補Ｂ_a・Ｂ_bに対応する２つの物体間の関係を適切に決定することができる。同図の例では、関係決定部７ｃが、残った関係スコアＰ１に基づき、候補Ｂ_aに対応する物体（「人物」）と、候補Ｂ_bに対応する物体（「傘」）との関係として、人物が傘を「持つ」という関係を決定することになる。

〔効果〕
以上のように、本実施形態の物体検出方法は、候補／関係スコア検出部７ａが、複数の物体が画像上で占める領域の候補Ｂを検出し（Ｓ１）、検出した各候補Ｂごとに、上記候補を一の候補Ｂ（ｋ，ｉ）として、予め設定されたＨ’×Ｗ’の範囲内の他の候補Ｂ（ｋ，ｊ）に対する関係スコアＰを検出する（Ｓ２）。そして、物体決定部７ｂが、所定のアルゴリズム（例えばＮＭＳ）に基づいて、複数の候補Ｂから複数の物体の領域を決定し（Ｓ３）、関係決定部７ｃが、関係スコアＰに基づいて、複数の物体の関係を決定する（Ｓ４）。候補Ｂの検出および関係スコアＰの検出は、候補／関係スコア検出部７ａを構成するＣＮＮ、つまり、単一のＣＮＮによってまとめて（同時に、並列に、非段階的に、Single-shotで）行うことができるため、複数のＣＮＮを用いて人物等の候補の抽出、抽出した候補の統合および再度の畳み込みを行う従来技術のような、候補選択のための中間処理（統合、畳み込み）は不要であり、畳み込みの処理も冗長とならない。これにより、上記関係スコアに基づいて、画像から複数の物体およびそれらの関係を高速で検出することが可能となる。その結果、本実施形態の物体検出方法および物体検出装置１は、そのような高速な検出が必要とされるアプリケーションにも容易に適用可能となる。

特に、候補／関係スコア検出部７ａは、Ｓ１での候補Ｂの検出とＳ２での関係スコアＰの検出とを、ニューロ演算によって並列して行うため、複数の物体および関係の検出用のＣＮＮを１種類とすることができ、上記従来技術に比べて、簡単な構成で、かつ、高速で、複数の物体および関係を検出することができる。

また、上記のニューロ演算は、ＣＮＮによる演算である。この場合、候補Ｂの検出および関係スコアＰの検出を、単一のＣＮＮで並列して同時に行うことができるため、検出した関係スコアＰに基づいて、複数の物体およびそれらの関係を高速で検出することが確実に可能となる。

なお、候補／関係スコア検出部７ａを構成するニューラルネットワークは、ＣＮＮには限定されず、各層のノードが全結合（fully connected）であるＭＬＰ（多層パーセプトロン）であってもよいし、ＲＮＮ（Recurrent Neural Networks）などの他のニューラルネットワークであってもよい。ただし、関係の認識（検出）においては、一般的な物体の種類の認識などよりも、はるかに複雑な外観（画像）をモデリングする（学習させる）必要があるが、処理が簡単である点、および少ない学習データで認識が可能になる点では、ＣＮＮを用いることが望ましい。

また、候補／関係スコア検出部７ａは、画像上に設定された複数のグリッドのそれぞれに対する候補Ｂの相対位置、画像に対する候補Ｂの相対的なサイズ、物体に対する候補Ｂの検出スコア、グリッドにおける物体のクラススコアの少なくともいずれかのパラメータをさらに検出する。この場合、従来の“YOLO”の技術を有効利用して候補Ｂを検出することができるとともに、上記検出スコア等に基づくＮＭＳ処理により、複数の候補Ｂから物体の領域を決定することが可能となる。

〔物体検出装置の他の構成〕
図１４は、物体検出装置１の他の構成を示すブロック図である。図１４の物体検出装置１は、検出処理部７がさらに説明文作成部７ｄを有している点以外は、図１の構成と全く同様である。また、図１５は、図１４の物体検出装置１による物体検出方法の処理の流れを示すフローチャートであり、関係決定ステップ（Ｓ４）の後に、説明文作成工程（Ｓ５）が加わった以外は、図３のフローチャートと全く同様である。以下、図１および図３と異なる部分について説明する。

説明文作成部７ｄは、Ｓ３で決定した複数の物体の領域と、Ｓ４で決定した複数の物体の関係とに基づいて、画像の説明文を作成する。このような説明文作成部７ｄは、ニューロ演算を行うＣＮＮやＲＮＮなどのニューラルネットワークで構成されている。なお、説明文作成部７ｄのニューラルネットワークは、候補／関係スコア検出部７ａのニューラルネットワークとは別個に構成される（互いに区別される）。

例えば、物体決定部７ｂがＮＭＳによって画像上で物体（「人物」）の領域Ｂ_Aと物体（「傘」）の領域Ｂ_Bとを決定し（図１０参照）、関係決定部７ｃが２つの物体Ｂ_A・Ｂ_Bに対応する候補Ｂ_a・Ｂ_bの関係（例えば「持つ」）を決定した場合（図１３参照）、説明文作成部７ｄは、「人物が傘を持つ」という説明文を作成する（Ｓ５；説明文作成工程）。作成した説明文のデータは、例えば記憶部３に記憶され、必要に応じて読み出されて使用される。例としては、上記説明文（データ）は、画像と併せて表示部５に表示されたり、通信部６を介して、画像データと併せて外部の端末に送信される。

上記のように説明文作成部７ｄが、複数の物体の領域と関係とに基づいて、画像の説明文を作成することにより、上記説明文を画像と併せて利用者に提示するアプリケーションを実現することが可能となる。これにより、物体検出装置１の利便性を向上させることができる。また、説明文作成部７ｄは、ＣＮＮなどを用いたニューロ演算により、説明文を簡単に作成することができる。

〔プログラムおよび記録媒体〕
本実施形態で説明した物体検出装置１は、例えば、所定のプログラム（アプリケーションソフトウェア）をインストールしたコンピュータ（ＰＣ）で構成することができる。上記プログラムをコンピュータ（例えばＣＰＵとしての制御部２）が読み取って実行することにより、物体検出装置１の各部を動作させて上述した各処理（各工程）を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されて記憶部３に記憶される。また、上記プログラムは、例えばＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読取可能な記録媒体に記録され、この記録媒体から上記プログラムをコンピュータが読み取って記憶部３に記憶される形態であってもよい。

〔その他〕
以上で説明した本実施形態の物体検出方法および物体検出装置は、以下のように表現されてもよい。また、本実施形態で説明した内容は、以下のように表現されるプログラムおよび記録媒体も含む。

１．画像から複数の物体と前記複数の物体の関係とを検出する物体検出方法であって、前記複数の物体が前記画像上で占める領域の候補を検出する候補検出ステップと、検出した前記候補ごとに、前記候補を一の候補として、前記一の候補の周囲の予め設定された範囲内の他の候補を参照して、前記一の候補の前記他の候補に対する所定の関係の尤度を表す関係スコアを検出する関係スコア検出ステップと、所定のアルゴリズムに基づいて、検出した前記候補から前記複数の物体の前記領域を決定する物体決定ステップと、決定した前記領域に対応する候補のペアについて検出された前記関係スコアに基づいて、前記複数の物体の前記関係を決定する関係決定ステップとを含むことを特徴とする物体検出方法。

２．前記候補検出ステップおよび前記関係スコア検出ステップは、ニューロ演算によって並列に実行されることを特徴とする前記１に記載の物体検出方法。

３．前記ニューロ演算は、ＣＮＮによる演算であることを特徴とする前記２に記載の物体検出方法。

４．前記候補検出ステップでは、前記画像上に設定された複数のグリッドのそれぞれに対する前記候補の相対位置、前記画像に対する前記候補の相対的なサイズ、前記物体に対する前記候補の尤度を表す検出スコア、前記グリッドにおける前記物体のクラスの尤度を表すクラススコアの少なくともいずれかのパラメータをさらに検出することを特徴とする前記１から３のいずれかに記載の物体検出方法。

５．前記物体決定ステップにおける前記所定のアルゴリズムは、Non-Maximum Suppressionであることを特徴とする前記４に記載の物体検出方法。

６．前記関係決定ステップでは、前記関係スコアが複数存在するときに、閾値未満の関係スコアを除外することを特徴とする前記１から５のいずれかに記載の物体検出方法。

７．前記関係決定ステップでは、２つの前記候補からなるペアについて得られる前記関係スコアとして、前記ペアの一方の候補から他方の候補に対して得られる関係スコアと、前記ペアの前記他方の候補から前記一方の候補に対して得られる関係スコアとが存在するときに、より小さいほうの関係スコアを除外することを特徴とする前記１から６のいずれかに記載の物体検出方法。

８．決定した前記複数の物体の前記領域と、前記複数の物体の前記関係とに基づいて、前記画像の説明文を作成する説明文作成ステップをさらに含むことを特徴とする前記１から７のいずれかに記載の物体検出方法。

９．前記説明文作成ステップでは、ニューロ演算によって前記説明文を作成することを特徴とする前記８に記載の物体検出方法。

１０．前記複数の物体の前記関係は、前記複数の物体間のかかわりまたは状態、一方の物体の他方の物体に対する作用または動作、の少なくともいずれかを含むことを特徴とする前記１から９のいずれかに記載の物体検出方法。

１１．画像から複数の物体と前記複数の物体の関係とを検出する物体検出装置であって、前記複数の物体が前記画像上で占める領域の候補を検出するとともに、検出した前記候補ごとに、前記候補を一の候補として、前記一の候補の周囲の予め設定された範囲内の他の候補を参照して、前記一の候補の前記他の候補に対する所定の関係の尤度を表す関係スコアを検出する候補／関係スコア検出部と、所定のアルゴリズムに基づいて、検出した前記候補から前記複数の物体の前記領域を決定する物体決定部と、決定した前記領域に対応する候補のペアについて検出された前記関係スコアに基づいて、前記複数の物体の前記関係を決定する関係決定部とを含むことを特徴とする物体検出装置。

１２．前記候補／関係スコア検出部は、前記候補の検出と前記関係スコアの検出とをニューロ演算によって並列して行うことを特徴とする前記１１に記載の物体検出装置。

１３．前記ニューロ演算は、ＣＮＮによる演算であることを特徴とする前記１２に記載の物体検出装置。

１４．前記候補／関係スコア検出部は、前記画像上に設定された複数のグリッドのそれぞれに対する前記候補の相対位置、前記画像に対する前記候補の相対的なサイズ、前記物体に対する前記候補の尤度を表す検出スコア、前記グリッドにおける前記物体のクラスの尤度を表すクラススコアの少なくともいずれかのパラメータをさらに検出することを特徴とする前記１１から１３のいずれかに記載の物体検出装置。

１５．前記物体決定部が前記領域を決定する際に用いる前記所定のアルゴリズムは、Non-Maximum Suppressionであることを特徴とする前記１４に記載の物体検出装置。

１６．前記関係決定部は、前記関係スコアが複数存在するときに、閾値未満の関係スコアを除外することを特徴とする前記１１から１５のいずれかに記載の物体検出装置。

１７．前記関係決定部は、２つの前記候補からなるペアについて得られる前記関係スコアとして、前記ペアの一方の候補から他方の候補に対して得られる関係スコアと、前記ペアの前記他方の候補から前記一方の候補に対して得られる関係スコアとが存在するときに、より小さいほうの関係スコアを除外することを特徴とする前記１１から１６のいずれかに記載の物体検出装置。

１８．決定した前記複数の物体の前記領域と、前記複数の物体の前記関係とに基づいて、前記画像の説明文を作成する説明文作成部をさらに含むことを特徴とする前記１１から１７のいずれかに記載の物体検出装置。

１９．前記説明文作成部は、ニューロ演算によって前記説明文を作成することを特徴とする前記１８に記載の物体検出装置。

２０．前記複数の物体の前記関係は、前記複数の物体間のかかわりまたは状態、一方の物体の他方の物体に対する作用または動作、の少なくともいずれかを含むことを特徴とする前記１１から１９のいずれかに記載の物体検出装置。

２１．前記１から１０のいずれかに記載の物体検出方法をコンピュータに実行させるプログラム。

２２．前記２１に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

本発明は、例えば監視カメラシステムのような、画像から人物の行動を分析するアプリケーションや、画像から複数の物体の間に存在する関係を高速で推定するアプリケーションに利用可能である。

１物体検出装置
７ａ候補／関係スコア検出部
７ｂ物体決定部
７ｃ関係決定部
７ｄ説明文作成部

Claims

画像から複数の物体と前記複数の物体の関係とを検出する物体検出方法であって、
前記複数の物体が前記画像上で占める領域の候補を検出する候補検出ステップと、
検出した前記候補ごとに、前記候補を一の候補として、前記一の候補の周囲の予め設定された範囲内の他の候補を参照して、前記一の候補の前記他の候補に対する所定の関係の尤度を表す関係スコアを検出する関係スコア検出ステップと、
所定のアルゴリズムに基づいて、検出した前記候補から前記複数の物体の前記領域を決定する物体決定ステップと、
決定した前記領域に対応する候補のペアについて検出された前記関係スコアに基づいて、前記複数の物体の前記関係を決定する関係決定ステップとを含む、物体検出方法。
前記候補検出ステップおよび前記関係スコア検出ステップは、ニューロ演算によって並列に実行される、請求項１に記載の物体検出方法。
前記ニューロ演算は、ＣＮＮによる演算である、請求項２に記載の物体検出方法。
前記候補検出ステップでは、前記画像上に設定された複数のグリッドのそれぞれに対する前記候補の相対位置、前記画像に対する前記候補の相対的なサイズ、前記物体に対する前記候補の尤度を表す検出スコア、前記グリッドにおける前記物体のクラスの尤度を表すクラススコアの少なくともいずれかのパラメータをさらに検出する、請求項１から３のいずれかに記載の物体検出方法。
前記物体決定ステップにおける前記所定のアルゴリズムは、Non-Maximum Suppressionである、請求項４に記載の物体検出方法。
前記関係決定ステップでは、前記関係スコアが複数存在するときに、閾値未満の関係スコアを除外する、請求項１から５のいずれかに記載の物体検出方法。
前記関係決定ステップでは、２つの前記候補からなるペアについて得られる前記関係スコアとして、前記ペアの一方の候補から他方の候補に対して得られる関係スコアと、前記ペアの前記他方の候補から前記一方の候補に対して得られる関係スコアとが存在するときに、より小さいほうの関係スコアを除外する、請求項１から６のいずれかに記載の物体検出方法。
決定した前記複数の物体の前記領域と、前記複数の物体の前記関係とに基づいて、前記画像の説明文を作成する説明文作成ステップをさらに含む、請求項１から７のいずれかに記載の物体検出方法。
前記説明文作成ステップでは、ニューロ演算によって前記説明文を作成する、請求項８に記載の物体検出方法。
前記複数の物体の前記関係は、前記複数の物体間のかかわりまたは状態、一方の物体の他方の物体に対する作用または動作、の少なくともいずれかを含む、請求項１から９のいずれかに記載の物体検出方法。
画像から複数の物体と前記複数の物体の関係とを検出する物体検出装置であって、
前記複数の物体が前記画像上で占める領域の候補を検出するとともに、検出した前記候補ごとに、前記候補を一の候補として、前記一の候補の周囲の予め設定された範囲内の他の候補を参照して、前記一の候補の前記他の候補に対する所定の関係の尤度を表す関係スコアを検出する候補／関係スコア検出部と、
所定のアルゴリズムに基づいて、検出した前記候補から前記複数の物体の前記領域を決定する物体決定部と、
決定した前記領域に対応する候補のペアについて検出された前記関係スコアに基づいて、前記複数の物体の前記関係を決定する関係決定部とを含む、物体検出装置。
前記候補／関係スコア検出部は、前記候補の検出と前記関係スコアの検出とをニューロ演算によって並列して行う、請求項１１に記載の物体検出装置。
前記ニューロ演算は、ＣＮＮによる演算である、請求項１２に記載の物体検出装置。
前記候補／関係スコア検出部は、前記画像上に設定された複数のグリッドのそれぞれに対する前記候補の相対位置、前記画像に対する前記候補の相対的なサイズ、前記物体に対する前記候補の尤度を表す検出スコア、前記グリッドにおける前記物体のクラスの尤度を表すクラススコアの少なくともいずれかのパラメータをさらに検出する、請求項１１から１３のいずれかに記載の物体検出装置。
前記物体決定部が前記領域を決定する際に用いる前記所定のアルゴリズムは、Non-Maximum Suppressionである、請求項１４に記載の物体検出装置。
前記関係決定部は、前記関係スコアが複数存在するときに、閾値未満の関係スコアを除外する、請求項１１から１５のいずれかに記載の物体検出装置。
前記関係決定部は、２つの前記候補からなるペアについて得られる前記関係スコアとして、前記ペアの一方の候補から他方の候補に対して得られる関係スコアと、前記ペアの前記他方の候補から前記一方の候補に対して得られる関係スコアとが存在するときに、より小さいほうの関係スコアを除外する、請求項１１から１６のいずれかに記載の物体検出装置。
決定した前記複数の物体の前記領域と、前記複数の物体の前記関係とに基づいて、前記画像の説明文を作成する説明文作成部をさらに含む、請求項１１から１７のいずれかに記載の物体検出装置。
前記説明文作成部は、ニューロ演算によって前記説明文を作成する、請求項１８に記載の物体検出装置。
前記複数の物体の前記関係は、前記複数の物体間のかかわりまたは状態、一方の物体の他方の物体に対する作用または動作、の少なくともいずれかを含む、請求項１１から１９のいずれかに記載の物体検出装置。