JP7251692B2

JP7251692B2 - オブジェクト検出方法、オブジェクト検出装置及びプログラム

Info

Publication number: JP7251692B2
Application number: JP2022528753A
Authority: JP
Inventors: 大気関井
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-06-05
Filing date: 2021-05-24
Publication date: 2023-04-04
Anticipated expiration: 2041-05-24
Also published as: JPWO2021246217A1; US20240029394A1; WO2021246217A1

Description

本開示は、画像から所定のオブジェクトを検出するオブジェクト検出方法、オブジェクト検出装置及びプログラムに関する。

カメラで撮影された映像から人物や車両などのオブジェクトを検出するオブジェクト検出技術は、監視カメラシステムや車載カメラシステムなどのアプリケーションの基礎技術として利用されている。近年、オブジェクト検出技術として、ディープラーニングが使用されている。ディープラーニングによるオブジェクト検出方法としては、例えば、ＥｘｔｒｅｍｅＮｅｔ（非特許文献１参照）、ＹＯＬＯ（非特許文献２参照）などが挙げられる。

非特許文献１では、学習済みのニューラルネットワークを用いて、画像上におけるオブジェクトの境界に係る４つの端点（Ｘ軸において最小値となる点、Ｘ軸において最大値となる点、Ｙ軸において最小値となる点、Ｙ軸において最大値となる点）を検出する。そして、それら４つの端点を用いてオブジェクトを囲む矩形領域（ＢＢ：ＢｏｕｎｄｉｎｇＢｏｘ）を決定することにより、オブジェクトの位置の検出の精度を向上させている。

非特許文献２では、従来のニューラルネットワークでは別々に行っていた、画像におけるオブジェクトが含まれる領域の位置を特定する「検出」と、検出したオブジェクトが検出対象のオブジェクトクラスのいずれに該当するかを特定する「識別」とを、画像全体を一度評価するだけで同時に行うことにより、高速なオブジェクト検出を実現している。

Xingyi Zhou, Jiacheng Zhuo, Philipp Krahenbuhl, "Bottom-up Object Detection by Grouping Extreme and Center Points", Computer Vision and Pattern Recognition (CVPR) 2019 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Computer Vision and Pattern Recognition (CVPR) 2016

しかしながら、非特許文献１では、画像上においてオブジェクトの境界となっていない点はキーポイントとして検出することが困難である。また、非特許文献２は、オブジェクトの位置をバウンディングボックスとして検出するものであり、画像上で特徴的な点をキーポイントとして検出するものではない。

本開示は、上記課題に鑑みてなされたもので、従来の手法では検出できなかった点をキーポイントとして検出可能なオブジェクト検出方法及びオブジェクト検出装置を提供することを目的とする。

本開示の一態様のオブジェクト検出方法は、所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出方法であって、前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定ステップと、推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出ステップと、を有し、前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることであるとしてもよい。

また、前記画像における各オブジェクトの中心位置の候補である中心候補とその尤もらしさ示す信頼度を推定する中心位置推定ステップを更に有し、前記検出ステップは、前記信頼度を用いて前記中心候補から各オブジェクトの中心位置を検出し、決定した各中心位置を用いて前記点候補から各オブジェクトのキーポイントを検出するとしてもよい。

また、前記キーポイント推定ステップは、各オブジェクトの大きさに応じたサイズの小領域として前記点候補を推定するとしてもよい。

また、前記キーポイント推定ステップが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行されるとしてもよい。

また、前記キーポイント推定ステップと前記中心位置推定ステップとが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行されるとしてもよい。

また、前記学習モデルは、畳み込みニューラルネットワークであり、前記畳み込みニューラルネットワークのパラメータは、検出対象のオブジェクトを含む学習用画像と、前記学習用画像における検出対象のオブジェクトの中心位置の真値と、前記学習用画像における検出対象のオブジェクトのキーポイントの真値と、に基づく機械学習により、定められるとしてもよい。

本開示の一態様のオブジェクト検出装置は、所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出装置であって、前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定処理を実行する、前記オブジェクトを検出するための機械学習を行った学習モデルと、推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出部と、を備え、前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることであるとしてもよい。

本開示の一態様は、上述のオブジェクト検出方法をコンピューターに実行させるプログラムであってもよい。

本開示によると、オブジェクトの形状をモデル化したオブジェクトモデルに対して設定される極座標系で所定の条件を満たす点をキーポイントとして検出するので、入力画像における直交座標系での条件を満たすキーポイントとは異なる特徴点を検出することができる。

実施の形態１に係るオブジェクト検出装置１の概略構成を示すブロック図である。オブジェクト検出装置１の動作を示すフローチャートである。ＣＮＮ１３０の入力となるカメラ２００の撮影画像の一例を示す図である。Ｗ×Ｈのグリッドセルに分割された撮影画像を示す図である。（ａ）はＣＮＮ１３０の出力するオブジェクト推定データのデータ構造を示す図である。（ｂ）はオブジェクト推定データの表す情報を視覚的に示した図である。オブジェクトモデル及びオブジェクトモデルに対して設定される座標軸を示す模式図である。オブジェクトモデルにおける点の座標軸への射影を示す図である。教師データの一例を示す図である。各グリッドセルに対して行われたクラス分類の分類結果の例を示す図である。（ａ）はＢＢ除去処理の後、残ったＯＢと第１ＰＢの例を示すである。（ｂ）はＯＢと対応付けられた第１ＰＢの例を示す図である。（ｃ）はＯＢと対応付けられた各ＰＢの例を示す図である。オブジェクト検出結果を模式的に示す図である。検出したオブジェクトの概形を示す図である。オブジェクト検出結果と入力画像とを重畳した図である。ＣＮＮ１３０の構成を示すブロック図である。（ａ）ＣＮＮ１３０の一つのニューロンＵを示す模式図である。（ｂ）ＣＮＮ１３０の学習済みパラメータのデータ構造を示す図である。（ａ）は学習時のデータ伝播を模式的に示す図である。（ｂ）推定時のデータ伝播を模式的に示す図である。

１．実施の形態１
以下、実施の形態１に係るオブジェクト検出装置１について説明する。

１．１構成
図１は、オブジェクト検出装置１００の構成を示すブロック図である。図に示すように、オブジェクト検出装置１００は、カメラ２００と、制御部１１０と、不揮発性の記憶部１２０と、ＣＮＮ１３０と、オブジェクト検出部１４０と、ＡＩ学習部１５０とを備える。

カメラ２００は、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒｆｉｅｌｄ－ｅｆｆｅｃｔｔｒａｎｓｉｓｔｏｒ）イメージセンサーやＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサー等の撮像素子を備え、撮像素子上に結像した光を光電変換で電気信号に変換することにより所定サイズの画像を出力する。カメラ２００の出力画像のサイズとＣＮＮ１３０の入力画像のサイズが異なる場合は、カメラ２００の出力画像をリサイズする構成を備えてもよい。

制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、などから構成される。ＲＡＭには、ＲＯＭや記憶部１２０に格納されたコンピュータプログラムやデータがロードされ、ＣＰＵが、ＲＡＭ上のコンピュータプログラムやデータにしたがって動作することにより、各処理部（ＣＮＮ１３０、オブジェクト検出部１４０、ＡＩ学習部１５０）を実現する。

記憶部１２０は、一例として、ハードディスクから構成されている。記憶部１２０は、不揮発性の半導体メモリから構成されている、としてもよい。記憶部１２０は、オブジェクト検出結果１２１、学習済みパラメータ１２２、学習用データ１２３を記憶している。学習用パラメータ１２３は、学習用画像１２３ａ及び教師データ１２３ｂを含む。

ＣＮＮ１３０は、オブジェクトを検出するための機械学習を行った畳み込みニューラルネットワークである。ＣＮＮ１３０は、入力された所定サイズの画像から、画像全体を一度評価することにより、オブジェクト推定データを出力する。オブジェクト推定データは、入力画像上の検出対象のオブジェクトを囲むＢＢ（ＯＢ）や、入力画像上で検出対象のオブジェクトのキーポイントが含まれるＢＢ（ＰＢ）、ＯＢが囲むオブジェクトが検出対象のオブジェクトクラスのいずれに該当するかを示すクラス確率などのデータを含む。

オブジェクト検出部１４０は、ＣＮＮ１３０の出力したオブジェクト推定データから、信頼度スコアが閾値よりも低いＯＢや、より信頼度スコアの高いＯＢとの重複度合いの高いＯＢを除去する。同様に、重複ＢＢ除去部は、信頼度スコアが閾値よりも低いＰＢや、より信頼度スコアの高いＰＢとの重複度合いの高いＰＢを除去する。信頼度スコアは、オブジェクト推定データに含まれるＯＢやＰＢの信頼度及びクラス確率を用いて算出する。また、オブジェクト検出部１４０は、除去されずに残ったＯＢとＰＢとの対応付けを行い、対応付けられたＯＢとＰＢとを、オブジェクト検出結果１２１として記憶部１２０に保存する。

ＡＩ学習部１５０は、記憶部１２０に記憶されている学習用データ１２３を用いてＣＮＮの学習を行い、学習結果を学習用パラメータ１２２として記憶部１２０に保存する。
整形後のオブジェクトＢＢの位置及びサイズと当該オブジェクトＢＢのクラス確率に基づくクラス判定値を検出結果として記憶する。

１．２ＣＮＮ１３０
畳み込みニューラルネットワークの一例として、図１４に示すニューラルネットワーク３００について、説明する。

（１）ニューラルネットワーク３００の構造
ニューラルネットワーク３００は、この図に示すように、入力層３００ａ、特徴抽出層３００ｂ及び出力層３００ｃを有する階層型のニューラルネットワークである。

ここで、ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことである。ニューラルネットワーク３００において、神経細胞に相当する工学的なニューロンのモデルを、ここではニューロンＵと呼ぶ。入力層３００ａ、特徴抽出層３００ｂ及び出力層３００ｃは、それぞれ複数のニューロンＵを有して構成されている。

入力層３００ａは、通常、１層からなる。入力層３００ａの各ニューロンＵは、例えば１枚の画像を構成する各画素の画素値をそれぞれ受信する。受信した画像値は、入力層３００ａの各ニューロンＵから特徴抽出層３００ｂにそのまま出力される。特徴抽出層３００ｂは、入力層３００ａから受信したデータから特徴を抽出して出力層３００ｃに出力する。出力層３００ｃは、特徴抽出層３００ｂにより抽出された特徴を用いてオブジェクト検出を行う。

ニューロンＵとして、通常、図１５（ａ）に示すように、多入力１出力の素子が用いられる。信号は一方向にだけ伝わり、入力された信号ｘｉ（ｉ＝１、２、・・・、ｎ）に、あるニューロン加重値（ＳＵｗｉ）が乗じられて、ニューロンＵに入力される。ニューロン加重値は、学習によって変化させることができる。ニューロンＵからは、ニューロン加重値ＳＵｗｉが乗じられたそれぞれの入力値（ＳＵｗｉ×ｘｉ）の総和が活性化関数ｆ（Ｘ）による変形を受けた後、出力される。つまり、ニューロンＵの出力値ｙは、以下の数式で表される。

ｙ＝ｆ（Ｘ）
ここで、
Ｘ＝Σ（ＳＵｗｉ×ｘｉ）
である。なお、活性化関数としては、例えば、ＲｅＬＵやシグモイド関数を用いることができる。

ニューラルネットワーク３００の学習方法としては、例えば、正解を示す値（教師データ）とＣＮＮ３００の出力値（オブジェクト推定データ）とから所定の誤差関数を用いて誤差を算出し、この誤差が最小となるように、最急降下法等を用いて特徴抽出層３００ｂのニューロン加重値等及び出力層３００ｃのニューロン加重値を順次変化させていく誤差逆伝播法（バックプロパゲーション）が用いられる。

（２）学習工程
ニューラルネットワーク３００における学習工程について説明する。

学習工程は、ニューラルネットワーク３００の事前学習を行う工程である。学習工程では、事前に入手した学習用データ１２３を用いて、ニューラルネットワーク３００の事前学習を行う。

図１６（ａ）に、事前学習の際のデータの伝播モデルを模式的に示している。

学習用画像１２３ａは、画像１枚毎に、ニューラルネットワーク３００の入力層３００ａに入力され、入力層３００ａから特徴抽出層３００ｂに出力される。特徴抽出層３００ｂの各ニューロンＵでは、入力データに対してニューロン加重値付きの演算が行われ、抽出した特徴を示すデータが、出力層３００ｃに出力される。出力層３００ｃの各ニューロンＵでは、入力データに対するニューロン加重値付きの演算が行われる（ステップＳ１１）。これによって、上記特徴に基づくオブジェクト推定が行われる。オブジェクト推定の結果を示すデータは、出力層３００ｃから出力される。

出力層３００ｃの出力値（オブジェクト推定データ）は、教師データ１２３ｂと比較され、所定の誤差関数を用いて、誤差（ロス）が算出される（ステップＳ１２）。この誤差が小さくなるように、出力層３００ｃのニューロン加重値等及び特徴抽出層３００ｂのニューロン加重値等を順次変化させる（バックプロパゲーション）（ステップＳ１３）。これにより、ＣＮＮ３００の学習を行う。

（３）学習結果
学習結果は、学習済みパラメータ１２２として記憶部１２０に記憶される。学習済みパラメータ１２２は、図１５（ｂ）に示すように、複数のニューロン情報１２２－１から構成されている。各ニューロン情報１２２－１は、特徴抽出層３００ｂ及び出力層３００ｃの各ニューロンＵに対応する。

各ニューロン情報１２２－１は、ニューロン番号１２２－２及びニューロン加重値１２２－３を含んでいる。

ニューロン番号１２２－２は、特徴抽出層３００ｂ及び出力層３００ｃの各ニューロンＵを識別する番号である。

ニューロン加重値１２２－３は、それぞれ、特徴抽出層３００ｂ及び出力層３００ｃの各ニューロンＵのニューロン加重値である。

（４）推定工程
ニューラルネットワーク３００における推定工程について説明する。

図１６（ｂ）は、上記の学習工程によって学習されたニューラルネットワーク３００を用い、カメラ２００で得られた画像データを入力としてオブジェクト推定を行う場合のデータの伝播モデルを示している。

ニューラルネットワーク３００における推定工程においては、学習された特徴抽出層３００ｂと、学習された出力層３００ｃとを用いて、特徴抽出及びオブジェクト推定が行われる（ステップＳ１４）。

（５）ＣＮＮ１３０
実施の形態に係るＣＮＮ１３０は、ニューラルネットワーク３００と同様の構成をしており、ニューラルネットワーク３００と同様に学習及び推定を行う。

ＣＮＮ１３０は、入力画像を分割したＷ×Ｈのグリッドセルそれぞれに対して、オブジェクト推定データを出力する。

図３は、ＣＮＮ１３０の入力画像の例であり、図４は、入力画像をグリッドセルに分割したものである。図４の例では、入力画像を８×６のグリッドセルに分割している。

図５（ａ）は、グリッドセル毎のオブジェクト推定データのデータ構造を示す。図５（ａ）に示すように、オブジェクト推定データ４００は、ＯＢ情報、第１ＰＢ情報、第２ＰＢ情報、……、第２ＮＰＢ情報、及び、クラス確率からなる。

ＯＢ情報は、グリッドセルに対する相対位置（Ｘ軸及びＹ軸）、サイズ（Ｘ軸及びＹ軸）、及び信頼度からなる。グリッドセルに対する相対位置は、推定されたＯＢの位置を示す情報であり、対応するグリッドセルの左上の座標を原点としたときのＯＢの左上の座標を示す。サイズは、ＯＢのサイズを示す情報であり、ＯＢの左上の座標を原点としたときのＯＢの右下の座標を示す。信頼度は、ＯＢ内に検出対象のオブジェクトクラスのいずれかに該当するオブジェクトが存在するのか、存在する場合にその位置やサイズを正確に検出できているかを示す情報である。信頼度は、ＯＢに検出対象のオブジェクトクラスに該当するオブジェクトが存在すると推定される場合は１に近い値となり、存在しないと推定される場合は０に近い値となる。また、信頼度は、位置やサイズを正確に検出できていると推定される場合は１に近い値となり、位置やサイズを正確に検出できていないと推定される場合は０に近い値となる。

第１ＰＢ情報、第２ＰＢ情報、……、第２ＮＰＢ情報も同様に、それぞれグリッドセルに対する相対位置（Ｘ軸及びＹ軸）、サイズ（Ｘ軸及びＹ軸）、及び信頼度からなる。

クラス確率は、対応するグリッドセルのオブジェクトＢＢ内に含まれるオブジェクトが検出対象のオブジェクトクラスのいずれに該当するかの推定値を示す情報である。例えば、オブジェクトクラスのクラス数がＣ個であり、各オブジェクトクラスが、クラス１（人）、クラス２（車）、……であるとすると、オブジェクトＢＢ内に人が含まれると推定される場合は人（クラス１）の確率が高くなり（１に近い値をとる）、車が含まれると推定される場合は車（クラス２）の確率が高くなる（１に近い値をとる）。

このように、ＣＮＮ１３０は、一つのグリッドセルに対し、各５次元のＢＢ情報（ＯＢ情報、第１ＰＢ情報、……、第２ＮＰＢ情報）とＣ次元のクラス確率の（５×（１＋２Ｎ）＋Ｃ）次元のオブジェクト推定データを出力する。これがＷ×Ｈのグリッド毎に算出されるので、学習済ＡＩモデル２０が出力するオブジェクト推定データはＷ×Ｈ×（５×（１＋２Ｎ）＋Ｃ）次元のデータとなる。

図５（ｂ）は、入力画像に対して出力されたオブジェクト推定データのうち、グリッドセル３０１に対するオブジェクトデータを視覚的に示した例である。ここではＮ＝５として、第１ＰＢ～第１０ＰＢの計１０個のＰＢが出力されている。符号３０２がグリッドセル３０１に対して推定されたＯＢであり、符号３０２－３１１がグリッドセル３０１に対して推定された１０個のＰＢである。そして、符号３１２が、ＯＢ３０２に含まれるオブジェクトのクラス確率である。

（７）ＣＮＮ１３０が推定するキーポイントの定義
上述したようにＰＢは、キーポイントが含まれると推定されるＢＢのことである。ここでは、ＣＮＮ１３０が出力するオブジェクト推定データに含まれるＰＢ（第１ＰＢ－第２ＮＰＢ）に含まれるキーポイントについて説明する。

検出対象のオブジェクトクラスのオブジェクトを立体的にモデル化したオブジェクトモデルを考える。ここでは、検出対象のオブジェクトクラスが車である場合について説明する。

図６は、検出対象のオブジェククラスである車のオブジェクトモデル６００と、当該オブジェクトモデル６００に対して設定された座標軸６０１、６０２を示す図である。ここで、座標軸６０１、６０２の原点は、オブジェクトモデル６００の中心である。また、座標軸６０１、６０２は、それぞれ、オブジェクトモデル６００の中心を原点として設定された極座標系において所定の偏角方向をなしている。

オブジェクトモデル６００上の点集合６０３～６０７を、座標軸６０１、６０２に射影した点について考える。

図７は、オブジェクトモデル６００上の点を座標軸６０１、６０２に射影させた点を示す図である。

図７に示すように、オブジェクトモデル６００上の点集合６０３～６０７は、座標軸６０１の点集合７０１～７０５に射影される。同様に、オブジェクトモデル６００上の点集合６０３～６０７は、座標軸６０２の点集合７１１～７１５に射影される。

オブジェクトモデル６００の表面上の各点において、特徴的な部分を示す点、例えば、他の部分よりも突出している点や他の部分よりも凹んでいる点は、座標軸６０１や６０２がなす極座標系の偏角方向を適切に選べば、座標軸６０１、６０２に射影された点集合において、極大値又は極小値となる点である。逆にいうと、座標軸６０１、６０２に射影された点集合うち、極大値又は極小値となる点は、オブジェクトモデル６００の表面上の各点において、特徴的な部分を示す点といえる。本実施の形態で、このように座標軸上にオブジェクトモデル６００の表面上の各点を射影した点集合のうち、極大値となる点及び極小値となる点をそれぞれ求め、それらの中から正の範囲で最大値となる点と最小値となる点をキーポイントと定義する。また、Ｎ個の偏角方向を設定し、Ｎ個の座標軸に対してそれぞれ２つずつキーポイントを定義することで、合計２Ｎ個のキーポイントを定義する。

このようにして、オブジェクトモデル６００の表面上の各点において、他の部分よりも突出している点や他の部分よりも凹んでいる２Ｎ個の点をキーポイントとして定義する。

（８）学習用データ
上記で定義されるキーポイントを推定するための学習用データについて説明する。

図８は、上記の定義されるキーポイントを推定するための学習用データを模式的に示す図である。画像８００は、学習用画像であり、画像内に検出対象のオブジェクトクラスに該当するオブジェクトが含まれる。符号８０１－８０６は、教師データであり、符号８０１は、学習用画像８００に含まれる検出対象のオブジェクトクラスのオブジェクトを含むＢＢ（ＯＢＴ）の位置及びサイズの真値を示す。また、符号８０２－８１６は、ＯＢＴ８０１に含まれるオブジェクトの各キーポイントを含むＢＢ（ＰＢＴ）の位置及びサイズの真値を示す。ここで、各ＰＢＴの中心位置は上記キーポイントの定義に従って設定される。ＰＢＴのサイズは、各キーポイント間の距離の最小値の定数倍としてもよい。

また、教師データには、ＯＢＴに含まれるオブジェクトのオブジェクトクラスを示すクラス確率の真値（ワンホット化されたクラス確率）が含まれる。

（９）誤差関数
上記で定義されるキーポイントを推定するための誤差関数について説明する。学習時には、まず、学習用画像８００に対して、推定時と同様にオブジェクト推定データを出力する。そして、出力されたオブジェクト推定データと、教師データとを比較し、誤差関数に基づいて誤差を算出する。

誤差関数においては、５つの誤差を算出する。１つ目の誤差は、教師データのＯＢＴの中心が存在するグリッドセルにおける、オブジェクト推定データのＯＢ及びＰＢの位置と、教師データのＯＢＴ及びＰＢＴの位置の誤差である。２つ目の誤差は、教師データのＯＢＴの中心が存在するグリッドセルにおける、オブジェクト推定データのＯＢ及び各ＰＢのサイズと、教師データのＯＢＴ及びＰＢＴのサイズとの誤差である。３つめの誤差は、教師データのＯＢＴの中心が存在するグリッドセルにおける、オブジェクト推定データのＯＢ及び各ＰＢの信頼度と、教師データのＯＢＴ及びＰＢＴの信頼度との誤差である。４つ目の誤差は、教師データのＯＢＴの中心が存在しないグリッドセルにおける、オブジェクト推定データのＯＢ及びＰＢの信頼度と非オブジェクト信頼度との誤差である。５つ目の誤差は、教師データのＯＢＴの中心が存在するグリッドセルにおける、オブジェクト推定データのクラス確率と、教師データのクラス確率との誤差である。なお、教師データのＯＢＴ及びＰＢＴの信頼度はそれぞれ１として計算してもよく、非オブジェクト信頼度は０として計算してもよい。

１．３オブジェクト検出部１４０
オブジェクト検出部１４０の実行する処理について説明する。

オブジェクト検出部１４０は、ＣＮＮ１３０の出力したオブジェクト推定データに基づいて、各グリッドセルのクラス分類を行う。オブジェクト検出部１４０は、各グリッドセルについて、信頼度スコアを算出し、信頼度スコアが所定の閾値（例えば、０．６）以下のグリッドセルを、オブジェクトが含まれない背景のグリッドセルと判定する。オブジェクト検出部１４０は、背景以外のグリッドセルについて、最もクラス確率の高いオブジェクトクラスのグリッドセルと判定する。図９は、各グリッドセルに対して行われたクラス分類の分類結果の例となる。

信頼度スコアは、例えば、最も確率の高いオブジェクトクラスのクラス確率とオブジェクトＢＢの信頼度の積とする。なお、オブジェクトＢＢの信頼度をそのまま信頼度スコアとして用いてもよいし、最も確率の高いオブジェクトクラスのクラス確率を信頼度スコアとして用いてもよい。

オブジェクト検出部１４０は、背景と判定されたグリッドセルのＯＢ及び各ＰＢを除去する。

オブジェクト検出部１４０は、背景以外のオブジェクトクラスと判定されたグリッドセルについて、判定されたオブジェクトクラスの種別毎に、より信頼度スコアが高いグリッドセルのＯＢとの重複度合いが高いＯＢを除去する。具体的に、一つのオブジェクトクラスについて、最も信頼度スコアの高いグリッドセルのＯＢと他のグリッドセルのＯＢとの重複度合いを算出し、算出した重複度合いが所定の閾値（例えば０．６）以上のＯＢを除去する。その後、除去されなかったＯＢの中で最も信頼度スコアの高いグリッドセルのＯＢと他のグリッドセルのＯＢとの重複度合いを算出して、重複度合いが高ければ除去するという処理を繰り返す。

このように、より信頼度スコアの高いＯＢとの重複度合いが高いＯＢを除去することにより、同じオブジェクトに対して複数のＯＢが検出された場合でも、一つのオブジェクトとして検出することができる。

重複度合いとして、例えば、ＩｏＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ）を用いることができる。ＩｏＵは、領域１と領域２が重複している場合に、領域１のうち領域２と共通していない部分の面積をＡ、領域２のうち領域１と共通していない部分の面積をＢ、領域１と領域２の共通部分の面積をＣとしたときに、ＩｏＵ＝Ｃ／（Ａ＋Ｂ＋Ｃ）として計算することができる。

オブジェクト検出部１４０は、ＯＢと同様に、ＰＢについてもより信頼度スコアの高いグリッドセルの第１ＰＢとの重複度合いの高い第１ＰＢを除去する。第２ＰＢ、……、第２ＮＰＢについても同様である。

図１０（ａ）は、背景と判定されたグリッドセルのＯＢ及び各ＰＢの除去、及び、より信頼度スコアの高いグリッドセルとの重複度合いの高いＯＢ及び各ＰＢの除去を行った後、残ったＯＢと第１ＰＢの例を示す。図１０（ａ）の例では、一つのＯＢ１００１に対して、４つの第１ＰＢからなる第１ＰＢ群１００２が除去されずに残っている。

オブジェクト検出部１４０は、ＯＢ１００１と、第１ＰＢ群１００２の中の一つの第１ＰＢとの対応付けを行う。オブジェクト検出部１４０は、具体的には、図１０（ｂ）に示すように、ＯＢ１００１に内接する楕円１００３を考え、第１ＰＢ群１００２の中から楕円１００３に最も近い位置に存在する第１ＰＢ１００４を、ＯＢ１００１に対応付ける。

同様に、第２ＰＢ、……、第２ＮＰＢそれぞれについても同様にＯＢ１００１との対応付けを行う。図１０（ｃ）は、ＯＢ１００１に対して、ＰＢ１００４～ＰＢ１０１３の計１０個のＰＢを対応付けた結果を示す。

なお、ＢＢと楕円の距離は、ＢＢの中心から楕円上の最も近い点までの距離とする。

オブジェクト検出部１４０は、除去されずに残ったＯＢの位置及びサイズ、当該ＯＢに対応付けられたＰＢの位置及びサイズ、及び、対応するグリッドセルのクラス分類結果をオブジェクト検出結果１２１として、記憶部１２０に保存する。

図１１は、ＯＢの位置及びサイズ、対応付けられたＰＢの位置及びサイズ、並びに、クラス分類結果からなるオブジェクト検出結果１２１を表示した例を示す。

図１２は、オブジェクト検出結果１２１における各ＰＢの中心を所定の順番で結ぶことにより、ＯＢの概形を表示した例を示す。各ＰＢの中心は、オブジェクトのキーポイントを示すので、各ＰＢの中心を結ぶ線分で囲まれる領域は、検出したオブジェクトの概形を示すことになる。定義するＰＢの数を多くすることで、表示するオブジェクトの概形の精度を高くすることが可能である。なお、各ＰＢを結ぶ順番は、ＯＢの中心からの偏角の順番に結ぶとしてもよい。

図１３は、ＯＢの位置及びサイズ、対応付けられたＰＢの位置及びサイズ、並びに、クラス分類結果からなるオブジェクト検出結果１２１と、入力画像とを重ねて表示した例を示す。図に示すように、オブジェクトの中で、他の部分よりも突出している点や他の部分よりも凹んでいる点がキーポイントとして検出されている。

１．４動作
図２は、オブジェクト検出装置１の動作を示すフローチャートである。

カメラ２００が撮影画像を取得し（ステップＳ１）、撮影画像をＣＮＮ１３０に入力し、ＣＮＮ１３０がＷ×Ｈ×（５×（１＋２Ｎ）＋Ｃ）次元のオブジェクト推定データを出力する（ステップＳ２）。

オブジェクト検出部１４０は、グリッドセルをクラス分類し、背景のグリッドセルのＯＢとＰＢを除去し（ステップＳ３）、また、より信頼度スコアの高いグリッドセルのＢＢ（ＯＢ及び各ＰＢ）と重なり度合いが高いＢＢ（ＯＢ及び各ＰＢ）を除去する（ステップＳ４）。

対応付け部４０は、残ったＯＢと各ＰＢとの対応付けを行い（ステップＳ５）、対応付けられたＯＢと各ＰＢをオブジェクト検出結果１２１として保存する（ステップＳ６）。

２．補足
以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。

（１）上述の実施の形態において、オブジェクトを立体的にモデル化したオブジェクトモデルにおいて、他の部分よりも突出している点や他の部分よりも凹んでいる点をキーポイントとして定義しているが、オブジェクトモデルは立体的である必要はなく、２次元のオブジェクトモデルでもよい。

（２）上述の実施の形態において、制御部１１０は、ＣＰＵ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムであるとしたが、各処理部の一部または全部は、システムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。

（３）上述の実施の形態及び変形例をそれぞれ組み合わせるとしてもよい。

本開示は、監視カメラシステムや車載カメラシステムに搭載されるオブジェクト検出装置として有用である。

１オブジェクト検出装置
１２０記憶部
１３０ＣＮＮ
１４０オブジェクト検出部
１５０ＡＩ学習部
２００カメラ

Claims

所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出方法であって、
前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定ステップと、
推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出ステップと、を有し、
前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、
前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、
前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることである
オブジェクト検出方法。
前記画像における各オブジェクトの中心位置の候補である中心候補とその尤もらしさ示す信頼度を推定する中心位置推定ステップを更に有し、
前記検出ステップは、前記信頼度を用いて前記中心候補から各オブジェクトの中心位置を検出し、決定した各中心位置を用いて前記点候補から各オブジェクトのキーポイントを検出する
請求項１に記載のオブジェクト検出方法。
前記キーポイント推定ステップは、各オブジェクトの大きさに応じたサイズの小領域として前記点候補を推定する
請求項１または２のいずれかに記載のオブジェクト検出方法。
前記キーポイント推定ステップが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行される
請求項１乃至３のいずれかに記載のオブジェクト検出方法。
前記キーポイント推定ステップと前記中心位置推定ステップとが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行される
請求項２に記載のオブジェクト検出方法。
前記学習モデルは、畳み込みニューラルネットワークであり、
前記畳み込みニューラルネットワークのパラメータは、検出対象のオブジェクトを含む学習用画像と、前記学習用画像における検出対象のオブジェクトの中心位置の真値と、前記学習用画像における検出対象のオブジェクトのキーポイントの真値と、に基づく機械学習により、定められる
請求項４または５に記載のオブジェクト検出方法。
所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出装置であって、
前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定処理を実行する、前記オブジェクトを検出するための機械学習を行った学習モデルと、
推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出部と、を備え、
前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、
前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、
前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることである
オブジェクト検出装置。
請求項１乃至６のいずれかに記載のオブジェクト検出方法をコンピューターに実行させるプログラム。