JP7453668B2

JP7453668B2 - 学習処理装置および学習処理方法、物体検出装置および物体検出方法、ならびに、プログラム

Info

Publication number: JP7453668B2
Application number: JP2020017962A
Authority: JP
Inventors: 澤代唯文; 中里正孝
Original assignee: 電制コムテック株式会社
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2024-03-21
Anticipated expiration: 2040-02-05
Also published as: JP2021124953A

Description

本発明は、学習処理装置および学習処理方法、物体検出装置および物体検出方法、ならびに、プログラムに関する。

従来、監視カメラ等の映像において、所定の物体を検出するために適した方法として、検出対象物体を含まない背景画像と、検出対象物体を含む可能性がある検出用画像を比較することによって得られる背景差分を用いることで画像中の変化領域のみを抽出する方法がある。

しかしながら、背景差分などを用いることで画像中の変化領域のみを抽出する方法では、一般に市販される監視カメラ等の映像においては、撮像箇所の照度条件などによって、センサから取得した値がフレーム毎に微妙に変化してしまったり、風などの影響でカメラ自体が揺れ動くことで、フレーム毎に微小な変化が発生することがあり、本当に必要な領域だけを限定して抽出するのは容易ではなかった。特に、屋外設置のカメラによる撮像において、例えば、山肌などが背景となった場合、撮像箇所の機構等の条件が撮像された画像に与える影響は大きく、条件によっては、物体検出精度に顕著な悪影響を与えてしまう場合があった。

そこで、入力画像と背景画像との差異の時間的な変化を捉えることにより、木の葉の揺らぎなどを判定する方法が提案されている（例えば、特許文献１）。

また、精度良く検出対象となる物体を検知し、外乱との区別を行う為には、判定する際のパラメータを適切に定める必要がある。そこで、カメラを設置したシーンに最適なパラメータを設定して、物体と外乱との区別の精度を上げる技術がある（例えば、特許文献２）。

また、機械学習に代表されるパターンマッチング技法は、背景差分に存在するセンサ値の揺らぎに対し頑健な検出が可能である。

特開２００６－１０７４５７号公報特開２０１２－８９９２９号公報

上述した特許文献１および特許文献２に記載の技術では、背景差分を得るために、物体検出のためにカメラを設置した位置において検出対象がない画像、すなわち背景画像を、時間や天候や日照等の条件ごとに、あらかじめすべて用意する必要がある。すなわち、数多くカメラを設置する場合などには、カメラ設置個所ごとに背景画像を得る必要があり、汎用性がない。

これに対して、上述したように、機械学習に代表されるパターンマッチング技法は、背景差分に存在するセンサ値の揺らぎに対し頑健な検出が可能である。しかしながら、監視カメラなどにより得られる画像は、設置環境によりその背景に映る物体等によって、色情報としての複雑さがそれぞれ異なるものとなる。このため、機械学習に代表されるパターンマッチングおよびそれに類する画像認識技術で物体を検出する場合、画像処理結果は、背景要素による影響を大きく受ける。したがって、機械学習に代表されるパターンマッチング技法を物体検出に用いる場合、背景情報の複雑さによる影響をなくすため、予め背景となる様々なパターンを学習させる必要がある。背景要素にかかわらず、高精度の検出結果を得るためには、具体的には、例えば、枝や鉄塔などに検出対象となる物体の一部が隠れてしまうような複雑なパターンに至るまで、多岐にわたる学習が求められ、学習自体に相当な時間とコストが必要となってしまう。

そこで、本発明は、前記課題を解決すること、すなわち、複雑な背景要素から高精度で検出対象となる物体を切り抜く画像処理を施し、複数パターンの機械学習モデルを得ること、および、その機械学習モデルを用いて高精度に物体を検出することができる、学習処理装置および学習処理方法、物体検出装置および物体検出方法、ならびに、プログラムを提供することを目的とする。

本発明の学習処理装置の一側面は、機械学習のための学習用画像を取得する学習用画像取得手段と、学習用画像取得手段により取得された学習用画像の、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成手段と、シグナル強度マップ生成手段により生成されたシグナル強度マップにおいて、検出対象物体があると推定される部分において、学習用画像取得手段から供給された学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、検出対象物体が抽出された二値化画像を作成し、それを学習用画像のマスクとして適用した画像を、標準偏差画像として生成する標準偏差画像生成手段と、学習用画像取得手段から供給された学習用画像に対し、標準偏差画像生成手段により生成された標準偏差画像において検出対象物体として抽出された部分以外のコントラストを下げる処理を施したコントラスト調整画像を生成するコントラスト調整画像生成手段と、学習用画像取得手段により取得された学習用画像を用いて機械学習を行い、第１の学習モデルを生成する第１の学習モデル生成処理手段と、標準偏差画像生成手段により生成された標準偏差画像を用いて機械学習を行い、第２の学習モデルを生成する第２の学習モデル生成処理手段と、コントラスト調整画像生成手段により生成されたコントラスト調整画像を用いて機械学習を行い、第３の学習モデルを生成する第３の学習モデル生成処理手段とを有する。

本発明の学習処理装置の他の側面は、シグナル強度マップ生成手段が、学習用画像取得手段から供給された学習用画像を所定の画素数を含む矩形のブロックに分割するブロック分割処理手段と、学習用画像の前フレームと現フレームのそれぞれのブロックに含まれる画素の類似度を算出することにより、ブロックに含まれる各画素が変化しているか否かを判定する類似度算出手段と、類似度算出手段によるブロックに含まれる各画素の変化の有無の判定結果に基づいて、ブロックのそれぞれに含まれる変化有の画素数を算出し、ブロック内の変化画素の割合を算出する変化画素割合算出手段と、変化画素割合算出手段により算出されたブロックの変化画素の割合を、第１の閾値と比較し、その比較結果に基づいて、二値化を実行する二値化処理手段と、二値化処理手段による二値化結果に基づいて、変化有と判定されたブロックを含む所定の大きさの矩形を切り出してシグナル強度マップを生成するシグナル強度マップ矩形生成処理手段とを有する。

本発明の学習処理装置の他の側面は、類似度算出手段が、RGB色空間、および、HSV色空間の要素を用いて類似度を算出することを特徴とする。

本発明の学習処理装置の他の側面は、類似度算出手段が、色相Hを除いたRGBSVの５チャンネルの要素を用い、ブロック領域内の画素ごとの５チャンネル合成ベクトルを用いて、現フレームと前フレームの２つの５チャンネルの合成ベクトルの正規化相関値を算出し、正規化相関値と、５チャンネル合成ベクトルの長さ率を乗算することにより類似度を算出することを特徴とする。

本発明の学習処理装置の他の側面は、二値化処理手段による二値化演算結果において変化有と判定されたブロックの領域を拡張するブロック拡張処理手段をさらに有し、シグナル強度マップ矩形生成処理手段は、ブロック拡張処理手段により領域が拡張されたブロックに基づいて、変化有と判定されたブロックを含む所定の大きさの矩形を切り出してシグナル強度マップを生成することを特徴とする。

本発明の学習処理方法の一側面は、機械学習のための学習用画像を取得する学習用画像取得ステップと、学習用画像取得ステップの処理により取得された学習用画像の、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、シグナル強度マップ生成ステップの処理により生成されたシグナル強度マップにおいて、検出対象物体があると推定される部分において、学習用画像取得ステップの処理により取得された学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、検出対象物体が抽出された二値化画像を作成し、それを学習用画像のマスクとして適用した画像を、標準偏差画像として生成する標準偏差画像生成ステップと、学習用画像取得ステップの処理により取得された学習用画像に対し、標準偏差画像生成ステップの処理により生成された標準偏差画像において検出対象物体として抽出された部分以外のコントラストを下げる処理を施したコントラスト調整画像を生成するコントラスト調整画像生成ステップと、学習用画像取得ステップの処理により取得された学習用画像を用いて機械学習を行い、第１の学習モデルを生成する第１の学習モデル生成処理ステップと、標準偏差画像生成ステップの処理により生成された標準偏差画像を用いて機械学習を行い、第２の学習モデルを生成する第２の学習モデル生成処理ステップと、コントラスト調整画像生成ステップの処理により生成されたコントラスト調整画像を用いて機械学習を行い、第３の学習モデルを生成する第３の学習モデル生成処理ステップとを含むことを特徴とする。

本発明のプログラムの一側面は、機械学習のための学習用画像を取得する学習用画像取得ステップと、学習用画像取得ステップの処理により取得された学習用画像の、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、シグナル強度マップ生成ステップの処理により生成されたシグナル強度マップにおいて、検出対象物体があると推定される部分において、学習用画像取得ステップの処理により取得された学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、検出対象物体が抽出された二値化画像を作成し、それを学習用画像のマスクとして適用した画像を、標準偏差画像として生成する標準偏差画像生成ステップと、学習用画像取得ステップの処理により取得された学習用画像に対し、標準偏差画像生成ステップの処理により生成された標準偏差画像において検出対象物体として抽出された部分以外のコントラストを下げる処理を施したコントラスト調整画像を生成するコントラスト調整画像生成ステップと、学習用画像取得ステップの処理により取得された学習用画像を用いて機械学習を行い、第１の学習モデルを生成する第１の学習モデル生成処理ステップと、標準偏差画像生成ステップの処理により生成された標準偏差画像を用いて機械学習を行い、第２の学習モデルを生成する第２の学習モデル生成処理ステップと、コントラスト調整画像生成ステップの処理により生成されたコントラスト調整画像を用いて機械学習を行い、第３の学習モデルを生成する第３の学習モデル生成処理ステップとを含む処理をコンピュータに実行させる。

本発明の物体検出装置の一側面は、検出対象物体を検出するための検出用画像を取得する検出用画像取得手段と、検出用画像取得手段により取得された検出用画像のうち、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成手段と、シグナル強度マップ生成手段により生成されたシグナル強度マップにおいて、検出対象物体があると推定される部分において、検出用画像取得手段から供給された検出用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、検出対象物体が抽出された二値化画像を作成し、それを検出用画像のマスクとして適用した画像を、第２の標準偏差画像として生成する標準偏差画像生成手段と、検出用画像取得手段から供給された検出用画像に対し、標準偏差画像生成手段により生成された第２の標準偏差画像において検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第２のコントラスト調整画像を生成するコントラスト調整画像生成手段と、第１の学習モデルを用いて、検出用画像取得手段により取得された検出用画像に、検出対象物体があるか否かの確率を判定する第１の物体検出判定手段と、第２の学習モデルを用いて、標準偏差画像生成手段により生成された第２の標準偏差画像に、検出対象物体があるか否かの確率を判定する第２の物体検出判定手段と、第３の学習モデルを用いて、コントラスト調整画像生成手段により生成された第２のコントラスト調整画像に、検出対象物体があるか否かの確率を判定する第３の物体検出判定手段と、標準偏差画像生成手段により生成された第２の標準偏差画像における検出対象物体の画素と、検出用画像取得手段から供給された検出用画像の背景部分の各画素の類似度を算出する背景類似度算出手段と、背景類似度算出手段により算出された類似度に基づいて、第１の物体検出判定手段、第２の物体検出判定手段、および、第３の物体検出判定手段による判定結果の重み付けを設定する重み付け設定手段と、重み付け設定手段による設定に従って、第１の物体検出判定手段、第２の物体検出判定手段、および、第３の物体検出判定手段におけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、検出用画像取得手段により取得された検出用画像に、検出対象物体があるか否かを判定する物体検出判定手段とを有する。

本発明の物体検出装置の他の側面は、背景類似度算出手段は、RGB色空間、および、HSV色空間の要素を用いて類似度を算出することを特徴とする。

本発明の物体検出装置の他の側面は、背景類似度算出手段は、色相Hを除いたRGBSVの５チャンネルの要素を用い、ブロック領域内の画素ごとの５チャンネル合成ベクトルを用いて、現フレームと前フレームの２つの５チャンネルの合成ベクトルの正規化相関値を算出し、正規化相関値と、５チャンネル合成ベクトルの長さ率を乗算することにより類似度を算出することを特徴とする。

本発明の物体検出装置の他の側面は、重み付け設定手段は、背景類似度算出手段により算出された類似度の値が高い場合、第２の物体検出判定手段の判定結果の重みを最も大きい値に設定し、類似度の値が低い場合、第１の物体検出判定手段、第２の物体検出判定手段、および、第３の物体検出判定手段の判定結果の重みを均等な値に設定し、類似度の値がそれらの中間値である場合、第２の物体検出判定手段および第３の物体検出判定手段の判定結果の重みを第１の物体検出判定手段の判定結果の重みよりも大きい値に設定することを特徴とする。

本発明の物体検出方法の一側面は、検出対象物体を検出するための検出用画像を取得する検出用画像取得ステップと、検出用画像取得ステップの処理により取得された検出用画像のうち、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、シグナル強度マップ生成ステップの処理により生成されたシグナル強度マップにおいて、検出対象物体があると推定される部分において、検出用画像取得ステップの処理により取得された検出用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、検出対象物体が抽出された二値化画像を作成し、それを検出用画像のマスクとして適用した画像を、第２の標準偏差画像として生成する標準偏差画像生成ステップと、検出用画像取得ステップの処理により取得された検出用画像に対し、標準偏差画像生成ステップの処理により生成された第２の標準偏差画像において検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第２のコントラスト調整画像を生成するコントラスト調整画像生成ステップと、第１の学習モデルを用いて、検出用画像取得ステップの処理により取得された検出用画像に、検出対象物体があるか否かの確率を判定する第１の物体検出判定ステップと、第２の学習モデルを用いて、標準偏差画像生成ステップの処理により生成された第２の標準偏差画像に、検出対象物体があるか否かの確率を判定する第２の物体検出判定ステップと、第３の学習モデルを用いて、コントラスト調整画像生成ステップの処理により生成された第２のコントラスト調整画像に、検出対象物体があるか否かの確率を判定する第３の物体検出判定ステップと、標準偏差画像生成ステップの処理により生成された第２の標準偏差画像における検出対象物体の画素と、検出用画像取得ステップの処理により取得された検出用画像の背景部分の各画素の類似度を算出する背景類似度算出ステップと、背景類似度算出ステップの処理により算出された類似度に基づいて、第１の物体検出判定ステップ、第２の物体検出判定ステップ、および、第３の物体検出判定ステップによる判定結果の重み付けを設定する重み付け設定ステップと、重み付け設定ステップの処理による設定に従って、第１の物体検出判定ステップ、第２の物体検出判定ステップ、および、第３の物体検出判定ステップにおけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、検出用画像取得ステップにより取得された検出用画像に、検出対象物体があるか否かを判定する物体検出判定ステップとを含むことを特徴とする。

本発明のプログラムの一側面は、検出対象物体を検出するための検出用画像を取得する検出用画像取得ステップと、検出用画像取得ステップの処理により取得された検出用画像のうち、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、シグナル強度マップ生成ステップの処理により生成されたシグナル強度マップにおいて、検出対象物体があると推定される部分において、検出用画像取得ステップの処理により取得された検出用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、検出対象物体が抽出された二値化画像を作成し、それを検出用画像のマスクとして適用した画像を、第２の標準偏差画像として生成する標準偏差画像生成ステップと、検出用画像取得ステップの処理により取得された検出用画像に対し、標準偏差画像生成ステップの処理により生成された第２の標準偏差画像において検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第２のコントラスト調整画像を生成するコントラスト調整画像生成ステップと、第１の学習モデルを用いて、検出用画像取得ステップの処理により取得された検出用画像に、検出対象物体があるか否かの確率を判定する第１の物体検出判定ステップと、第２の学習モデルを用いて、標準偏差画像生成ステップの処理により生成された第２の標準偏差画像に、検出対象物体があるか否かの確率を判定する第２の物体検出判定ステップと、第３の学習モデルを用いて、コントラスト調整画像生成ステップの処理により生成された第２のコントラスト調整画像に、検出対象物体があるか否かの確率を判定する第３の物体検出判定ステップと、標準偏差画像生成ステップの処理により生成された第２の標準偏差画像における検出対象物体の画素と、検出用画像取得ステップの処理により取得された検出用画像の背景部分の各画素の類似度を算出する背景類似度算出ステップと、背景類似度算出ステップの処理により算出された類似度に基づいて、第１の物体検出判定ステップ、第２の物体検出判定ステップ、および、第３の物体検出判定ステップによる判定結果の重み付けを設定する重み付け設定ステップと、重み付け設定ステップの処理による設定に従って、第１の物体検出判定ステップ、第２の物体検出判定ステップ、および、第３の物体検出判定ステップにおけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、検出用画像取得ステップにより取得された検出用画像に、検出対象物体があるか否かを判定する物体検出判定ステップとを含む処理をコンピュータに実行させる。

本発明によれば、複雑な背景要素から高精度で物体を切り抜く画像処理を施し、複数パターンの機械学習モデルを得ること、および、その機械学習モデルを用いて高精度に物体を検出することができる。

学習処理装置１の機能構成を示す機能ブロック図である。シグナル強度マップ生成部１２の機能構成を示す機能ブロック図である。学習処理装置１の処理について説明するための図である。学習処理装置１の処理について説明するための図である。学習処理装置１の処理について説明するための図である。学習処理装置１の処理について説明するための図である。学習処理について説明するためのフローチャートである。シグナル強度マップ生成処理について説明するためのフローチャートである。物体検出装置５０の機能構成を示す機能ブロック図である。背景領域類似度算出部５６の機能構成を示す機能ブロック図である。背景領域類似度算出部５６の処理について説明するための図である。背景領域類似度算出部５６の処理について説明するための図である。背景領域類似度算出部５６の処理について説明するための図である。ヒートマップ生成部５９の処理について説明するための図である。物体検出処理について説明するためのフローチャートである。物体検出処理について説明するためのフローチャートである。背景領域類似度算出処理について説明するためのフローチャートである。

以下、本発明の一実施の形態の学習処理装置および学習処理方法、物体検出装置および物体検出方法、ならびに、プログラムについて、図１～図１７を参照しながら説明する。

図１は、本発明の一実施例である学習処理装置１の機能構成を示す機能ブロック図である。

学習処理装置１は、検出するべき所定の物体を検出するための学習モデルを得るために、学習用画像を取得し、取得された画像、所定の処理を施した画像、その画像に対して更に所定の処理を施した画像の３種類において機械学習を行い、３種類の学習モデルを生成するものである。学習処理装置１は、学習用画像取得部１１、シグナル強度マップ生成部１２、標準偏差画像生成部１３、コントラスト調整画像生成部１４、第１の学習モデル生成処理部１５、第２の学習モデル生成処理部１６、第３の学習モデル生成処理部１７、学習モデル取得部１８、学習モデル出力部１９、および、学習モデル記憶部２０の各機能を含んで構成されている。

学習用画像取得部１１は、機械学習のための学習用画像を取得し、シグナル強度マップ生成部１２、標準偏差画像生成部１３、および、第１の学習モデル生成処理部１５に供給する。機械学習のための学習用画像は時間的に連続する複数のフレーム画像で構成されている。例えば、山間にある変電所等で、背景に山肌や鉄塔など複雑構造物が写りこむような環境に飛来するカラスを検出する場合、構造物に重なるような複雑背景のカラスや、空を背景とするシンプルな構図のカラスなど、様々な背景状況のカラス画像が、学習用画像として取得される。

シグナル強度マップ生成部１２は、学習用画像取得部１１から取得した学習用画像のうち、前フレームと現フレームとの変化割合が高い部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成する処理を実行する。すなわち、シグナル強度マップ生成部１２は、学習用画像取得部１１から取得した学習用画像を所定サイズの矩形のブロックに分割し、各ブロック内における前フレームとの変化画素の数に基づいてブロックにおける画素の変化確率を算出する。そして、シグナル強度マップ生成部１２は、算出された変化確率を所定の閾値を用いて二値化することにより、変化強度の高いブロックを抽出し、変化強度の高いブロックを含む所定の大きさの矩形二値化画像を生成して、標準偏差画像生成部１３に供給する。

図２は、シグナル強度マップ生成部１２が有する機能構成を示す機能ブロック図である。シグナル強度マップ生成部１２は、ブロック分割処理部３１、類似度算出部３２、変化画素割合算出部３３、二値化処理部３４、第１の閾値設定部３５、ブロック拡張処理部３６、ブロック拡張設定部３７、および、シグナル強度マップ矩形生成処理部３８の各機能を含んで構成されている。

ブロック分割処理部３１は、学習用画像取得部１１から供給された学習用画像を所定の画素数を含む矩形のブロックに分割する。ブロックのサイズは任意だが、画像中で検出したい物体の最小サイズ程度が望ましい。例えば、学習用画像が1280×720ピクセルのHD画像の場合、映る物体の最小サイズが40×40であれば、40×18ブロックに区切られる。ブロック分割処理部３１は、ブロックに分割した学習用画像を、類似度算出部３２に供給する。

類似度算出部３２は、ブロック分割処理部３１から供給された学習用画像において、各ブロックに含まれる画素が、前フレームと現フレームとで変化しているか否かを判定する。それぞれの画素における変化の有無の判定は、前フレームとの類似度に基づいて判定する。類似度は、例えば、RGBおよびHSVの２種類の色空間を用いて、RGBSVの計５チャンネルの値が、合成ベクトルとして用いられて演算される。

移動物体を検出する場合、移動物体を含む２つのフレーム間において、移動物体による変化があった複数の画素に、領域として隣り合ってはいるが画素同士の相関がないという特徴がある。そこで、類似度算出部３２は、画素毎に異なるRGB色空間、HSV色空間に対する反応の敏感さに対応するために、２種類の色空間の要素を用いて類似度を算出する。これにより、類似度算出部３２は、連続領域に対する変化を高精度に捉えることができる。また、類似度算出部３２は、見た目上ではわからないようなRGBの微小な変化が色相の値に大きく影響してしまうとともに、色相環である以上、最小値と最大値が隣り合う関係となり、値の振れ幅が大きすぎるため、色相を除いて判定のための演算を行う。

類似度算出部３２は、前フレームと現フレームとの類似度を、各ブロック領域内の画素ごとの５チャンネル合成ベクトルを用いて、現フレームと前フレームの２つの５チャンネル合成ベクトルの正規化相関値を算出し、求められた正規化相関値と５チャンネル合成ベクトルの長さ率を乗算することで求める。

まず、正規化相関値は、例えば、２つのベクトルをそれぞれ式（１）とすると、内積をノルムの乗算で除算する式（２）で求められる。

式（２）で求められる値は正規化されているため０～１の範囲であり、２つのベクトルが類似しているほど、その値は１に近づく。しかしながら、この値は、ベクトル同士のなす角の類似度を表しており、ベクトルのノルムに相違があった場合でも角度に差が無ければ、その値は１に近づき、類似とみなされてしまう。そのため、類似度算出部３２は、２つのベクトルのうち、ノルムの大きいほうを基準にベクトル同士の長さ率を算出し、その値を正規化相関値に乗算する式（３）を用いることにより、ノルムの差異を考慮した類似度を求める。

類似度＝正規化相関値×ベクトルの長さ率・・・（３）
ただし、ベクトルの長さ率＝短ベクトルのノルム／長ベクトルのノルム

類似度算出の具体的な例について、図３を用いて説明する。前フレームのある位置の画素のRGBSV合成ベクトルが|143, 130, 105, 66, 143|であり、現フレームの同一の画素のRGBSV合成ベクトルが| 43, 55, 88, 122, 21|であるとき、正規化相関値は０．７４と算出され、ベクトルの長さ率は０．６２と算出される。したがって、類似度は、正規化相関値０．７４とベクトルの長さ率０．６２とを乗算することにより、０．４６と算出される。

類似度算出部３２は、上述した式（３）で求められた各画素の類似度の値を所定の閾値と比較することにより、各ブロックに含まれる画素が、前フレームと現フレームとで変化しているか否かを判定する。例えば、類似度算出部３２は、算出された類似度の値が０．５未満の画素を変化ありの画素と判定することができる。類似度算出部３２は、各ブロックに含まれるそれぞれの画素の変化の有無の判定結果を変化画素割合算出部３３に供給する。

変化画素割合算出部３３は、類似度算出部３２から供給された、各ブロックに含まれるそれぞれの画素の変化の有無の判定結果に基づいて、各ブロックの変化有の画素数を算出し、ブロック内の変化画素の割合を算出し、二値化処理部３４に供給する。

二値化処理部３４は、変化画素割合算出部３３から供給された、各ブロックの変化画素の割合を、第１の閾値設定部３５により設定された第１の閾値と比較し、その比較結果に基づいて、二値化を実行する。二値化まで終了したブロックの画像は、移動物体が現れた部分と去った部分の両方に強い強度を示すマップとなる。使用目的によるが、例えば、移動物体のみを検出したい場合、二値化処理部３４は、一つ前のフレームの二値化結果と現フレームの二値化結果の排他的論理和、または、一つ前のフレームをマスク画像とした処理を施した結果得られる二値化演算結果をブロック拡張処理部３６に供給すると好適である。

第１の閾値設定部３５は、二値化処理部３４による二値化の閾値である第１の閾値を設定する。第１の閾値は全ブロックに対し一意に定められる値とするが、ブロックサイズの半分程度を基準に、画像状況や検出対象とする物体に合わせ微調整すると好適である。

図４を用いて、変化画素割合の算出と二値化処理について説明する。図４においては、説明を簡略化するために、学習用画像を６×６の３６ブロックに分割し、１ブロックが６×６の３６画素を含んでいるものとして説明する。

変化画素割合算出部３３は、類似度算出部３２から、分割された各ブロックに含まれるそれぞれの画素の変化の有無の判定結果の供給を受ける。ここでは、あるブロックに２画素の変化有画像が含まれていたものとする。変化画素割合算出部３３は、変化有の画素の数を、ブロックに含まれる画素数で割ることにより、変化画素の割合を算出する。図４に示される場合、変化画素割合算出部３３は、２／３６≒０．０５６となることから、変化割合は約６％と算出することができる。変化画素割合算出部３３は、すべてのブロックにおける変化割合を算出し、二値化処理部３４に供給する。二値化処理部３４は、変化画素割合算出部３３から供給された、各ブロックの変化画素の割合を、第１の閾値設定部３５により設定された所定の閾値と比較し、その比較結果に基づいて、二値化を実行し、変化有の部分、すなわち、検出対象物体があると推定されるブロックと、変化なしの部分、すなわち、検出対象物体がないと推定されるブロックとを切り分ける処理を実行する。図４においては、変化割合３０％を閾値として二値化されるものとする。二値化処理部３４は、移動物体のみを検出したい場合、一つ前のフレームの二値化結果と現フレームの二値化結果の排他的論理和、または、一つ前のフレームをマスク画像とした処理を施した結果得られる二値化演算結果を、ブロック拡張処理部３６に供給する。

図２に戻り、ブロック拡張処理部３６は、二値化処理部３４から供給された二値化演算結果において変化有と判定されるそれぞれのブロックの領域に対して、ブロック拡張設定部３７の設定に基づいて、必要に応じて、対応するブロックの領域を拡張する処理を実行し、シグナル強度マップ矩形生成処理部３８に供給する。

ブロック拡張設定部３７は、ブロック拡張処理部３６におけるブロックの領域の拡張の設定を行う。二値化処理部３４により得られる二値化結果は、対応するブロックにおける移動物体による変化画素の割合が所定の閾値以上のブロックを変化有のブロックであると検出するものであるため、物体形状によっては、それぞれのブロックの領域に物体を包括できないケースが発生する場合がある。そのため、ブロック拡張設定部３７は、包括が必要な場合において、物体の検出有と判定されたブロックの領域を周囲１～数ブロック分拡張して扱うように、ブロック拡張処理部３６におけるブロック領域の拡張を設定する。

シグナル強度マップ矩形生成処理部３８は、ブロック拡張処理部３６から供給された、必要に応じてブロック領域が拡張された二値化結果に基づいて、変化有と判定されたブロックを含む所定の大きさの矩形を切り出してシグナル強度マップとし、標準偏差画像生成部１３に供給する。シグナル強度マップの矩形の大きさは、検出対象となる物体の全体が矩形内に十分入る頻度が高くなる大きさとすると好適である。

図１に戻り、標準偏差画像生成部１３は、シグナル強度マップ生成部１２のシグナル強度マップ矩形生成処理部３８から供給されたシグナル強度マップと、学習用画像取得部１１から供給された学習用の元画像を基に、標準偏差画像を生成し、第２の学習モデル生成処理部１６、および、コントラスト調整画像生成部１４に供給する。

図５を用いて、標準偏差画像について説明する。シグナル強度マップ生成部１２において、変化割合の閾値を例えば３０％として変化有と判定されたブロックを含む所定の大きさの矩形を切り出してシグナル強度マップが生成され、標準偏差画像生成部１３に供給される。図５に示されるように、シグナル強度マップ生成部１２で得られた変化確率の形状は矩形であり、それだけでは検出対象となる物体と背景要素を切り分けることにならない。そこで、標準偏差画像生成部１３は、シグナル強度の高い、すなわち、検出物体有と検出されたブロックに限り、学習用画像取得部１１から供給された学習用の元画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみが白色となるような二値化画像を作成し、それを未処理の元画像のマスクとして適用した画像を、標準偏差画像として生成し、コントラスト調整画像生成部１４および第２の学習モデル生成処理部１６に供給する。

二値化における閾値は、一意の値であっても、前フレームのみから算出した標準偏差に一定値を加算した値でも良い。標準偏差画像生成部１３により生成される標準偏差画像は、物体の輪郭が明瞭に抽出されたものとなる。また、物体が不動物（物体を隠す障害物）の裏を移動した場合などでは、標準偏差画像生成部１３により生成される標準偏差画像は、検出するべき物体の形状から不動物の領域を除外したものとなる。また、標準偏差画像生成部１３により生成される標準偏差画像が物体の輪郭を明瞭に抽出できなかった場合、その画像には、物体の全景を表さない歪な形状として描画されてしまう特性がある。

コントラスト調整画像生成部１４は、標準偏差画像生成部１３から供給された標準偏差画像と、学習用画像取得部１１から供給された学習用の元画像を基に、コントラスト調整画像を生成し、第３の学習モデル生成処理部１７に供給する。標準偏差画像生成部１３において生成された標準偏差画像は、シグナル強度マップ生成部１２において物体が抽出されたブロックにおける２値化画像であるため、不動物の影になり除外された領域があった場合や物体輪郭を明瞭に抽出できなかった場合などには、物体の全景を明瞭に抽出しきれない可能性がある。そこで、コントラスト調整画像生成部１４は、学習用画像取得部１１から供給された学習用の未処理の元画像に対し、標準偏差画像において検出対象となる物体として抽出された部分以外の彩度をゼロ付近に、明度を最大付近となるよう調整、すなわち、結果として標準偏差画像において検出対象となる物体として抽出された部分以外のコントラストを下げる処理を施す。この処理により、コントラスト調整画像生成部１４は、検出対象となる物体の情報量を維持しつつ、背景にあたる部分の情報量を落としたコントラスト調整画像を生成することができる。

例えば、図６に示されるように、標準偏差画像では不動物により分断または欠損されたように抽出されてしまった部分においても、コントラスト調整画像生成部１４の処理により、適度に情報を保持しながら検出対象となる物体の全景を維持したコントラスト調整画像を生成することができる。また、検出対象物体を明瞭に抽出しきれず、標準偏差画像において抽出された物体が歪な形状となった場合においても、同様に、抽出された部分以外のコントラストを下げる処理により、適度に情報を保持しながら検出対象となる物体の全景を維持したコントラスト調整画像を生成することができる。

第１の学習モデル生成処理部１５は、学習用画像取得部１１から供給された学習用の未処理の元画像を用いて機械学習を行い、学習結果得られた第１の学習モデルを学習モデル取得部１８に供給する。第１の学習モデル生成処理部１５により実行される機械学習は、例えば、検出対象物体を含む画像と、その画像内の検出対象物体の位置データを数千～数万セット用意し、数十万回という膨大な回数の学習を行うことにより学習モデルを生成する、一般的な機械学習処理であるので、その詳細な説明は省略する。

第２の学習モデル生成処理部１６は、標準偏差画像生成部１３から供給された標準偏差画像を用いて機械学習を行い、学習結果得られた第２の学習モデルを学習モデル取得部１８に供給する。第２の学習モデル生成処理部１６により実行される機械学習は、一般的な機械学習処理であるので、その詳細な説明は省略する。

第３の学習モデル生成処理部１７は、コントラスト調整画像生成部１４から供給されたコントラスト調整画像を用いて機械学習を行い、学習結果得られた第３の学習モデルを学習モデル取得部１８に供給する。第３の学習モデル生成処理部１７により実行される機械学習は、一般的な機械学習処理であるので、その詳細な説明は省略する。

学習モデル取得部１８は、第１の学習モデル生成処理部１５から供給された第１の学習モデル、第２の学習モデル生成処理部１６から供給された第２の学習モデル、および、第３の学習モデル生成処理部１７から供給された第３の学習モデルを取得し、学習モデル出力部１９および学習モデル記憶部２０に供給する。

学習モデル出力部１９は、所定のネットワークに接続された外部インターフェースや、外部記録媒体に情報を記録する記録装置等の情報出力機能を有するデバイスで構成され、学習モデル取得部１８から供給された第１の学習モデル、第２の学習モデル、および、第３の学習モデルを外部に出力する。

学習モデル記憶部２０は、学習モデル取得部１８から供給された第１の学習モデル、第２の学習モデル、および、第３の学習モデルを記憶する。

このように、学習処理装置１においては、複雑な背景要素から高精度で物体を切り抜く画像処理を施し、複数パターンの機械学習モデルを得ることができる。

次に、図７のフローチャートを参照して、学習処理装置１が実行する学習処理について説明する。

ステップＳ１において、学習用画像取得部１１は、機械学習のための学習用画像を取得し、シグナル強度マップ生成部１２、標準偏差画像生成部１３、および、第１の学習モデル生成処理部１５に供給する。機械学習のための学習用画像は時間的に連続する複数のフレーム画像で構成されている。

ステップＳ２において、図８を用いて後述するシグナル強度マップ生成処理が実行される。

ステップＳ３において、標準偏差画像生成部１３は、シグナル強度マップ生成部１２のシグナル強度マップ矩形生成処理部３８から供給されたシグナル強度マップと、学習用画像取得部１１から供給された学習用の元画像を基に、標準偏差画像を生成し、コントラスト調整画像生成部１４および第２の学習モデル生成処理部１６に供給する。具体的には、標準偏差画像生成部１３は、シグナル強度マップにおいて、シグナル強度の高い、すなわち、物体有と検出されたブロックに限り、学習用画像取得部１１から供給された学習用の元画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみが白色となるような二値化画像を作成し、それを未処理の元画像のマスクとして適用した画像を、標準偏差画像として生成し、コントラスト調整画像生成部１４および第２の学習モデル生成処理部１６に供給する。

ステップＳ４において、コントラスト調整画像生成部１４は、標準偏差画像生成部１３から供給された標準偏差画像と、学習用画像取得部１１から供給された学習用の元画像を基に、コントラスト調整画像を生成し、第３の学習モデル生成処理部１７に供給する。具体的には、コントラスト調整画像生成部１４は、学習用画像取得部１１から供給された学習用の未処理の元画像に対し、標準偏差画像において検出対象となる物体として抽出された部分以外の彩度をゼロ付近に、明度を最大付近となるよう調整し、結果として検出対象となる物体として抽出された部分以外のコントラストを下げる処理を施す。

ステップＳ５において、第１の学習モデル生成処理部１５、第２の学習モデル生成処理部１６、および、第３の学習モデル生成処理部１７は、学習に十分な画像を得ることができたか否かを判断する。ステップＳ５において、学習に十分な画像を得ることができていないと判断された場合、処理は、ステップＳ１に戻り、それ以降の処理が繰り返される。

ステップＳ５において、学習に十分な画像を得ることができたと判断された場合、ステップＳ６において、第１の学習モデル生成処理部１５は、学習用画像取得部１１から供給された学習用の未処理の元画像を用いて機械学習を行い、学習結果得られた第１の学習モデルを学習モデル取得部１８に供給する。

ステップＳ７において、第２の学習モデル生成処理部１６は、標準偏差画像生成部１３から供給された標準偏差画像を用いて機械学習を行い、学習結果得られた第２の学習モデルを学習モデル取得部１８に供給する。

ステップＳ８において、第３の学習モデル生成処理部１７は、コントラスト調整画像生成部１４から供給されたコントラスト調整画像を用いて機械学習を行い、学習結果得られた第３の学習モデルを学習モデル取得部１８に供給する。

ステップＳ９において、学習モデル取得部１８は、第１の学習モデル生成処理部１５から供給された第１の学習モデル、第２の学習モデル生成処理部１６から供給された第２の学習モデル、および、第３の学習モデル生成処理部１７から供給された第３の学習モデルを取得し、学習モデル出力部１９および学習モデル記憶部２０に供給する。学習モデル出力部１９は、学習モデル取得部１８から供給された第１の学習モデル、第２の学習モデル、および、第３の学習モデルを外部に出力し、学習モデル記憶部２０は、学習モデル取得部１８から供給された第１の学習モデル、第２の学習モデル、および、第３の学習モデルを記憶して、処理が終了される。

このような処理により、複雑な背景要素から高精度で物体を切り抜く画像処理を施すことができ、複数パターンの機械学習モデルを得ることができる。

次に、図８のフローチャートを参照して、図７のステップＳ２で実行されるシグナル強度マップ生成処理について説明する。

ステップＳ２１において、ブロック分割処理部３１は、学習用画像取得部１１から供給された学習用画像を所定の画素数を含む矩形のブロックに分割し、類似度算出部３２に供給する。

ステップＳ２２において、類似度算出部３２は、ブロック分割処理部３１から供給された学習用画像において、各ブロックに含まれる画素ごとの類似度を算出して、各ブロックに含まれるそれぞれの画素の変化の有無の判定結果を変化画素割合算出部３３に供給する。具体的には、類似度算出部３２は、例えば、RGBおよびHSVの２種類の色空間を用いて、RGBSVの計５チャンネルの値を合成ベクトルとして使用し、正規化相関値とベクトル同士の長さ率を算出し、それらを乗算することにより、類似度を算出し、その類似度を所定の閾値と比較することにより、各ブロックに含まれるそれぞれの画素の変化の有無を判定する。

ステップＳ２３において、変化画素割合算出部３３は、類似度算出部３２から供給された、各ブロックに含まれるそれぞれの画素の変化の有無の判定結果に基づいて、各ブロックの変化有の画素数を算出し、ブロック内の変化画素の割合を算出し、二値化処理部３４に供給する。

ステップＳ２４において、二値化処理部３４は、変化画素割合算出部３３から供給された、各ブロックの変化画素の割合を、第１の閾値設定部３５により設定された第１の閾値と比較し、その比較結果に基づいて、二値化を実行する。例えば、移動物体のみを検出したい場合、二値化処理部３４は、一つ前のフレームの二値化結果と現フレームの二値化結果の排他的論理和、または、一つ前のフレームをマスク画像とした処理を施した結果得られる二値化演算結果をブロック拡張処理部３６に供給する。

ステップＳ２５において、ブロック拡張処理部３６は、二値化処理部３４から供給された二値化演算結果において変化有と判定されるそれぞれのブロックの領域に対して、ブロック拡張設定部３７の設定に基づいて、必要に応じて拡張する処理を実行し、シグナル強度マップ矩形生成処理部３８に供給する。

ステップＳ２６において、シグナル強度マップ矩形生成処理部３８は、ブロック拡張処理部３６から供給された、必要に応じてブロック領域が拡張された二値化結果に基づいて、変化有と判定されたブロックを含む所定の大きさの矩形を切り出してシグナル強度マップとし、標準偏差画像生成部１３に供給して、処理は、図７のステップＳ３に戻る。

このような処理により、検出対象となる物体が存在すると考えられる位置がブロックで表されて、変化有と判定されたブロックを含む所定の大きさの矩形が切り出されて、検出物体があると考えられるブロックの強度を示したシグナル強度マップが生成される。これにより、標準偏差画像が生成され、更に、標準偏差画像を用いてコントラスト調整画像が生成されるので、機械学習により、３つの学習モデルを生成することが可能となる。

次に、図９は、本発明の一実施例である物体検出装置５０の機能構成を示す機能ブロック図である。物体検出装置５０は、上述した処理を用いて生成された第１の学習モデル、第２の学習モデル、および、第３の学習モデルを用いて、取得された画像から検出対象となる物体を検出する処理を実行する。

なお、図９においては、図１における場合と同様の機能を有する部分については、同一の記号を付している。図９の物体検出装置５０は、図１を用いて説明したシグナル強度マップ生成部１２、標準偏差画像生成部１３、および、コントラスト調整画像生成部１４の機能を有するとともに、検出用画像取得部５１、学習モデル記憶部５２、第１の物体検出判定部５３、第２の物体検出判定部５４、第３の物体検出判定部５５、背景領域類似度算出部５６、重み付け設定部５７、物体検出判定部５８、ヒートマップ生成部５９、および、出力処理部６０を含んで構成されている。

なお、図１の学習処理装置１と図９の物体検出装置５０とは、１つの装置として構成してもよい。

検出用画像取得部５１は、図示しないITV(industrial television)などの監視カメラにより得られる検出用画像を取得し、シグナル強度マップ生成部１２、標準偏差画像生成部１３、コントラスト調整画像生成部１４、第１の物体検出判定部５３、および、背景領域類似度算出部５６に供給する。

シグナル強度マップ生成部１２は、検出用画像取得部５１から供給された学習用画像を用いて、上述した場合と同様にして、シグナル強度マップを生成し、標準偏差画像生成部１３に供給する。標準偏差画像生成部１３は、シグナル強度マップ生成部１２のシグナル強度マップ矩形生成処理部３８から供給されたシグナル強度マップと、検出用画像取得部５１から供給された検出用画像を用いて、上述した場合と同様にして、標準偏差画像を生成し、第２の物体検出判定部５４、コントラスト調整画像生成部１４、および、背景領域類似度算出部５６に供給する。コントラスト調整画像生成部１４は、標準偏差画像生成部１３から供給された標準偏差画像と、検出用画像取得部５１から供給された検出用画像を用いて、上述した場合と同様にして、コントラスト調整画像を生成し、第３の物体検出判定部５５に供給する。

学習モデル記憶部５２は、図１の学習処理装置１により生成された第１の学習モデル、第２の学習モデル、および、第３の学習モデルを記憶し、第１の物体検出判定部５３に第１の学習モデルを、第２の物体検出判定部５４に第２の学習モデルを、第３の物体検出判定部５５に第３の学習モデルをそれぞれ供給する。

第１の物体検出判定部５３は、学習モデル記憶部５２から供給された第１の学習モデルを用いて、検出用画像取得部５１から供給された検出用画像に、検出対象となる物体があるか否かの確率を判定して、物体検出判定部５８に供給する。

第２の物体検出判定部５４は、学習モデル記憶部５２から供給された第２の学習モデルを用いて、標準偏差画像生成部１３から供給された標準偏差画像に、検出対象となる物体があるか否かの確率を判定して、物体検出判定部５８に供給する。

第３の物体検出判定部５５は、学習モデル記憶部５２から供給された第３の学習モデルを用いて、コントラスト調整画像生成部１４から供給されたコントラスト調整画像に、検出対象となる物体があるか否かの確率を判定して、物体検出判定部５８に供給する。

背景領域類似度算出部５６は、標準偏差画像生成部１３から供給された標準偏差画像における検出対象物体の画素と、検出用画像取得部５１から供給された検出用画像の背景部分の各画素の類似度を算出し、算出結果を、重み付け設定部５７に供給する。

図１０は、背景領域類似度算出部５６が有する機能構成を示す機能ブロック図である。背景領域類似度算出部５６は、背景領域抽出部７１、類似度算出部７２、第２の閾値設定部７３、および、類似割合算出部７４の機能を含んで構成されている。

背景領域抽出部７１は、図１１に示されるように、標準偏差画像生成部１３から供給された標準偏差画像に対応する矩形、すなわち、検出物体を含む矩形と同一の位置の矩形に対して所定倍数（例えば、１．５倍）の領域を、検出用画像取得部５１から供給された検出用画像から切り出すとともに、切り出された部分から標準偏差画像における検出物体の領域を除いた背景領域を抽出し、標準偏差画像生成部１３から供給された標準偏差画像とともに、類似度算出部７２に供給する。

類似度算出部７２は、図１２に示されるように、標準偏差画像における検出物体の領域のRGB空間のRGBと、HSV空間のSVとの、計５チャンネルの値を用いて、RGBSV平均ベクトルを算出する。そして、類似度算出部７２は、背景領域抽出部７１から供給された、検出用画像から抽出された背景領域の各画素において、5チャンネル合成ベクトルを算出する。そして、類似度算出部７２は、標準偏差画像における検出物体の領域のRGBSV平均ベクトルと背景領域の各画素における合成ベクトルとの正規化相関値を、上述した式（２）を用いて算出する。そして、類似度算出部７２は、上述した式（３）を用いて、検出用画像から抽出された背景領域の各画素と、標準偏差画像における検出物体の領域の画素との類似度を算出する。

更に、類似度算出部７２は、検出対象となる物体に対する背景画素ごとの類似度を用いて、第２の閾値設定部７３により設定される閾値を超える、すなわち、検出物体に類似している背景画素の画素数をカウントし、カウント結果を類似割合算出部７４に供給する。

第２の閾値設定部７３は、類似度算出部７２により算出された類似度と比較するための第２の閾値を設定する。第２の閾値は、例えば、０．５などであり、実験的経験的に定めることが可能な値である。

類似割合算出部７４は、切り出された背景領域において、検出物体に類似している背景画素の割合を算出し、算出結果を重み付け設定部５７に供給する。

図９に戻り、重み付け設定部５７は、背景領域類似度算出部５６の類似割合算出部７４から供給された、検出物体に類似している背景画素の割合の算出結果に基づいて、物体検出判定部５８が実行する物体検出判定における、第１の物体検出判定部５３、第２の物体検出判定部５４、および、第３の物体検出判定部５５それぞれの判定結果の重み付けを決定し、物体検出判定部５８に供給する。

図１３を用いて、検出物体に類似している背景画素の割合と、設定される重み付けの例について説明する。検出物体に類似している背景画素の割合が、例えば、51％～100％の場合、すなわち、検出対象となる物体周辺に類似している領域の割合が多い場合、重み付け設定部５７は、背景を除去することで最も検出性能が発揮できると思われる標準偏差画像を用いて学習した第２の学習モデルを用いた第２の物体検出判定部５４の判定結果の重みを最も大きい値に設定する。重み付け設定部５７は、例えば、パターン１として、標準偏差画像による学習モデルを用いた第２の物体検出判定部５４の判定結果の重み、コントラスト調整画像による学習モデルを用いた第３の物体検出判定部５５の判定結果の重み、通常の画像による学習モデルを用いた第１の物体検出判定部５３の判定結果の重みの割合を、１．５０：１．００：０．５０とする。

また、検出物体に類似している背景画素の割合が、例えば、１％～50%の場合、すなわち、検出対象となる物体周辺に類似している領域が多少ある場合、検出対象物体が不動物の影になるなど、検出対象となる物体の全景を明瞭に抽出しきれなかったことが想定されるため、重み付け設定部５７は、背景は除去しないが極力情報を落としたコントラスト調整画像を用いて学習した第３の学習モデルを用いた第３の物体検出判定部５５の判定結果と、標準偏差画像を用いて学習した第２の学習モデルを用いた第２の物体検出判定部５４の判定結果の重みを大きい値に設定する。重み付け設定部５７は、例えば、パターン２として、標準偏差画像による学習モデルを用いた第２の物体検出判定部５４の判定結果の重み、コントラスト調整画像による学習モデルを用いた第３の物体検出判定部５５の判定結果の重み、通常の画像による学習モデルを用いた第１の物体検出判定部５３の判定結果の重みの割合を、１．２５：１．２５：０．５０とする。

そして、検出物体に類似している背景画素の割合が0％の場合、すなわち、検出物体の周辺背景が検出物体との類似度の低い場合、通常画像学習モデルでも精度よく検出できることが想定されるため、第１の物体検出判定部５３、第２の物体検出判定部５４、および、第３の物体検出判定部５５におけるそれぞれの判定結果の重みを平均的な値にする。重み付け設定部５７は、例えば、パターン３として、標準偏差画像による学習モデルを用いた第２の物体検出判定部５４の判定結果の重み、コントラスト調整画像による学習モデルを用いた第３の物体検出判定部５５の判定結果の重み、通常の画像による学習モデルを用いた第１の物体検出判定部５３の判定結果の重みの割合を、１．００：１．００：１．００とする。

再び、図９に戻り、物体検出判定部５８は、重み付け設定部５７から供給された重み付けの設定に従って、第１の物体検出判定部５３、第２の物体検出判定部５４、および、第３の物体検出判定部５５におけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、例えば、５０％などの所定の閾値を超える場合を、検出用画像取得部５１により取得された検出用画像に、検出対象となる物体があると判定し、検出対象物体の検出の有無、または、検出対象物体が存在する確率を示す値等と、検出された物体の画像内での座標情報を含む判定結果を、ヒートマップ生成部５９、および、出力処理部６０に供給する。

ヒートマップ生成部５９は、指定期間内における検出対象物体のそれぞれの箇所における検出頻度に基づいて、ヒートマップを作成し、出力処理部６０に供給する。ヒートマップとは、データを可視化するために、行列型の数字データの強弱を色で視覚化する方法である。

例えば、ある地域におけるカラスの営巣箇所を検出したい場合、監視カメラ等により撮像された画像を用いたカラスの検出結果によるヒートマップを作成し、指定期間内におけるカラスのそれぞれの箇所における検出頻度を可視化することで、一定期間内におけるカラスの検出頻度が高い個所から、カラスの営巣箇所を推測することが可能である。また、カラスの移動経路のような連続性を記録値として取得することも可能であるため、作成されるヒートマップは、様々なシステムに展開可能である。

例えば、ヒートマップ生成部５９は、図１４に示されるように、検出したカラスの位置座標を用いて、検出頻度が高い座標を色分け表示することで、カラスの検出頻度を可視化したヒートマップを作成することが可能である。具体的には、例えば、ヒートマップ生成部５９は、カラスが検出された頻度の低い座標エリアを青色、高い座標エリアを赤色に分けて、カラスが検出された頻度を可視化することが可能となる。カラスは、営巣時において、巣の材料となる枝や針金を繰り返し同じ場所に運ぶことが想定されるため、営巣箇所での検出頻度の高さを可視化して示すヒートマップを提供することで、営巣箇所の示唆が可能となる。

出力処理部６０は、物体検出判定部５８、および、ヒートマップ生成部５９から供給された情報を出力する処理を実行する。

このように、物体検出装置５０は、検出用画像に含まれる複雑な背景要素から高精度で物体を切り抜く画像処理を施し、複数パターンの機械学習モデルを用いて高精度に検出対象となる物体を検出することができる。

なお、最終的な検出結果が充分なものでなかった場合、学習処理装置１または物体検出装置５０の各処理におけるパラメータ等を調整することなどにより、最適な検出結果を得ることが可能である。具体的には、例えば、学習処理装置１の処理において、第１の閾値設定部３５により設定される第１の閾値、ブロック拡張設定部３７によるブロック拡張処理部３６のブロック拡張量、シグナル強度マップ矩形生成処理部３８によるシグナル強度マップの矩形の大きさ、標準偏差画像生成部１３による二値化の閾値、コントラスト調整画像生成部１４による彩度および明度の調整値などを調整することにより、第１～第３の学習モデルの生成を再度行うことができる。また、物体検出装置５０の処理において、具体的には、例えば、第１の閾値設定部３５により設定される第１の閾値、ブロック拡張設定部３７によるブロック拡張処理部３６のブロック拡張量、シグナル強度マップ矩形生成処理部３８によるシグナル強度マップの矩形の大きさ、標準偏差画像生成部１３による二値化の閾値、コントラスト調整画像生成部１４による彩度および明度の調整値などの調整の他に、重み付け設定部５７による重み付けのパターンの設定値を調整することにより、検出精度を調整することが可能である。

次に、図１５および図１６のフローチャートを参照して、物体検出装置５０が実行する物体検出処理について説明する。

ステップＳ４１において、検出用画像取得部５１は、図示しない監視カメラにより得られる撮像画像を取得し、シグナル強度マップ生成部１２、標準偏差画像生成部１３、コントラスト調整画像生成部１４、第１の物体検出判定部５３、および、背景領域類似度算出部５６に供給する。

ステップＳ４２において、図８のフローチャートを用いて説明したシグナル強度マップ生成処理が実行される。

ステップＳ４３において、標準偏差画像生成部１３は、シグナル強度マップ生成部１２のシグナル強度マップ矩形生成処理部３８から供給されたシグナル強度マップと、検出用画像取得部５１から供給された検出用画像を用いて、上述した場合と同様にして、標準偏差画像を生成し、第２の物体検出判定部５４、コントラスト調整画像生成部１４、および、背景領域類似度算出部５６に供給する。

ステップＳ４４において、コントラスト調整画像生成部１４は、標準偏差画像生成部１３から供給された標準偏差画像と、検出用画像取得部５１から供給された検出用画像を用いて、上述した場合と同様にして、コントラスト調整画像を生成し、第３の物体検出判定部５５に供給する。

ステップＳ４５において、第１の物体検出判定部５３は、学習モデル記憶部５２により記憶されている第１の学習モデルを、第２の物体検出判定部５４は、学習モデル記憶部５２により記憶されている第２の学習モデルを、第３の物体検出判定部５５は、学習モデル記憶部５２により記憶されている第３の学習モデルを、それぞれ取得する。

ステップＳ４６において、第１の物体検出判定部５３は、学習モデル記憶部５２から供給された第１の学習モデルを用いて、検出用画像取得部５１から供給された検出用画像に、検出対象となる物体があるか否かの確率を判定して、物体検出判定部５８に供給する。

ステップＳ４７において、第２の物体検出判定部５４は、学習モデル記憶部５２から供給された第２の学習モデルを用いて、標準偏差画像生成部１３から供給された標準偏差画像に、検出対象となる物体があるか否かの確率を判定して、物体検出判定部５８に供給する。

ステップＳ４８において、第３の物体検出判定部５５は、学習モデル記憶部５２から供給された第３の学習モデルを用いて、コントラスト調整画像生成部１４から供給されたコントラスト調整画像に、検出対象となる物体があるか否かの確率を判定して、物体検出判定部５８に供給する。

ステップＳ４９において、図１７のフローチャートを用いて後述する背景領域類似度算出処理が実行される。

ステップＳ５０において、重み付け設定部５７は、背景領域類似度算出部５６の類似割合算出部７４から供給された、検出物体に類似している背景画素の割合の算出結果に基づいて、物体検出判定部５８が実行する物体検出判定における、第１の物体検出判定部５３、第２の物体検出判定部５４、および、第３の物体検出判定部５５それぞれの判定結果の重み付けを、例えば、図１３を用いて説明したようにして決定し、物体検出判定部５８に供給する。

ステップＳ５１において、物体検出判定部５８は、重み付け設定部５７から供給された重み付けの設定に従って、第１の物体検出判定部５３、第２の物体検出判定部５４、および、第３の物体検出判定部５５におけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、例えば、５０％などの所定の閾値を超える場合に、検出用画像取得部５１により取得された検出用画像に、検出対象となる物体があると判定し、検出対象物体の検出の有無、または、検出対象物体が存在する確率を示す値等と、検出された物体の画像内での座標情報を含む判定結果を、ヒートマップ生成部５９、および、出力処理部６０に供給する。

ステップＳ５２において、ヒートマップ生成部５９は、ヒートマップ生成が指令されているか否かを判断する。ステップＳ５２において、ヒートマップ生成が指令されていないと判断された場合、処理は、後述するステップＳ５４に進む。

ステップＳ５２において、ヒートマップ生成が指令されていると判断された場合、ステップＳ５３において、ヒートマップ生成部５９は、指定期間内における検出対象物体のそれぞれの箇所における検出頻度に基づいて、例えば、図１４を用いて説明したようなヒートマップを作成し、出力処理部６０に供給する。

ステップＳ５２において、ヒートマップ生成が指令されていないと判断された場合、または、ステップＳ５３の処理の終了後、ステップＳ５４において、出力処理部６０は、物体検出判定部５８、および、ヒートマップ生成部５９の少なくとも１つから供給された処理結果を指令された方式に基づいて出力し、処理が終了される。

このような処理により、検出用画像に対して、複雑な背景要素から高精度で物体を切り抜く画像処理が施され、複数パターンの機械学習モデルを用いて高精度に物体を検出することができる。

次に、図１７のフローチャートを参照して、図１６のステップＳ４９において実行される背景領域類似度算出について説明する。

ステップＳ７１において、背景領域抽出部７１は、例えば、図１１を用いて説明したように、標準偏差画像生成部１３から供給された標準偏差画像に対応する矩形、すなわち、検出物体を含む矩形と同一の位置の矩形に対して所定倍数（例えば、１．５倍）の領域を、検出用画像取得部５１から供給された検出用画像から切り出すとともに、切り出された部分から標準偏差画像における検出物体の領域を除いた背景領域を抽出し、標準偏差画像生成部１３から供給された標準偏差画像とともに、類似度算出部７２に供給する。

ステップＳ７２において、類似度算出部７２は、図１２を用いて説明したように、標準偏差画像における検出物体の領域のRGB空間のRGBと、HSV空間のSVとの、計５チャンネルの値を用いて、RGBSV平均ベクトルを算出し、背景領域抽出部７１から供給された、検出用画像取得部５１から抽出された背景領域の各画素において、5チャンネル合成ベクトルを算出する。そして、類似度算出部７２は、標準偏差画像における検出物体の領域のRGBSV平均ベクトルと背景領域の各画素における合成ベクトルとの正規化相関値を、上述した式（２）を用いて算出し、上述した式（３）を用いて、検出用画像取得部５１から抽出された背景領域の各画素と、標準偏差画像における検出物体の領域の画素との類似度を算出する。

ステップＳ７３において、類似割合算出部７４は、切り出された背景領域における検出物体に類似している背景画素の割合を算出し、算出結果を重み付け設定部５７に供給し、処理は、図１６のステップＳ５０に進む。

このような処理により、標準偏差画像における検出対象物体の画素と、検出用画像取得部５１から供給された検出用画像の背景部分の各画素の類似度が算出されるので、複数の学習モデルにおける判定結果を、検出用画像の背景の状況に応じて重み付けすることが可能となる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１…学習処理装置、１１…学習用画像取得部、１２…シグナル強度マップ生成部、１３…標準偏差画像生成部、１４…コントラスト調整画像生成部、１５…第１の学習モデル生成処理部、１６…第２の学習モデル生成処理部、１７…第３の学習モデル生成処理部、１８…学習モデル取得部、１９…学習モデル出力部、２０…学習モデル記憶部、３１…ブロック分割処理部、３２…類似度算出部、３３…変化画素割合算出部、３４…二値化処理部、３５…第１の閾値設定部、３６…ブロック拡張処理部、３７…ブロック拡張設定部、３８…シグナル強度マップ矩形生成処理部、５０…物体検出装置、５１…検出用画像取得部、５２…学習モデル記憶部、５３…第１の物体検出判定部、５４…第２の物体検出判定部、５５…第３の物体検出判定部、５６…背景領域類似度算出部、５７…重み付け設定部、５８…物体検出判定部、５９…ヒートマップ生成部、６０…出力処理部、７１…背景領域抽出部、７２…類似度算出部、７３…第２の閾値設定部、７４…類似割合算出部

Claims

機械学習のための学習用画像を取得する学習用画像取得手段と、
前記学習用画像取得手段により取得された前記学習用画像の、前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成手段と、
前記シグナル強度マップ生成手段により生成された前記シグナル強度マップにおいて、前記検出対象物体があると推定される部分において、前記学習用画像取得手段から供給された前記学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記学習用画像のマスクとして適用した画像を、標準偏差画像として生成する標準偏差画像生成手段と、
前記学習用画像取得手段から供給された前記学習用画像に対し、前記標準偏差画像生成手段により生成された前記標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施したコントラスト調整画像を生成するコントラスト調整画像生成手段と、
前記学習用画像取得手段により取得された前記学習用画像を用いて機械学習を行い、第１の学習モデルを生成する第１の学習モデル生成処理手段と、
前記標準偏差画像生成手段により生成された前記標準偏差画像を用いて機械学習を行い、第２の学習モデルを生成する第２の学習モデル生成処理手段と、
前記コントラスト調整画像生成手段により生成された前記コントラスト調整画像を用いて機械学習を行い、第３の学習モデルを生成する第３の学習モデル生成処理手段と
を備えることを特徴とする学習処理装置。
請求項１に記載の学習処理装置において、
前記シグナル強度マップ生成手段は、
前記学習用画像取得手段から供給された前記学習用画像を所定の画素数を含む矩形のブロックに分割するブロック分割処理手段と、
前記学習用画像の前フレームと現フレームのそれぞれの前記ブロックに含まれる画素の類似度を算出することにより、前記ブロックに含まれる各画素が変化しているか否かを判定する類似度算出手段と、
前記類似度算出手段による前記ブロックに含まれる各画素の変化の有無の判定結果に基づいて、前記ブロックのそれぞれに含まれる変化有の画素数を算出し、前記ブロック内の変化画素の割合を算出する変化画素割合算出手段と、
前記変化画素割合算出手段により算出された前記ブロックの変化画素の割合を、第１の閾値と比較し、その比較結果に基づいて、二値化を実行する二値化処理手段と、
前記二値化処理手段による二値化結果に基づいて、変化有と判定された前記ブロックを含む所定の大きさの矩形を切り出してシグナル強度マップを生成するシグナル強度マップ矩形生成処理手段と
を含むことを特徴とする学習処理装置。
請求項２に記載の学習処理装置において、
前記類似度算出手段は、RGB色空間、および、HSV色空間の要素を用いて前記類似度を算出する
ことを特徴とする学習処理装置。
請求項３に記載の学習処理装置において、
前記類似度算出手段は、色相Hを除いたRGBSVの５チャンネルの要素を用い、前記ブロックに含まれる画素ごとの５チャンネル合成ベクトルを用いて、現フレームと前フレームの２つの５チャンネルの合成ベクトルの正規化相関値を算出し、前記正規化相関値と、前記５チャンネル合成ベクトルの長さ率を乗算することにより前記類似度を算出する
ことを特徴とする学習処理装置。
請求項２～４のいずれかに記載の学習処理装置において、
前記二値化処理手段による二値化演算結果において変化有と判定された前記ブロックの領域を拡張するブロック拡張処理手段をさらに備え、
前記シグナル強度マップ矩形生成処理手段は、前記ブロック拡張処理手段により領域が拡張された前記ブロックに基づいて、変化有と判定された前記ブロックを含む所定の大きさの矩形を切り出してシグナル強度マップを生成する
ことを特徴とする学習処理装置。
所定の検出対象物体の検出のための機械学習を行う学習処理装置が実行する学習処理方法であって、
前記機械学習のための学習用画像を取得する学習用画像取得ステップと、
前記学習用画像取得ステップの処理により取得された前記学習用画像の、前フレームと現フレームとの変化割合に基づいて、前記検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、
前記シグナル強度マップ生成ステップの処理により生成された前記シグナル強度マップにおいて、前記検出対象物体があると推定される部分において、前記学習用画像取得ステップの処理により取得された前記学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記学習用画像のマスクとして適用した画像を、標準偏差画像として生成する標準偏差画像生成ステップと、
前記学習用画像取得ステップの処理により取得された前記学習用画像に対し、前記標準偏差画像生成ステップの処理により生成された前記標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施したコントラスト調整画像を生成するコントラスト調整画像生成ステップと、
前記学習用画像取得ステップの処理により取得された前記学習用画像を用いて機械学習を行い、第１の学習モデルを生成する第１の学習モデル生成処理ステップと、
前記標準偏差画像生成ステップの処理により生成された前記標準偏差画像を用いて機械学習を行い、第２の学習モデルを生成する第２の学習モデル生成処理ステップと、
前記コントラスト調整画像生成ステップの処理により生成された前記コントラスト調整画像を用いて機械学習を行い、第３の学習モデルを生成する第３の学習モデル生成処理ステップと
を含むことを特徴とする学習方法。
所定の検出対象物体の検出のための機械学習を行うコンピュータに、
前記機械学習のための学習用画像を取得する学習用画像取得ステップと、
前記学習用画像取得ステップの処理により取得された前記学習用画像の、前フレームと現フレームとの変化割合に基づいて、前記検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、
前記シグナル強度マップ生成ステップの処理により生成された前記シグナル強度マップにおいて、前記検出対象物体があると推定される部分において、前記学習用画像取得ステップの処理により取得された前記学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記学習用画像のマスクとして適用した画像を、標準偏差画像として生成する標準偏差画像生成ステップと、
前記学習用画像取得ステップの処理により取得された前記学習用画像に対し、前記標準偏差画像生成ステップの処理により生成された前記標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施したコントラスト調整画像を生成するコントラスト調整画像生成ステップと、
前記学習用画像取得ステップの処理により取得された前記学習用画像を用いて機械学習を行い、第１の学習モデルを生成する第１の学習モデル生成処理ステップと、
前記標準偏差画像生成ステップの処理により生成された前記標準偏差画像を用いて機械学習を行い、第２の学習モデルを生成する第２の学習モデル生成処理ステップと、
前記コントラスト調整画像生成ステップの処理により生成された前記コントラスト調整画像を用いて機械学習を行い、第３の学習モデルを生成する第３の学習モデル生成処理ステップと
を含む処理を実行させるためのプログラム。
学習用画像を用いて機械学習を行うことによって得られた第１の学習モデルと、
前記学習用画像の前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分の前記学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記学習用画像のマスクとして適用した第１の標準偏差画像を用いて機械学習を行うことによって得られた第２の学習モデルと、
前記学習用画像に対し、前記第１の標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第１のコントラスト調整画像を用いて機械学習を行うことによって得られた第３の学習モデルと
を用いて前記検出対象物体を検出する物体検出装置において、
前記検出対象物体を検出するための検出用画像を取得する検出用画像取得手段と、
前記検出用画像取得手段により取得された前記検出用画像のうち、前フレームと現フレームとの変化割合に基づいて、前記検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成手段と、
前記シグナル強度マップ生成手段により生成されたシグナル強度マップにおいて、前記検出対象物体があると推定される部分において、前記検出用画像取得手段から供給された前記検出用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記検出用画像のマスクとして適用した画像を、第２の標準偏差画像として生成する標準偏差画像生成手段と、
前記検出用画像取得手段から供給された前記検出用画像に対し、前記標準偏差画像生成手段により生成された前記第２の標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第２のコントラスト調整画像を生成するコントラスト調整画像生成手段と、
前記第１の学習モデルを用いて、前記検出用画像取得手段により取得された前記検出用画像に、前記検出対象物体があるか否かの確率を判定する第１の物体検出判定手段と、
前記第２の学習モデルを用いて、前記標準偏差画像生成手段により生成された前記第２の標準偏差画像に、前記検出対象物体があるか否かの確率を判定する第２の物体検出判定手段と、
前記第３の学習モデルを用いて、前記コントラスト調整画像生成手段により生成された前記第２のコントラスト調整画像に、前記検出対象物体があるか否かの確率を判定する第３の物体検出判定手段と、
前記標準偏差画像生成手段により生成された前記第２の標準偏差画像における前記検出対象物体の画素と、前記検出用画像取得手段から供給された前記検出用画像の背景部分の各画素の類似度を算出する背景類似度算出手段と、
前記背景類似度算出手段により算出された前記類似度に基づいて、前記第１の物体検出判定手段、前記第２の物体検出判定手段、および、前記第３の物体検出判定手段による判定結果の重み付けを設定する重み付け設定手段と、
前記重み付け設定手段による設定に従って、前記第１の物体検出判定手段、前記第２の物体検出判定手段、および、前記第３の物体検出判定手段におけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、前記検出用画像取得手段により取得された前記検出用画像に、前記検出対象物体があるか否かを判定する物体検出判定手段と
を備えることを特徴とする物体検出装置。
請求項８に記載の物体検出装置において、
前記背景類似度算出手段は、RGB色空間、および、HSV色空間の要素を用いて前記類似度を算出する
ことを特徴とする物体検出装置。
請求項９に記載の物体検出装置において、
前記背景類似度算出手段は、色相Hを除いたRGBSVの５チャンネルの要素を用い、前記学習用画像を所定の画素数を含む矩形のブロックに含まれる画素ごとの５チャンネル合成ベクトルを用いて、現フレームと前フレームの２つの５チャンネルの合成ベクトルの正規化相関値を算出し、前記正規化相関値と、前記５チャンネル合成ベクトルの長さ率を乗算することにより前記類似度を算出する
ことを特徴とする物体検出装置。
請求項８～１０のいずれかに記載の物体検出装置において、
前記重み付け設定手段は、前記背景類似度算出手段により算出された前記類似度の値が高い場合、前記第２の物体検出判定手段の判定結果の重みを最も大きい値に設定し、前記類似度の値が低い場合、前記第１の物体検出判定手段、前記第２の物体検出判定手段、および、前記第３の物体検出判定手段の判定結果の重みを均等な値に設定し、前記類似度の値がそれらの中間値である場合、前記第２の物体検出判定手段および前記第３の物体検出判定手段の判定結果の重みを前記第１の物体検出判定手段の判定結果の重みよりも大きい値に設定する
ことを特徴とする物体検出装置。
学習用画像を用いて機械学習を行うことによって得られた第１の学習モデルと、
前記学習用画像の前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分の前記学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記学習用画像のマスクとして適用した第１の標準偏差画像を用いて機械学習を行うことによって得られた第２の学習モデルと、
前記学習用画像に対し、前記第１の標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第１のコントラスト調整画像を用いて機械学習を行うことによって得られた第３の学習モデルと
を用いて前記検出対象物体を検出する物体検出装置が実行する物体検出方法であって、
前記検出対象物体を検出するための検出用画像を取得する検出用画像取得ステップと、
前記検出用画像取得ステップの処理により取得された前記検出用画像のうち、前フレームと現フレームとの変化割合に基づいて、前記検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、
前記シグナル強度マップ生成ステップの処理により生成されたシグナル強度マップにおいて、前記検出対象物体があると推定される部分において、前記検出用画像取得ステップの処理により取得された前記検出用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記検出用画像のマスクとして適用した画像を、第２の標準偏差画像として生成する標準偏差画像生成ステップと、
前記検出用画像取得ステップの処理により取得された前記検出用画像に対し、前記標準偏差画像生成ステップの処理により生成された前記第２の標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第２のコントラスト調整画像を生成するコントラスト調整画像生成ステップと、
前記第１の学習モデルを用いて、前記検出用画像取得ステップの処理により取得された前記検出用画像に、前記検出対象物体があるか否かの確率を判定する第１の物体検出判定ステップと、
前記第２の学習モデルを用いて、前記標準偏差画像生成ステップの処理により生成された前記第２の標準偏差画像に、前記検出対象物体があるか否かの確率を判定する第２の物体検出判定ステップと、
前記第３の学習モデルを用いて、前記コントラスト調整画像生成ステップの処理により生成された前記第２のコントラスト調整画像に、前記検出対象物体があるか否かの確率を判定する第３の物体検出判定ステップと、
前記標準偏差画像生成ステップの処理により生成された前記第２の標準偏差画像における前記検出対象物体の画素と、前記検出用画像取得ステップの処理により取得された前記検出用画像の背景部分の各画素の類似度を算出する背景類似度算出ステップと、
前記背景類似度算出ステップの処理により算出された前記類似度に基づいて、前記第１の物体検出判定ステップ、前記第２の物体検出判定ステップ、および、前記第３の物体検出判定ステップによる判定結果の重み付けを設定する重み付け設定ステップと、
前記重み付け設定ステップの処理による設定に従って、前記第１の物体検出判定ステップ、前記第２の物体検出判定ステップ、および、前記第３の物体検出判定ステップにおけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、前記検出用画像取得ステップにより取得された前記検出用画像に、前記検出対象物体があるか否かを判定する物体検出判定ステップと
を含むことを特徴とする物体検出方法。
学習用画像を用いて機械学習を行うことによって得られた第１の学習モデルと、
前記学習用画像の前フレームと現フレームとの変化割合に基づいて、検出対象物体があると推定される部分の前記学習用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記学習用画像のマスクとして適用した第１の標準偏差画像を用いて機械学習を行うことによって得られた第２の学習モデルと、
前記学習用画像に対し、前記第１の標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第１のコントラスト調整画像を用いて機械学習を行うことによって得られた第３の学習モデルと
を用いて前記検出対象物体を検出する処理を実行するコンピュータに、
前記検出対象物体を検出するための検出用画像を取得する検出用画像取得ステップと、
前記検出用画像取得ステップの処理により取得された前記検出用画像のうち、前フレームと現フレームとの変化割合に基づいて、前記検出対象物体があると推定される部分を含む所定の大きさの矩形二値化画像であるシグナル強度マップを生成するシグナル強度マップ生成ステップと、
前記シグナル強度マップ生成ステップの処理により生成されたシグナル強度マップにおいて、前記検出対象物体があると推定される部分において、前記検出用画像取得ステップの処理により取得された前記検出用画像の現フレームと数点の前フレームによる複数フレーム間における標準偏差を画素毎に求め、所定の閾値以上の標準偏差となった画素のみを白色とすることにより、前記検出対象物体が抽出された二値化画像を作成し、それを前記検出用画像のマスクとして適用した画像を、第２の標準偏差画像として生成する標準偏差画像生成ステップと、
前記検出用画像取得ステップの処理により取得された前記検出用画像に対し、前記標準偏差画像生成ステップの処理により生成された前記第２の標準偏差画像において前記検出対象物体として抽出された部分以外のコントラストを下げる処理を施した第２のコントラスト調整画像を生成するコントラスト調整画像生成ステップと、
前記第１の学習モデルを用いて、前記検出用画像取得ステップの処理により取得された前記検出用画像に、前記検出対象物体があるか否かの確率を判定する第１の物体検出判定ステップと、
前記第２の学習モデルを用いて、前記標準偏差画像生成ステップの処理により生成された前記第２の標準偏差画像に、前記検出対象物体があるか否かの確率を判定する第２の物体検出判定ステップと、
前記第３の学習モデルを用いて、前記コントラスト調整画像生成ステップの処理により生成された前記第２のコントラスト調整画像に、前記検出対象物体があるか否かの確率を判定する第３の物体検出判定ステップと、
前記標準偏差画像生成ステップの処理により生成された前記第２の標準偏差画像における前記検出対象物体の画素と、前記検出用画像取得ステップの処理により取得された前記検出用画像の背景部分の各画素の類似度を算出する背景類似度算出ステップと、
前記背景類似度算出ステップの処理により算出された前記類似度に基づいて、前記第１の物体検出判定ステップ、前記第２の物体検出判定ステップ、および、前記第３の物体検出判定ステップによる判定結果の重み付けを設定する重み付け設定ステップと、
前記重み付け設定ステップの処理による設定に従って、前記第１の物体検出判定ステップ、前記第２の物体検出判定ステップ、および、前記第３の物体検出判定ステップにおけるそれぞれの判定結果に対して重み付けを行い、それらの平均値に基づいて、前記検出用画像取得ステップにより取得された前記検出用画像に、前記検出対象物体があるか否かを判定する物体検出判定ステップと
を含む処理を実行させるためのプログラム。