JP2019003396A

JP2019003396A - 目的物体検出装置、該方法およびプログラム

Info

Publication number: JP2019003396A
Application number: JP2017117433A
Authority: JP
Inventors: 早田　啓介; Keisuke Hayata; 啓介早田
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2019-01-10

Abstract

【課題】本発明は、時系列な画像から得られる動きを表す動きの情報を利用でき、より少ない処理量でより精度良く目的物体を検出できる目的物体検出装置、該方法および該プログラムを提供する。
【解決手段】本発明は、学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部２１を多層構造で複数備える多層構造部１と、多層構造部１の出力に基づいて所定の目的物体を検出する検出処理部２とを備え、多層構造部１は、複数の抽出部２１を途中で前側多層構造部１１と後側多層構造部１２とに二分され、前側多層構造部１１に第１画像を入力することで出力される第１中間出力と、前側多層構造部１１に第１画像と時系列で時刻の異なる第２画像を入力することで出力される第２中間出力との差分を求める差分処理部１３を備え、第１および第２中間出力のうちの少なくとも一方と、差分処理部１３の差分出力とを後側多層構造部１２に入力させる。
【選択図】図１

Description

本発明は、機械学習で所望の目的物体（対象物体）を検出する目的物体検出装置、目的物体検出方法および目的物体検出プログラムに関する。

機械学習は、学習データを反復的に学習することで学習モデルを人手を介さずに自動的に生成し、この生成した学習モデルを用いて学習データを分類でき、あるいは、未知のデータの分類を予測できる。このことから、機械学習は、様々な分野に応用され、研究、開発されている。特に、近年では、画像認識の認識精度が高いこと等から、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、以下、「ＣＮＮ」と適宜に略記する）に代表される深層学習（ディープラーニング、ＤｅｅｐＬｅａｒｎｉｎｇ）が注目され、研究、開発されている。

典型的な深層学習は、主として、１枚の画像から、検出したい目的の物体（目的物体）を検出するので、前記目的物体が動く物体である場合には、複数の画像から得られる、動く目的物体における動きの情報を用いることが難しい。そのため、目的物体に類似した静止物体が画像中に写り込んでいると誤検出してしまう虞がある。そこで、例えば、非特許文献１には、元画像および動き差分画像に対し、ＲｅｓｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋを用いることによって候補領域を検出し、目的物体であるか否かを判定する深層学習が開示されている。

ＳｕｍａｎＳａｈａ、ｅｔａｌ. ，"ＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＭｕｌｔｉｐｌｅＳｐａｃｅ−ＴｉｍｅＡｃｔｉｏｎＴｕｂｅｓｉｎＶｉｄｅｏｓ"，ＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓｏｎＣｏｎｆｅｒｅｎｃｅ，２０１６

ところで、前記非特許文献１に開示された深層学習は、前記元画像および前記動き差分画像それぞれを元のサイズで情報処理しているため、前記情報処理の処理量が比較的多くなってしまう。また、画像に目的対象と異なるノイズ的な動きが写り込んでいる場合、前記非特許文献１に開示された深層学習は、誤検出してしまう可能性がある。

本発明は、上述の事情に鑑みて為された発明であり、その目的は、時系列な画像から得られる動きを表す動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる目的物体検出装置、目的物体検出方法および目的物体検出プログラムを提供することである。

本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる目的物体検出装置は、学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部を多層構造で複数備える多層構造部と、前記多層構造部の出力に基づいて所定の目的物体を検出する検出処理部とを備え、前記多層構造部は、前記複数の抽出部を途中で前側多層構造部と後側多層構造部とに二分され、前記前側多層構造部に第１画像を入力することによって前記前側多層構造部から出力される第１中間出力と、前記前側多層構造部に前記第１画像と時系列で前記第１画像と異なる時刻の第２画像を入力することによって前記前側多層構造部から出力される第２中間出力との差分を求める差分処理部を備え、前記第１および第２中間出力のうちの少なくとも一方と、前記差分処理部から出力される差分出力とを前記後側多層構造部に入力させる。

このような目的物体検出装置は、互いに異なる時刻での時系列な第１および第２画像それぞれを前側多層構造部に入力することによって前記前側多層構造部で得られる第１および第２中間出力の差分を求め、この求めた差分出力を後側多層構造部に入力するので、時系列な第１および第２画像から得られる動きを表す動きの情報を利用でき、この動きの情報の利用によって、より精度良く目的物体を検出できる。この動き情報の利用の際に、第１および第２画像から前記動きの情報を得るのではなく、上記目的物体検出装置は、前記第１および第２中間出力の差分を求めることによって、前記動きの情報を得ているので、処理量をより少なくできる。したがって、上記目的物体検出装置は、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。

他の一態様では、上述の目的物体検出装置において、前記前側多層構造部は、少なくとも２層の抽出部を備える。

このような目的物体検出装置は、前記前側多層構造部が少なくとも２層の抽出部を備えるので、特徴量抽出部によって或る程度特徴量を抽出した第１および第２中間出力で差分出力を生成でき、このような差分出力を後側多層構造部は、利用できる。

他の一態様では、これら上述の目的物体検出装置において、前記多層構造部と前記検出処理部とは、畳み込みニューラルネットワークである。

これによれば、畳み込みニューラルネットワークを利用した目的物体検出装置を提供できる。

本発明の他の一態様にかかる目的物検出方法は、深層学習を用いて所定の目的物体を検出する方法であって、時系列で互いに時刻の異なる第１および第２画像を入力する画像入力工程と、前記深層学習の多層構造における途中の層で、前記入力された第１画像から得られる第１中間出力と前記入力された第２画像から得られる第２中間出力との差分を求める差分処理工程と、前記第１および第２中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを備える。

本発明の他の一態様にかかる目的物検出プログラムは、深層学習を用いて所定の目的物体を検出するプログラムであって、コンピュータに、時系列で互いに時刻の異なる第１および第２画像を入力する画像入力工程と、前記深層学習の多層構造における途中の層で、前記入力された第１画像から得られる第１中間出力と前記入力された第２画像から得られる第２中間出力との差分を求める差分処理工程と、前記第１および第２中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを実行させる。

このような目的物体検出方法および目的物体検出プログラムは、深層学習の多層構造における途中の層で、互いに異なる時刻での時系列な第１および第２画像それぞれから得られる第１および第２中間出力間の差分を求め、この求めた差分出力を前記途中の層の次層に入力するので、時系列な第１および第２画像から得られる動きの情報を利用でき、この動きの情報の利用によって、より精度良く目的物体を検出できる。この動き情報の利用の際に、第１および第２画像から前記動きの情報を得るのではなく、上記目的物体検出方法および目的物体検出プログラムは、前記第１および第２中間出力の差分を求めることによって、前記動きの情報を得ているので、処理量をより少なくできる。したがって、上記目的物体検出方法および目的物体検出プログラムは、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。

本発明にかかる目的物体検出装置、目的物体検出方法および目的物体検出プログラムは、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。

実施形態における目的物体検出装置の構成を示すブロック図である。前記目的物体検出装置における抽出部の構成を示すブロック図である。前記目的物体検出装置を実装したコンピュータの構成を示すブロック図である。前記目的物体検出装置の動作を示すフローチャートである。前記目的物体検出装置の効果を説明するための図である。

以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。

図１は、実施形態における目的物体検出装置の構成を示すブロック図である。図２は、前記目的物体検出装置における抽出部の構成を示すブロック図である。図３は、前記目的物体検出装置を実装したコンピュータの構成を示すブロック図である。

本実施形態における目的物体検出装置Ｄは、検出対象である所望の目的物体（対象物体）を機械学習で検出する装置であり、例えば、図１に示すように、画像ＩＰが入力される多層構造部１と、多層構造部１の出力に基づいて所定の目的物体を検出してその検出結果ＯＲを出力する検出処理部２とを備える。

多層構造部１は、複数ｍ（ｍは２以上の整数）の抽出部（抽出層）２１を多層構造で備える。すなわち、複数の抽出部２１は、順次に直列で接続される。これら複数の抽出部２１は、本実施形態では、その途中で前側多層構造部１１と、後側多層構造部１２とに二分され、前側多層構造部１１と後側多層構造部１２との間に、差分処理部１３が介挿されている。すなわち、多層構造部１は、これら複数の抽出部２１を途中で前側多層構造部１１と後側多層構造部１２とに二分され、それらの間に介在する差分処理部１３をさらに備える。前側多層構造部１１は、順次に直接に接続された１または複数ｋ（ｋは２以上の整数）の第１ないし第ｋ抽出部２１−１〜２１−ｋを備える。後側多層構造部１２は、順次に直接に接続された１または複数ｍ−ｋの第ｋ＋１ないし第ｍ抽出部２１−ｋ＋１〜２１−ｍを備える。

抽出部２１は、１つの層において、図２に示すように、学習によって所定の特徴量を抽出する機能を獲得する複数ｎ（ｎは２以上の整数）の第１ないし第ｎ特徴量抽出部２１１−１〜２１１−ｎを備える。すなわち、多層構造部１は、このような複数の特徴量抽出部２１１を備える抽出部２１を複数層で備える。

差分処理部１３は、前側多層構造部１１および後側多層構造部１２それぞれに接続され、前側多層構造部１１に第１画像ＩＰ−１を入力することによって前側多層構造部１１から出力される第１中間出力ＭＯ−１と、前側多層構造部１１に第１画像ＩＰ−１と時系列で第１画像ＩＰ−１と異なる時刻の第２画像ＩＰ−２を入力することによって前側多層構造部１１から出力される第２中間出力ＭＯ−１との差分を求め、その差分出力ＳＯと、第１および第２中間出力ＭＯ−１、ＭＯ−２のうちの少なくとも一方とを後側多層構造部１２へ出力する。すなわち、多層構造部１は、第１および第２中間出力ＭＯ−１、ＭＯ−２のうちの少なくとも一方と、差分処理部１３から出力される差分出力ＳＯとを後側多層構造部１２に入力させる。

このような多層構造部１と検出処理部２とは、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成される。このＣＮＮで目的物体検出装置Ｄが構成される場合では、抽出部２１は、１つの層において、図２に示すように、畳み込み層２２１と、プーリング層２２２とを備え、検出処理部２は、全結合層を備えて構成される。

畳み込み層２２１は、入力画像に対し畳み込み演算を実行する装置である。より具体的には、畳み込み層２２１は、入力画像に対し所定のカーネル（画像フィルタ）ＫＮで畳み込む（フィルタリングする）。前記カーネルＫＮは、特徴量抽出部２１１の個数に対応する複数ｎであり、これら複数のカーネルＫＮそれぞれによって入力画像が畳み込まれ、カーネルＫＮの個数に応じた複数の画像（特徴マップ）ＦＭが生成される。カーネルＫＮが多いほど、入力画像における様々な特徴を捉えることができる。カーネルＫＮのサイズは、任意であり、各抽出部２１ごとに適宜に設定される。ＣＮＮでは、学習によってカーネルＫＮが生成される。すなわち、カーネルＫＮの各要素（各フィルタ係数）の数値が学習によって自動的に設定される。これによってカーネルＫＮは、学習によって所定の特徴量を抽出する機能を獲得する。この畳み込み演算によって入力画像内のパターンが検出できるようになる。畳み込み層２２１は、当該層の抽出部２１におけるプーリング層２２２に接続され、畳み込み演算によって生成された画像である特徴マップＦＭをこのプーリング層２２２へ出力する。

プーリング層２２２は、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）の処理を実行する装置である。より具体的には、プーリング層２２２は、所定サイズの矩形フィルタを特徴マップＦＭ内で所定の画素ずつずらしながら矩形内の最大値を取り出して新たな画像（新たな特徴マップ）を生成する。このマックスプーリングの処理によって、畳み込み層２２１で生成された特徴マップＦＭが前記矩形フィルタの所定サイズおよび特徴マップＦＭ内でずらす所定の画素数に応じて縮小され、抽出される特徴の位置感度が低下される。プーリング層２２２は、次層の抽出部２１が存在する場合には、次層の抽出部２１における畳み込み層２２１に接続され、その生成した画像（新たな特徴マップ）をこの畳み込み層２２１へ出力し、次層の抽出部２１が存在せず、かつ、差分処理部１３が存在する場合（すなわち、前側多層構造部１１の最終層の第ｋ抽出部２１−ｋにおけるプーリング層２２２−ｋの場合）には、差分処理部１３に接続され、前記生成した画像（新たな特徴マップ）をこの差分処理部１３へ出力し、次層の抽出部２１が存在しない場合（すなわち、後側多層構造部１２の最終層の第ｍ抽出部２１−ｍにおけるプーリング層２２２−ｍの場合）には、検出処理部２を構成する前記全結合層に接続され、前記生成した画像（新たな特徴マップ）を前記全結合層へ出力する。

なお、上述では、プーリング層２２２は、マックスプーリングの処理を実行したが、これに代え、アベレージプーリング（ＡｖｅｒａｇｅＰｏｏｌｉｎｇ）の処理を実行しても良い。このアベレージプーリングの処理では、プーリング層２２は、矩形内の平均値を求めることにより新たな画像（新たな特徴マップ）を生成する。

これら畳み込み層２２１のカーネルＫＮは、特徴量抽出部２１１の一例に相当し、本実施形態では、さらに、プーリング層２２２を含めて特徴量抽出部２１１の一例に相当する。

前記全結合層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ層）は、１または複数の層のニューラルネットワークであり、前記ニューラルネットワークによって、多層構造部１の処理結果（後側多層構造部１２の最終層の第ｍ抽出部２１−ｍにおけるプーリング層２２２−ｍで生成された特徴マップ）に基づいて、多層構造部１（前側多層構造部１１の初層の第１抽出部２１−１における畳み込み層２２１−１）に入力された画像（入力画像）ＩＰにおける所定の目的物体を検出する装置である。前記全結合層は、例えば、複数の層にニューロンを配置したニューラルネットワークである多層パーセプトロン層等である。

このような目的物体検出装置Ｄは、一例では、図３に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ハードディスクドライブ（ＨＤＤ）３４、ＬＣＤ３６、キーボード３７、マウス３８、ＵＳＢインターフェース３９、および、これらＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ３４、ＬＣＤ３６、キーボード３７、マウス３８およびＵＳＢインターフェース３９を相互に接続するバス３５を備える、例えば、デスクトップ型やノード型のコンピュータによって構成可能である。

そして、ＲＯＭ３３またはＨＤＤ３４には、各種の所定のプログラムおよび各種の所定のデータが記憶される。前記各種の所定のプログラムには、例えば、目的物体検出装置Ｄの各部を当該各部の機能に応じてそれぞれ制御する制御プログラムや、学習によって所定の特徴量を抽出する機能を獲得する特徴量抽出プログラムや、前記特徴量抽出プログラムの実行によって形成される複数の特徴量抽出部２１１を備える抽出部２１を多層構造で複数備える多層構造部１を形成する多層構造プログラムや、前記多層構造プログラムの実行によって形成される多層構造部１の出力に基づいて所定の目的物体を検出する検出処理プログラム等が含まれる。前記多層構造プログラムは、複数の抽出部２１を途中で前側多層構造部１１と後側多層構造部１２とに二分し、前側多層構造部１１に第１画像ＩＰ−１を入力することによって前側多層構造部１１から出力される第１中間出力ＭＯ−１と、前側多層構造部１１に第１画像ＩＰ−１と時系列で第１画像ＩＰ−１と異なる時刻の第２画像ＩＰ−２を入力することによって前側多層構造部１１から出力される第２中間出力ＭＯ−２との差分を求める差分処理プログラムを備え、第１および第２中間出力ＭＯ−１、ＭＯ−２のうちの少なくとも一方と、差分処理部プログラムから出力される差分出力ＳＯとを後側多層構造部１２に入力させる。前記各種の所定のデータには、例えば機械学習に用いられる教師セット（教師データ、教師セットにおける入力画像ＩＰおよびその検出結果ＯＲ）や目的物体を検出する対象となる入力サンプルの入力画像ＩＰ等の、各プログラムを実行する上で必要なデータ等が含まれる。

そして、ＲＯＭ３３またはＨＤＤ３４に記憶された前記各種の所定のプログラムが実行されることによって、ＣＰＵ３１には、多層構造部１および検出処理部２が機能的に構成され、多層構造部１には、前側多層構造部１１、後側多層構造部１２および差分処理部１３が機能的に構成され、前側多層構造部１１には、１または複数ｋの第１ないし第ｋ抽出部２１−１〜２１−ｋが機能的に構成され、後側多層構造部１２には、１または複数ｍ−ｋの第ｋ＋１ないし第ｍ抽出部２１−ｋ＋１〜２１−ｍが機能的に構成され、複数の抽出部２１には、それぞれ、複数ｎの第１ないし第ｎ特徴量抽出部２１１−１〜２１１−ｎが機能的に構成される。目的物体検出装置ＤがＣＮＮで構成される場合では、複数の抽出部２１には、それぞれ、畳み込み層２２１およびプーリング層２２２が機能的に構成され、検出処理部２には、全結合層が機能的に構成される。

次に、本実施形態の動作について説明する。図４は、前記目的物体検出装置の動作を示すフローチャートである。

このような構成の目的物体検出装置Ｄにおいて、機械学習では、教師セットが入力され、多層構造部１および検出処理部２が機械学習され、多層構造部１の各抽出部２１における各特徴量抽出部２１１それぞれが所定の各特徴量を抽出する機能を獲得し、検出処理部２が所定の目的物体を検出する機能を獲得する。検出（分析、認識）では、入力サンプルが入力され、目的物体検出装置Ｄは、前記入力サンプルに目的物体が写り込んでいると、前記入力サンプルから目的物体を検出する。

このような機械学習や分析の際に、図４において、まず、第１画像ＩＰ−１が目的物体検出装置Ｄに入力され、多層構造部１の前側多層構造部１１は、この第１画像ＩＰ−１を第１ないし第ｋ抽出部２１−１〜２１−ｋによって順次に処理し、第１中間出力ＭＯ−１を生成し、この第１画像ＩＰ−１と時系列で第１画像ＩＰ−１と異なる時刻の第２画像ＩＰ−２が目的物体検出装置Ｄに入力され、多層構造部１の前側多層構造部１１は、この第２画像ＩＰ−２を第１ないし第ｋ抽出部２１−１〜２１−ｋによって順次に処理し、第２中間出力ＭＯ−２を生成する（Ｓ１）。

続いて、目的物体検出装置Ｄは、差分処理部１３によって、第１中間出力ＭＯ−１と第２中間出力ＭＯ−１との差分を求め、差分出力ＳＯを生成する（Ｓ２）。より具体的には、差分処理部１３は、第１中間出力ＭＯ−１と第２中間出力ＭＯ−２とに対し、同じ成分同士で差分を求め、差分出力ＳＯにおける当該成分の値を求める。例えば、目的物体検出装置ＤがＣＮＮを備えて構成される場合では、第１中間出力ＭＯ−１は、第１画像ＩＰ−１から前側多層構造部１１によって生成された第１特徴マップＦＭ−１であり、第２中間出力ＭＯ−２は、第２画像ＩＰ−２から前側多層構造部１１によって生成された第２特徴マップＦＭ−２であり、差分処理部１３は、第１特徴マップＦＭ−１と第２特徴マップＦＭ−２とに対し、同じ画素位置同士で各画素値の差分を求め、差分出力ＳＯにおける当該画素位置の画素値を求める。

続いて、このように生成された差分出力ＳＯと、第１および第２中間出力ＭＯ−１、ＭＯ−２のうちの少なくとも一方（この例では第１および第２特徴マップＦＭ−１、ＦＭ−２のうちの少なくとも一方）とは、後側多層構造部１２に入力され、目的物体検出装置Ｄは、検出処理部２によって、目的物体を検出（分析、認識）する（Ｓ３）。より具体的には、差分出力ＳＯと第１中間出力ＭＯ−１（この例では第１特徴マップＦＭ−１）とが、結合されて２チャンネルで後側多層構造部１２に入力され、多層構造部１の後側多層構造部１２は、この２チャンネルの差分出力ＳＯと第１中間出力ＭＯ−１とを第ｋ＋１ないし第ｍ抽出部２１−ｋ＋１〜２１−ｍによって順次に処理し、その処理結果を検出処理部２に出力し、検出処理部２は、後側多層構造部１２の前記処理結果に基づいて目的物体を検出する。あるいは、差分出力ＳＯと第２中間出力ＭＯ−２（この例では第２特徴マップＦＭ−２）とが、結合されて２チャンネルで後側多層構造部１２に入力され、多層構造部１の後側多層構造部１２は、この２チャンネルの差分出力ＳＯと第２中間出力ＭＯ−２とをを第ｋ＋１ないし第ｍ抽出部２１−ｋ＋１〜２１−ｍによって順次に処理し、その処理結果を検出処理部２に出力し、検出処理部２は、後側多層構造部１２の前記処理結果に基づいて目的物体を検出する。あるいは、差分出力ＳＯと第１中間出力ＭＯ−１（この例では第１特徴マップＦＭ−１）と第２中間出力ＭＯ−２（この例では第２特徴マップＦＭ−２）とが、結合されて３チャンネルで後側多層構造部１２に入力され、多層構造部１の後側多層構造部１２は、この３チャンネルの差分出力ＳＯと第１中間出力ＭＯ−１と第２中間出力ＭＯ−２とを第ｋ＋１ないし第ｍ抽出部２１−ｋ＋１〜２１−ｍによって順次に処理し、その処理結果を検出処理部２に出力し、検出処理部２は、後側多層構造部１２の前記処理結果に基づいて目的物体を検出する。

そして、目的物体検出装置Ｄは、検出処理部２による検出結果ＯＲを出力し（Ｓ４）、時系列で互いに時刻の異なる第１および第２画像ＩＰ−１、ＩＰ−２に対する本処理を終了する。

このような処理が、機械学習では教師セットの各データ（各画像）に対して実行され、検出（分析、認識）では、入力サンプルの各データ（各画像）に対して実行される。

以上説明したように、本実施形態における目的物体検出装置Ｄ、これに実装された目的物体検出方法および目的物体検出プログラムは、例えば、図５Ａに示すように、互いに異なる時刻での時系列な第１および第２画像それぞれを多層構造部１に入力することによってそれぞれ特徴抽出して前側多層構造部１１で得られる第１および第２中間出力ＭＯ−１、ＭＯ−２の差分を求め、この求めた差分出力を、第１および第２中間出力ＭＯ−１、ＭＯ−２のうちの少なくとも一方と結合して後側多層構造部１２に入力するので、時系列な第１および第２画像ＩＰ−１、ＩＰ−２から得られる動きの情報を利用でき、この動きの情報の利用によって、より精度良く目的物体を検出できる。

図５は、前記目的物体検出装置の効果を説明するための図である。図５Ａは、本実施形態の手法の場合を示し、図５Ｂは、比較例の手法の場合を示す。前記比較例の手法は、第１および第２画像ＩＰ−１、ＩＰ−２から直接差分を求めることによって、前記動きの情報として差分画像を求める手法である。

そして、前記動き情報の利用の際に、例えば、図５Ｂに示すように、第１および第２画像ＩＰ−１、ＩＰ−２から直接的に前記動きの情報を得るのではなく、上記目的物体検出装置Ｄ、目的物体検出方法および目的物体検出プログラムは、例えば、図５Ａに示すように、第１および第２中間出力ＭＯ−１、ＭＯ−２の差分を求めることによって、前記動きの情報を得ているので、処理量をより少なくできる。一例では、例えば第１および第２画像ＩＰ−１、ＩＰ−２それぞれが１２８０ピクセル×９６０ピクセルである場合、比較例の手法では、図５Ｂに示すように、前記処理量は、１２８０×９６０＝１２２８８００であるが、本実施形態の手法では、図５Ａに示すように、多層構造部１が、Ｎ個のカーネルを持ち、１／６４に画像サイズを縮小するＣＮＮの畳み込み層およびプーリング層で構成される場合、前記処理量は、２０×１５×Ｎ＝３００Ｎとなる。仮に、Ｎ＝５１２としても３００Ｎ＝１５３６００であり、前記比較例と較べると、前記処理量は、１／８となる。一般に、Ｎ個のカーネルを持ち、１／（２^２ｎ）に画像サイズを縮小するＣＮＮの畳み込み層およびプーリング層で構成される場合、前記処理量は、Ｎ／（２^２ｎ）となる。

前記特許文献１のように、差分がオプティカルフローで求められると、その計算のために、各画素ごとに、当該画素と当該画素の周辺画素とのマッチングの計算がさらに必要とされるため、前記差分を求める計算コストは、さらに増大する。また、目的物体の他に動くものが画像に含まれると、前記特許文献１では差分にノイズが含まれ、前記ノイズに反応するような特徴抽出および検出が行われる可能性があるが、本実施形態では、前側多層構造部１１で特徴抽出を実行した後に差分が求められるので、目的物体の他に動くものが画像に含まれても、その影響を受け難く、より精度良く目的物体を検出できる。

したがって、上記目的物体検出装置Ｄ、目的物体検出方法および目的物体検出プログラムは、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。

なお、上述の実施形態において、上述の、前側多層構造部１１で特徴抽出を実行した後に差分を求める観点から、前側多層構造部１１は、少なくとも２層の抽出部２１−１、２１−２を備えることが好ましい。このような目的物体検出装置Ｄは、前側多層構造部１１が少なくとも２層の抽出部２１−１、２１−２を備えるので、特徴量抽出部２１１によって或る程度特徴量を抽出した第１および第２中間出力ＭＯ−１、ＭＯ−２で差分出力ＳＯを生成でき、このような差分出力ＳＯを後側多層構造部１２は、利用できる。

本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および／または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

Ｄ目的物体検出装置
１多層構造部
２検出処理部
１１前側多層構造部
１２後側多層構造部
１３差分処理部
２１抽出部
２１１特徴抽出部
２２１畳み込み層
２２２プーリング層

Claims

学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部を多層構造で複数備える多層構造部と、
前記多層構造部の出力に基づいて所定の目的物体を検出する検出処理部とを備え、
前記多層構造部は、
前記複数の抽出部を途中で前側多層構造部と後側多層構造部とに二分され、
前記前側多層構造部に第１画像を入力することによって前記前側多層構造部から出力される第１中間出力と、前記前側多層構造部に前記第１画像と時系列で前記第１画像と異なる時刻の第２画像を入力することによって前記前側多層構造部から出力される第２中間出力との差分を求める差分処理部を備え、
前記第１および第２中間出力のうちの少なくとも一方と、前記差分処理部から出力される差分出力とを前記後側多層構造部に入力させる、
目的物体検出装置。
前記前側多層構造部は、少なくとも２層の抽出部を備える、
請求項１に記載の目的物体検出装置。
前記多層構造部と前記検出処理部とは、畳み込みニューラルネットワークである、
請求項１または請求項２に記載の目的物体検出装置。
深層学習を用いて所定の目的物体を検出する目的物体検出方法であって、
時系列で互いに時刻の異なる第１および第２画像を入力する画像入力工程と、
前記深層学習の多層構造における途中の層で、前記入力された第１画像から得られる第１中間出力と前記入力された第２画像から得られる第２中間出力との差分を求める差分処理工程と、
前記第１および第２中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを備える、
目的物体検出方法。
深層学習を用いて所定の目的物体を検出する目的物体検出プログラムであって、
コンピュータに、
時系列で互いに時刻の異なる第１および第２画像を入力する画像入力工程と、
前記深層学習の多層構造における途中の層で、前記入力された第１画像から得られる第１中間出力と前記入力された第２画像から得られる第２中間出力との差分を求める差分処理工程と、
前記第１および第２中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを実行させるための目的物体検出プログラム。