JP2019003396A - 目的物体検出装置、該方法およびプログラム - Google Patents
目的物体検出装置、該方法およびプログラム Download PDFInfo
- Publication number
- JP2019003396A JP2019003396A JP2017117433A JP2017117433A JP2019003396A JP 2019003396 A JP2019003396 A JP 2019003396A JP 2017117433 A JP2017117433 A JP 2017117433A JP 2017117433 A JP2017117433 A JP 2017117433A JP 2019003396 A JP2019003396 A JP 2019003396A
- Authority
- JP
- Japan
- Prior art keywords
- target object
- multilayer structure
- image
- output
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】本発明は、時系列な画像から得られる動きを表す動きの情報を利用でき、より少ない処理量でより精度良く目的物体を検出できる目的物体検出装置、該方法および該プログラムを提供する。
【解決手段】本発明は、学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部21を多層構造で複数備える多層構造部1と、多層構造部1の出力に基づいて所定の目的物体を検出する検出処理部2とを備え、多層構造部1は、複数の抽出部21を途中で前側多層構造部11と後側多層構造部12とに二分され、前側多層構造部11に第1画像を入力することで出力される第1中間出力と、前側多層構造部11に第1画像と時系列で時刻の異なる第2画像を入力することで出力される第2中間出力との差分を求める差分処理部13を備え、第1および第2中間出力のうちの少なくとも一方と、差分処理部13の差分出力とを後側多層構造部12に入力させる。
【選択図】図1
【解決手段】本発明は、学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部21を多層構造で複数備える多層構造部1と、多層構造部1の出力に基づいて所定の目的物体を検出する検出処理部2とを備え、多層構造部1は、複数の抽出部21を途中で前側多層構造部11と後側多層構造部12とに二分され、前側多層構造部11に第1画像を入力することで出力される第1中間出力と、前側多層構造部11に第1画像と時系列で時刻の異なる第2画像を入力することで出力される第2中間出力との差分を求める差分処理部13を備え、第1および第2中間出力のうちの少なくとも一方と、差分処理部13の差分出力とを後側多層構造部12に入力させる。
【選択図】図1
Description
本発明は、機械学習で所望の目的物体(対象物体)を検出する目的物体検出装置、目的物体検出方法および目的物体検出プログラムに関する。
機械学習は、学習データを反復的に学習することで学習モデルを人手を介さずに自動的に生成し、この生成した学習モデルを用いて学習データを分類でき、あるいは、未知のデータの分類を予測できる。このことから、機械学習は、様々な分野に応用され、研究、開発されている。特に、近年では、画像認識の認識精度が高いこと等から、畳み込みニューラルネットワーク(Convolutional Neural Network、以下、「CNN」と適宜に略記する)に代表される深層学習(ディープラーニング、Deep Learning)が注目され、研究、開発されている。
典型的な深層学習は、主として、1枚の画像から、検出したい目的の物体(目的物体)を検出するので、前記目的物体が動く物体である場合には、複数の画像から得られる、動く目的物体における動きの情報を用いることが難しい。そのため、目的物体に類似した静止物体が画像中に写り込んでいると誤検出してしまう虞がある。そこで、例えば、非特許文献1には、元画像および動き差分画像に対し、ResionProposal Networkを用いることによって候補領域を検出し、目的物体であるか否かを判定する深層学習が開示されている。
Suman Saha、et al. ,"Deep Learning for Detecting Multiple Space−Time Action Tubes in Videos",British Machine Vison Conference,2016
ところで、前記非特許文献1に開示された深層学習は、前記元画像および前記動き差分画像それぞれを元のサイズで情報処理しているため、前記情報処理の処理量が比較的多くなってしまう。また、画像に目的対象と異なるノイズ的な動きが写り込んでいる場合、前記非特許文献1に開示された深層学習は、誤検出してしまう可能性がある。
本発明は、上述の事情に鑑みて為された発明であり、その目的は、時系列な画像から得られる動きを表す動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる目的物体検出装置、目的物体検出方法および目的物体検出プログラムを提供することである。
本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる目的物体検出装置は、学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部を多層構造で複数備える多層構造部と、前記多層構造部の出力に基づいて所定の目的物体を検出する検出処理部とを備え、前記多層構造部は、前記複数の抽出部を途中で前側多層構造部と後側多層構造部とに二分され、前記前側多層構造部に第1画像を入力することによって前記前側多層構造部から出力される第1中間出力と、前記前側多層構造部に前記第1画像と時系列で前記第1画像と異なる時刻の第2画像を入力することによって前記前側多層構造部から出力される第2中間出力との差分を求める差分処理部を備え、前記第1および第2中間出力のうちの少なくとも一方と、前記差分処理部から出力される差分出力とを前記後側多層構造部に入力させる。
このような目的物体検出装置は、互いに異なる時刻での時系列な第1および第2画像それぞれを前側多層構造部に入力することによって前記前側多層構造部で得られる第1および第2中間出力の差分を求め、この求めた差分出力を後側多層構造部に入力するので、時系列な第1および第2画像から得られる動きを表す動きの情報を利用でき、この動きの情報の利用によって、より精度良く目的物体を検出できる。この動き情報の利用の際に、第1および第2画像から前記動きの情報を得るのではなく、上記目的物体検出装置は、前記第1および第2中間出力の差分を求めることによって、前記動きの情報を得ているので、処理量をより少なくできる。したがって、上記目的物体検出装置は、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。
他の一態様では、上述の目的物体検出装置において、前記前側多層構造部は、少なくとも2層の抽出部を備える。
このような目的物体検出装置は、前記前側多層構造部が少なくとも2層の抽出部を備えるので、特徴量抽出部によって或る程度特徴量を抽出した第1および第2中間出力で差分出力を生成でき、このような差分出力を後側多層構造部は、利用できる。
他の一態様では、これら上述の目的物体検出装置において、前記多層構造部と前記検出処理部とは、畳み込みニューラルネットワークである。
これによれば、畳み込みニューラルネットワークを利用した目的物体検出装置を提供できる。
本発明の他の一態様にかかる目的物検出方法は、深層学習を用いて所定の目的物体を検出する方法であって、時系列で互いに時刻の異なる第1および第2画像を入力する画像入力工程と、前記深層学習の多層構造における途中の層で、前記入力された第1画像から得られる第1中間出力と前記入力された第2画像から得られる第2中間出力との差分を求める差分処理工程と、前記第1および第2中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを備える。
本発明の他の一態様にかかる目的物検出プログラムは、深層学習を用いて所定の目的物体を検出するプログラムであって、コンピュータに、時系列で互いに時刻の異なる第1および第2画像を入力する画像入力工程と、前記深層学習の多層構造における途中の層で、前記入力された第1画像から得られる第1中間出力と前記入力された第2画像から得られる第2中間出力との差分を求める差分処理工程と、前記第1および第2中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを実行させる。
このような目的物体検出方法および目的物体検出プログラムは、深層学習の多層構造における途中の層で、互いに異なる時刻での時系列な第1および第2画像それぞれから得られる第1および第2中間出力間の差分を求め、この求めた差分出力を前記途中の層の次層に入力するので、時系列な第1および第2画像から得られる動きの情報を利用でき、この動きの情報の利用によって、より精度良く目的物体を検出できる。この動き情報の利用の際に、第1および第2画像から前記動きの情報を得るのではなく、上記目的物体検出方法および目的物体検出プログラムは、前記第1および第2中間出力の差分を求めることによって、前記動きの情報を得ているので、処理量をより少なくできる。したがって、上記目的物体検出方法および目的物体検出プログラムは、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。
本発明にかかる目的物体検出装置、目的物体検出方法および目的物体検出プログラムは、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。
以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
図1は、実施形態における目的物体検出装置の構成を示すブロック図である。図2は、前記目的物体検出装置における抽出部の構成を示すブロック図である。図3は、前記目的物体検出装置を実装したコンピュータの構成を示すブロック図である。
本実施形態における目的物体検出装置Dは、検出対象である所望の目的物体(対象物体)を機械学習で検出する装置であり、例えば、図1に示すように、画像IPが入力される多層構造部1と、多層構造部1の出力に基づいて所定の目的物体を検出してその検出結果ORを出力する検出処理部2とを備える。
多層構造部1は、複数m(mは2以上の整数)の抽出部(抽出層)21を多層構造で備える。すなわち、複数の抽出部21は、順次に直列で接続される。これら複数の抽出部21は、本実施形態では、その途中で前側多層構造部11と、後側多層構造部12とに二分され、前側多層構造部11と後側多層構造部12との間に、差分処理部13が介挿されている。すなわち、多層構造部1は、これら複数の抽出部21を途中で前側多層構造部11と後側多層構造部12とに二分され、それらの間に介在する差分処理部13をさらに備える。前側多層構造部11は、順次に直接に接続された1または複数k(kは2以上の整数)の第1ないし第k抽出部21−1〜21−kを備える。後側多層構造部12は、順次に直接に接続された1または複数m−kの第k+1ないし第m抽出部21−k+1〜21−mを備える。
抽出部21は、1つの層において、図2に示すように、学習によって所定の特徴量を抽出する機能を獲得する複数n(nは2以上の整数)の第1ないし第n特徴量抽出部211−1〜211−nを備える。すなわち、多層構造部1は、このような複数の特徴量抽出部211を備える抽出部21を複数層で備える。
差分処理部13は、前側多層構造部11および後側多層構造部12それぞれに接続され、前側多層構造部11に第1画像IP−1を入力することによって前側多層構造部11から出力される第1中間出力MO−1と、前側多層構造部11に第1画像IP−1と時系列で第1画像IP−1と異なる時刻の第2画像IP−2を入力することによって前側多層構造部11から出力される第2中間出力MO−1との差分を求め、その差分出力SOと、第1および第2中間出力MO−1、MO−2のうちの少なくとも一方とを後側多層構造部12へ出力する。すなわち、多層構造部1は、第1および第2中間出力MO−1、MO−2のうちの少なくとも一方と、差分処理部13から出力される差分出力SOとを後側多層構造部12に入力させる。
このような多層構造部1と検出処理部2とは、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)で構成される。このCNNで目的物体検出装置Dが構成される場合では、抽出部21は、1つの層において、図2に示すように、畳み込み層221と、プーリング層222とを備え、検出処理部2は、全結合層を備えて構成される。
畳み込み層221は、入力画像に対し畳み込み演算を実行する装置である。より具体的には、畳み込み層221は、入力画像に対し所定のカーネル(画像フィルタ)KNで畳み込む(フィルタリングする)。前記カーネルKNは、特徴量抽出部211の個数に対応する複数nであり、これら複数のカーネルKNそれぞれによって入力画像が畳み込まれ、カーネルKNの個数に応じた複数の画像(特徴マップ)FMが生成される。カーネルKNが多いほど、入力画像における様々な特徴を捉えることができる。カーネルKNのサイズは、任意であり、各抽出部21ごとに適宜に設定される。CNNでは、学習によってカーネルKNが生成される。すなわち、カーネルKNの各要素(各フィルタ係数)の数値が学習によって自動的に設定される。これによってカーネルKNは、学習によって所定の特徴量を抽出する機能を獲得する。この畳み込み演算によって入力画像内のパターンが検出できるようになる。畳み込み層221は、当該層の抽出部21におけるプーリング層222に接続され、畳み込み演算によって生成された画像である特徴マップFMをこのプーリング層222へ出力する。
プーリング層222は、マックスプーリング(maxpooling)の処理を実行する装置である。より具体的には、プーリング層222は、所定サイズの矩形フィルタを特徴マップFM内で所定の画素ずつずらしながら矩形内の最大値を取り出して新たな画像(新たな特徴マップ)を生成する。このマックスプーリングの処理によって、畳み込み層221で生成された特徴マップFMが前記矩形フィルタの所定サイズおよび特徴マップFM内でずらす所定の画素数に応じて縮小され、抽出される特徴の位置感度が低下される。プーリング層222は、次層の抽出部21が存在する場合には、次層の抽出部21における畳み込み層221に接続され、その生成した画像(新たな特徴マップ)をこの畳み込み層221へ出力し、次層の抽出部21が存在せず、かつ、差分処理部13が存在する場合(すなわち、前側多層構造部11の最終層の第k抽出部21−kにおけるプーリング層222−kの場合)には、差分処理部13に接続され、前記生成した画像(新たな特徴マップ)をこの差分処理部13へ出力し、次層の抽出部21が存在しない場合(すなわち、後側多層構造部12の最終層の第m抽出部21−mにおけるプーリング層222−mの場合)には、検出処理部2を構成する前記全結合層に接続され、前記生成した画像(新たな特徴マップ)を前記全結合層へ出力する。
なお、上述では、プーリング層222は、マックスプーリングの処理を実行したが、これに代え、アベレージプーリング(AveragePooling)の処理を実行しても良い。このアベレージプーリングの処理では、プーリング層22は、矩形内の平均値を求めることにより新たな画像(新たな特徴マップ)を生成する。
これら畳み込み層221のカーネルKNは、特徴量抽出部211の一例に相当し、本実施形態では、さらに、プーリング層222を含めて特徴量抽出部211の一例に相当する。
前記全結合層(Fully Connected層)は、1または複数の層のニューラルネットワークであり、前記ニューラルネットワークによって、多層構造部1の処理結果(後側多層構造部12の最終層の第m抽出部21−mにおけるプーリング層222−mで生成された特徴マップ)に基づいて、多層構造部1(前側多層構造部11の初層の第1抽出部21−1における畳み込み層221−1)に入力された画像(入力画像)IPにおける所定の目的物体を検出する装置である。前記全結合層は、例えば、複数の層にニューロンを配置したニューラルネットワークである多層パーセプトロン層等である。
このような目的物体検出装置Dは、一例では、図3に示すように、CPU31、RAM32、ROM33、ハードディスクドライブ(HDD)34、LCD36、キーボード37、マウス38、USBインターフェース39、および、これらCPU31、RAM32、ROM33、HDD34、LCD36、キーボード37、マウス38およびUSBインターフェース39を相互に接続するバス35を備える、例えば、デスクトップ型やノード型のコンピュータによって構成可能である。
そして、ROM33またはHDD34には、各種の所定のプログラムおよび各種の所定のデータが記憶される。前記各種の所定のプログラムには、例えば、目的物体検出装置Dの各部を当該各部の機能に応じてそれぞれ制御する制御プログラムや、学習によって所定の特徴量を抽出する機能を獲得する特徴量抽出プログラムや、前記特徴量抽出プログラムの実行によって形成される複数の特徴量抽出部211を備える抽出部21を多層構造で複数備える多層構造部1を形成する多層構造プログラムや、前記多層構造プログラムの実行によって形成される多層構造部1の出力に基づいて所定の目的物体を検出する検出処理プログラム等が含まれる。前記多層構造プログラムは、複数の抽出部21を途中で前側多層構造部11と後側多層構造部12とに二分し、前側多層構造部11に第1画像IP−1を入力することによって前側多層構造部11から出力される第1中間出力MO−1と、前側多層構造部11に第1画像IP−1と時系列で第1画像IP−1と異なる時刻の第2画像IP−2を入力することによって前側多層構造部11から出力される第2中間出力MO−2との差分を求める差分処理プログラムを備え、第1および第2中間出力MO−1、MO−2のうちの少なくとも一方と、差分処理部プログラムから出力される差分出力SOとを後側多層構造部12に入力させる。前記各種の所定のデータには、例えば機械学習に用いられる教師セット(教師データ、教師セットにおける入力画像IPおよびその検出結果OR)や目的物体を検出する対象となる入力サンプルの入力画像IP等の、各プログラムを実行する上で必要なデータ等が含まれる。
そして、ROM33またはHDD34に記憶された前記各種の所定のプログラムが実行されることによって、CPU31には、多層構造部1および検出処理部2が機能的に構成され、多層構造部1には、前側多層構造部11、後側多層構造部12および差分処理部13が機能的に構成され、前側多層構造部11には、1または複数kの第1ないし第k抽出部21−1〜21−kが機能的に構成され、後側多層構造部12には、1または複数m−kの第k+1ないし第m抽出部21−k+1〜21−mが機能的に構成され、複数の抽出部21には、それぞれ、複数nの第1ないし第n特徴量抽出部211−1〜211−nが機能的に構成される。目的物体検出装置DがCNNで構成される場合では、複数の抽出部21には、それぞれ、畳み込み層221およびプーリング層222が機能的に構成され、検出処理部2には、全結合層が機能的に構成される。
次に、本実施形態の動作について説明する。図4は、前記目的物体検出装置の動作を示すフローチャートである。
このような構成の目的物体検出装置Dにおいて、機械学習では、教師セットが入力され、多層構造部1および検出処理部2が機械学習され、多層構造部1の各抽出部21における各特徴量抽出部211それぞれが所定の各特徴量を抽出する機能を獲得し、検出処理部2が所定の目的物体を検出する機能を獲得する。検出(分析、認識)では、入力サンプルが入力され、目的物体検出装置Dは、前記入力サンプルに目的物体が写り込んでいると、前記入力サンプルから目的物体を検出する。
このような機械学習や分析の際に、図4において、まず、第1画像IP−1が目的物体検出装置Dに入力され、多層構造部1の前側多層構造部11は、この第1画像IP−1を第1ないし第k抽出部21−1〜21−kによって順次に処理し、第1中間出力MO−1を生成し、この第1画像IP−1と時系列で第1画像IP−1と異なる時刻の第2画像IP−2が目的物体検出装置Dに入力され、多層構造部1の前側多層構造部11は、この第2画像IP−2を第1ないし第k抽出部21−1〜21−kによって順次に処理し、第2中間出力MO−2を生成する(S1)。
続いて、目的物体検出装置Dは、差分処理部13によって、第1中間出力MO−1と第2中間出力MO−1との差分を求め、差分出力SOを生成する(S2)。より具体的には、差分処理部13は、第1中間出力MO−1と第2中間出力MO−2とに対し、同じ成分同士で差分を求め、差分出力SOにおける当該成分の値を求める。例えば、目的物体検出装置DがCNNを備えて構成される場合では、第1中間出力MO−1は、第1画像IP−1から前側多層構造部11によって生成された第1特徴マップFM−1であり、第2中間出力MO−2は、第2画像IP−2から前側多層構造部11によって生成された第2特徴マップFM−2であり、差分処理部13は、第1特徴マップFM−1と第2特徴マップFM−2とに対し、同じ画素位置同士で各画素値の差分を求め、差分出力SOにおける当該画素位置の画素値を求める。
続いて、このように生成された差分出力SOと、第1および第2中間出力MO−1、MO−2のうちの少なくとも一方(この例では第1および第2特徴マップFM−1、FM−2のうちの少なくとも一方)とは、後側多層構造部12に入力され、目的物体検出装置Dは、検出処理部2によって、目的物体を検出(分析、認識)する(S3)。より具体的には、差分出力SOと第1中間出力MO−1(この例では第1特徴マップFM−1)とが、結合されて2チャンネルで後側多層構造部12に入力され、多層構造部1の後側多層構造部12は、この2チャンネルの差分出力SOと第1中間出力MO−1とを第k+1ないし第m抽出部21−k+1〜21−mによって順次に処理し、その処理結果を検出処理部2に出力し、検出処理部2は、後側多層構造部12の前記処理結果に基づいて目的物体を検出する。あるいは、差分出力SOと第2中間出力MO−2(この例では第2特徴マップFM−2)とが、結合されて2チャンネルで後側多層構造部12に入力され、多層構造部1の後側多層構造部12は、この2チャンネルの差分出力SOと第2中間出力MO−2とをを第k+1ないし第m抽出部21−k+1〜21−mによって順次に処理し、その処理結果を検出処理部2に出力し、検出処理部2は、後側多層構造部12の前記処理結果に基づいて目的物体を検出する。あるいは、差分出力SOと第1中間出力MO−1(この例では第1特徴マップFM−1)と第2中間出力MO−2(この例では第2特徴マップFM−2)とが、結合されて3チャンネルで後側多層構造部12に入力され、多層構造部1の後側多層構造部12は、この3チャンネルの差分出力SOと第1中間出力MO−1と第2中間出力MO−2とを第k+1ないし第m抽出部21−k+1〜21−mによって順次に処理し、その処理結果を検出処理部2に出力し、検出処理部2は、後側多層構造部12の前記処理結果に基づいて目的物体を検出する。
そして、目的物体検出装置Dは、検出処理部2による検出結果ORを出力し(S4)、時系列で互いに時刻の異なる第1および第2画像IP−1、IP−2に対する本処理を終了する。
このような処理が、機械学習では教師セットの各データ(各画像)に対して実行され、検出(分析、認識)では、入力サンプルの各データ(各画像)に対して実行される。
以上説明したように、本実施形態における目的物体検出装置D、これに実装された目的物体検出方法および目的物体検出プログラムは、例えば、図5Aに示すように、互いに異なる時刻での時系列な第1および第2画像それぞれを多層構造部1に入力することによってそれぞれ特徴抽出して前側多層構造部11で得られる第1および第2中間出力MO−1、MO−2の差分を求め、この求めた差分出力を、第1および第2中間出力MO−1、MO−2のうちの少なくとも一方と結合して後側多層構造部12に入力するので、時系列な第1および第2画像IP−1、IP−2から得られる動きの情報を利用でき、この動きの情報の利用によって、より精度良く目的物体を検出できる。
図5は、前記目的物体検出装置の効果を説明するための図である。図5Aは、本実施形態の手法の場合を示し、図5Bは、比較例の手法の場合を示す。前記比較例の手法は、第1および第2画像IP−1、IP−2から直接差分を求めることによって、前記動きの情報として差分画像を求める手法である。
そして、前記動き情報の利用の際に、例えば、図5Bに示すように、第1および第2画像IP−1、IP−2から直接的に前記動きの情報を得るのではなく、上記目的物体検出装置D、目的物体検出方法および目的物体検出プログラムは、例えば、図5Aに示すように、第1および第2中間出力MO−1、MO−2の差分を求めることによって、前記動きの情報を得ているので、処理量をより少なくできる。一例では、例えば第1および第2画像IP−1、IP−2それぞれが1280ピクセル×960ピクセルである場合、比較例の手法では、図5Bに示すように、前記処理量は、1280×960=1228800であるが、本実施形態の手法では、図5Aに示すように、多層構造部1が、N個のカーネルを持ち、1/64に画像サイズを縮小するCNNの畳み込み層およびプーリング層で構成される場合、前記処理量は、20×15×N=300Nとなる。仮に、N=512としても300N=153600であり、前記比較例と較べると、前記処理量は、1/8となる。一般に、N個のカーネルを持ち、1/(22n)に画像サイズを縮小するCNNの畳み込み層およびプーリング層で構成される場合、前記処理量は、N/(22n)となる。
前記特許文献1のように、差分がオプティカルフローで求められると、その計算のために、各画素ごとに、当該画素と当該画素の周辺画素とのマッチングの計算がさらに必要とされるため、前記差分を求める計算コストは、さらに増大する。また、目的物体の他に動くものが画像に含まれると、前記特許文献1では差分にノイズが含まれ、前記ノイズに反応するような特徴抽出および検出が行われる可能性があるが、本実施形態では、前側多層構造部11で特徴抽出を実行した後に差分が求められるので、目的物体の他に動くものが画像に含まれても、その影響を受け難く、より精度良く目的物体を検出できる。
したがって、上記目的物体検出装置D、目的物体検出方法および目的物体検出プログラムは、時系列な画像から得られる動きの情報を利用でき、より少ない処理量で、より精度良く目的物体を検出できる。
なお、上述の実施形態において、上述の、前側多層構造部11で特徴抽出を実行した後に差分を求める観点から、前側多層構造部11は、少なくとも2層の抽出部21−1、21−2を備えることが好ましい。このような目的物体検出装置Dは、前側多層構造部11が少なくとも2層の抽出部21−1、21−2を備えるので、特徴量抽出部211によって或る程度特徴量を抽出した第1および第2中間出力MO−1、MO−2で差分出力SOを生成でき、このような差分出力SOを後側多層構造部12は、利用できる。
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
D 目的物体検出装置
1 多層構造部
2 検出処理部
11 前側多層構造部
12 後側多層構造部
13 差分処理部
21 抽出部
211 特徴抽出部
221 畳み込み層
222 プーリング層
1 多層構造部
2 検出処理部
11 前側多層構造部
12 後側多層構造部
13 差分処理部
21 抽出部
211 特徴抽出部
221 畳み込み層
222 プーリング層
Claims (5)
- 学習によって所定の特徴量を抽出する機能を獲得する複数の特徴量抽出部を備える抽出部を多層構造で複数備える多層構造部と、
前記多層構造部の出力に基づいて所定の目的物体を検出する検出処理部とを備え、
前記多層構造部は、
前記複数の抽出部を途中で前側多層構造部と後側多層構造部とに二分され、
前記前側多層構造部に第1画像を入力することによって前記前側多層構造部から出力される第1中間出力と、前記前側多層構造部に前記第1画像と時系列で前記第1画像と異なる時刻の第2画像を入力することによって前記前側多層構造部から出力される第2中間出力との差分を求める差分処理部を備え、
前記第1および第2中間出力のうちの少なくとも一方と、前記差分処理部から出力される差分出力とを前記後側多層構造部に入力させる、
目的物体検出装置。 - 前記前側多層構造部は、少なくとも2層の抽出部を備える、
請求項1に記載の目的物体検出装置。 - 前記多層構造部と前記検出処理部とは、畳み込みニューラルネットワークである、
請求項1または請求項2に記載の目的物体検出装置。 - 深層学習を用いて所定の目的物体を検出する目的物体検出方法であって、
時系列で互いに時刻の異なる第1および第2画像を入力する画像入力工程と、
前記深層学習の多層構造における途中の層で、前記入力された第1画像から得られる第1中間出力と前記入力された第2画像から得られる第2中間出力との差分を求める差分処理工程と、
前記第1および第2中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを備える、
目的物体検出方法。 - 深層学習を用いて所定の目的物体を検出する目的物体検出プログラムであって、
コンピュータに、
時系列で互いに時刻の異なる第1および第2画像を入力する画像入力工程と、
前記深層学習の多層構造における途中の層で、前記入力された第1画像から得られる第1中間出力と前記入力された第2画像から得られる第2中間出力との差分を求める差分処理工程と、
前記第1および第2中間出力のうちの少なくとも一方と、前記差分処理工程で求められた差分出力とを前記深層学習の多層構造における前記途中の層の次層へ入力させる途中入力工程とを実行させるための目的物体検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117433A JP2019003396A (ja) | 2017-06-15 | 2017-06-15 | 目的物体検出装置、該方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117433A JP2019003396A (ja) | 2017-06-15 | 2017-06-15 | 目的物体検出装置、該方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019003396A true JP2019003396A (ja) | 2019-01-10 |
Family
ID=65005984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017117433A Pending JP2019003396A (ja) | 2017-06-15 | 2017-06-15 | 目的物体検出装置、該方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019003396A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020235059A1 (ja) * | 2019-05-22 | 2020-11-26 | 日本電気株式会社 | 画像認識システム、画像認識装置、画像認識方法、及びコンピュータ可読媒体 |
WO2021084797A1 (ja) | 2019-10-29 | 2021-05-06 | 三菱電機株式会社 | 物体検出装置、物体検出方法、物体検出プログラム及び学習装置 |
JPWO2021106174A1 (ja) * | 2019-11-29 | 2021-06-03 | ||
WO2021149327A1 (ja) | 2020-01-22 | 2021-07-29 | 三菱電機株式会社 | 物体検出装置、物体検出方法及び物体検出プログラム |
WO2022039114A1 (ja) | 2020-08-20 | 2022-02-24 | 株式会社医療情報技術研究所 | 分類システム |
CN114612791A (zh) * | 2022-05-11 | 2022-06-10 | 西南民族大学 | 一种基于改进注意力机制的目标检测方法及装置 |
WO2022249927A1 (ja) | 2021-05-28 | 2022-12-01 | 株式会社医療情報技術研究所 | 分類システム |
US11544563B2 (en) | 2017-12-19 | 2023-01-03 | Olympus Corporation | Data processing method and data processing device |
-
2017
- 2017-06-15 JP JP2017117433A patent/JP2019003396A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544563B2 (en) | 2017-12-19 | 2023-01-03 | Olympus Corporation | Data processing method and data processing device |
JPWO2020235059A1 (ja) * | 2019-05-22 | 2020-11-26 | ||
WO2020235059A1 (ja) * | 2019-05-22 | 2020-11-26 | 日本電気株式会社 | 画像認識システム、画像認識装置、画像認識方法、及びコンピュータ可読媒体 |
US11989924B2 (en) | 2019-05-22 | 2024-05-21 | Nec Corporation | Image recognition system, image recognition apparatus, image recognition method, and computer readable medium |
WO2021084797A1 (ja) | 2019-10-29 | 2021-05-06 | 三菱電機株式会社 | 物体検出装置、物体検出方法、物体検出プログラム及び学習装置 |
JPWO2021106174A1 (ja) * | 2019-11-29 | 2021-06-03 | ||
WO2021106174A1 (ja) * | 2019-11-29 | 2021-06-03 | オリンパス株式会社 | 画像処理方法、学習装置及び画像処理装置 |
US12026935B2 (en) | 2019-11-29 | 2024-07-02 | Olympus Corporation | Image processing method, training device, and image processing device |
JP7231762B2 (ja) | 2019-11-29 | 2023-03-01 | オリンパス株式会社 | 画像処理方法、学習装置、画像処理装置及びプログラム |
WO2021149327A1 (ja) | 2020-01-22 | 2021-07-29 | 三菱電機株式会社 | 物体検出装置、物体検出方法及び物体検出プログラム |
WO2022039114A1 (ja) | 2020-08-20 | 2022-02-24 | 株式会社医療情報技術研究所 | 分類システム |
WO2022249927A1 (ja) | 2021-05-28 | 2022-12-01 | 株式会社医療情報技術研究所 | 分類システム |
CN114612791B (zh) * | 2022-05-11 | 2022-07-29 | 西南民族大学 | 一种基于改进注意力机制的目标检测方法及装置 |
CN114612791A (zh) * | 2022-05-11 | 2022-06-10 | 西南民族大学 | 一种基于改进注意力机制的目标检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019003396A (ja) | 目的物体検出装置、該方法およびプログラム | |
US9633282B2 (en) | Cross-trained convolutional neural networks using multimodal images | |
CN109145766B (zh) | 模型训练方法、装置、识别方法、电子设备及存储介质 | |
US11755889B2 (en) | Method, system and apparatus for pattern recognition | |
CN108345827B (zh) | 识别文档方向的方法、系统和神经网络 | |
JP2020119510A (ja) | フィンガーチップモーションパターンのリアルタイムのジェスチャへのオンデバイス分類 | |
WO2016054779A1 (en) | Spatial pyramid pooling networks for image processing | |
KR20160096460A (ko) | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 | |
Galdran et al. | Double encoder-decoder networks for gastrointestinal polyp segmentation | |
US20210232810A1 (en) | Automated monitoring system for biomechanical postural assessment | |
CN109086690B (zh) | 图像特征提取方法、目标识别方法及对应装置 | |
JP2017010475A (ja) | プログラム生成装置、プログラム生成方法および生成プログラム | |
JP6989450B2 (ja) | 画像解析装置、画像解析方法及びプログラム | |
JP2021096850A (ja) | 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体 | |
CN110210480A (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
Xu et al. | Tackling small data challenges in visual fire detection: a deep convolutional generative adversarial network approach | |
Bianco et al. | Multiscale fully convolutional network for image saliency | |
Zhong et al. | Multi-view hand-hygiene recognition for food safety | |
Ge et al. | Camouflaged object detection via cross-level refinement and interaction network | |
CN108875498B (zh) | 用于行人重识别的方法、装置及计算机存储介质 | |
Anjali et al. | Object Detection Using Mask R-CNN on a Custom Dataset of Tumbling Satellite | |
JP7391907B2 (ja) | 異常検出装置、異常検出方法、および異常検出プログラム | |
CN110880182B (zh) | 图像分割模型训练方法、图像分割方法、装置及电子设备 | |
JP7236062B2 (ja) | 学習装置、学習方法及び学習プログラム | |
Rodin et al. | Document image quality assessment via explicit blur and text size estimation |