JP7119910B2 - 検出方法、検出プログラムおよび検出装置 - Google Patents

検出方法、検出プログラムおよび検出装置 Download PDF

Info

Publication number
JP7119910B2
JP7119910B2 JP2018204393A JP2018204393A JP7119910B2 JP 7119910 B2 JP7119910 B2 JP 7119910B2 JP 2018204393 A JP2018204393 A JP 2018204393A JP 2018204393 A JP2018204393 A JP 2018204393A JP 7119910 B2 JP7119910 B2 JP 7119910B2
Authority
JP
Japan
Prior art keywords
image data
detection
image
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018204393A
Other languages
English (en)
Other versions
JP2020071615A (ja
Inventor
利生 遠藤
圭造 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018204393A priority Critical patent/JP7119910B2/ja
Priority to US16/660,743 priority patent/US11210513B2/en
Publication of JP2020071615A publication Critical patent/JP2020071615A/ja
Application granted granted Critical
Publication of JP7119910B2 publication Critical patent/JP7119910B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Description

本発明は、検出方法、検出プログラムおよび検出装置に関する。
近年、ディープラーニングを用いて画像データから物体を検出することが行われている。このような物体検出では、例えば、自動車や人物等といった画像データとラベルとを訓練データとして学習し、学習済モデルを用いてテストデータから検出対象の物体を検出する。ところが、テストデータには、例えば、自動車の後ろに立つ人物等のように、物体同士で遮蔽されることがある。この場合、複数の物体の組み合わせを含む訓練データを用いると、訓練データの数が膨大になる。これに対し、物体ごとの訓練データを用いて学習し、物体ごとに検出を行うことが考えられる。しかしながら、物体同士の遮蔽がある場合、検出精度が下がるという問題がある。
また、物体同士の遮蔽がある場合について、物体の一部分を検出する検出器を複数用意し、それぞれの検出結果から物体の共通する特定部分を推定し、推定結果が一致する場合に検出結果を出力することが提案されている。
特開2013-210968号公報
しかしながら、遮蔽のため物体の一部分しか検出できない場合に、1つの検出器だけが物体を検出すると、推定結果が一致しないため最終的な検出に失敗することがある。このため、遮蔽を含む画像データに対する検出精度が低下する場合がある。
一つの側面では、遮蔽を含む画像データに対する検出精度を向上できる検出方法、検出プログラムおよび検出装置を提供することにある。
一つの態様では、検出方法は、画像データから、該画像データに含まれる対象物の種類と位置を検出する処理をコンピュータが実行する。つまり、検出方法は、前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する処理をコンピュータが実行する。検出方法は、生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定する処理をコンピュータが実行する。検出方法は、特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定する処理をコンピュータが実行する。検出方法は、特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する処理をコンピュータが実行する。
遮蔽を含む画像データに対する検出精度を向上できる。
図1は、実施例1の検出装置の構成の一例を示すブロック図である。 図2は、物体ごとの訓練データを用いた場合において検出精度が低下する場合の一例を示す図である。 図3は、物体の一部分を訓練データとした場合において検出精度が低下する場合の一例を示す図である。 図4は、複数の検出器を用いた推定結果が一致しない場合の一例を示す図である。 図5は、訓練データ記憶部の一例を示す図である。 図6は、学習済モデル記憶部の各予測器の学習結果の一例を示す図である。 図7は、訓練データの一例を示す図である。 図8は、各予測器の入出力情報の一例を示す図である。 図9は、物体の全体画像の予測の一例を示す図である。 図10は、予測器の出力の一例を示す図である。 図11は、入力画像に着目した場合の物体検出の流れを説明する図である。 図12は、物体の予測画像の生成の一例を示す図である。 図13は、入力画像と予測画像との比較の一例を示す図である。 図14は、検出結果の一例を示す図である。 図15は、2回目の物体の予測画像の生成の一例を示す図である。 図16は、2回目の入力画像と予測画像との比較の一例を示す図である。 図17は、2回目の検出結果の一例を示す図である。 図18は、3回目の物体の予測画像の生成において物体が無い場合の一例を示す図である。 図19は、比較結果に基づく検出候補の一例を示す図である。 図20は、実施例1の学習処理の一例を示すフローチャートである。 図21は、実施例1の検出処理の一例を示すフローチャートである。 図22は、実施例1の予測処理の一例を示すフローチャートである。 図23は、実施例2の検出装置の構成の一例を示すブロック図である。 図24は、検出プログラムを実行するコンピュータの一例を示す図である。
以下、図面に基づいて、本願の開示する検出方法、検出プログラムおよび検出装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組みあわせてもよい。
図1は、実施例1の検出装置の構成の一例を示すブロック図である。図1に示す検出装置100は、機械学習を用いて画像から物体を検出する情報処理装置である。検出装置100は、画像データから、該画像データに含まれる対象物の種類と位置を検出する。つまり、検出装置100は、対象物の一部に対応する切り出し画像データおよび存在領域と、対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する。検出装置100は、生成した学習済モデルに対する画像データの一部の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域を特定する。検出装置100は、特定した全体画像データと、画像データとの存在領域内での比較結果に基づいて、画像データにおける対象物の位置を特定する。検出装置100は、特定した存在領域を、画像データ上で無効化した画像データを生成する。これにより、検出装置100は、遮蔽を含む画像データに対する検出精度を向上できる。
まず、図2および図3を用いて、検出精度が低下する場合について説明する。なお、以下の説明では、画像データを単に画像と表現する場合がある。図2は、物体ごとの訓練データを用いた場合において検出精度が低下する場合の一例を示す図である。図2の例では、物体1、物体2および物体3を、それぞれ訓練データとして学習した検出器を用いる。この場合、検出器は、テストデータとして物体1が物体3で遮蔽されている画像データが入力されると、物体1が物体3で遮蔽されているため、物体1の訓練データとの類似性が低下するので、物体1の検出精度が低下する。また、検出器は、テストデータとして物体2が物体3で遮蔽されている画像データが入力されると、物体2が物体3で遮蔽されているため、物体2の訓練データとの類似性が低下するので、物体2の検出精度が低下する。このような遮蔽による検出精度の低下に対応するために、物体の一部分を訓練データとすることが考えられる。
図3は、物体の一部分を訓練データとした場合において検出精度が低下する場合の一例を示す図である。図3の例では、物体1の一部と、物体2の一部とを訓練データとした場合である。なお、物体1の一部と物体2の一部とは、角が丸くなっているか否か、および、外形線があるか否かが異なっている。この場合、図2のテストデータに対しては、訓練データとの類似性は高くなるが、物体1と物体2との区別が困難となるので、物体1および物体2の検出精度が低下することになる。なお、物体の一部分を訓練データとする場合、遮蔽されない部分にぴったり合うような訓練データを事前に生成することは難しい。従って、一般的には、訓練データの物体の一部分は、物体全体と比較してかなり小さくすることが求められる。
また、図4を用いて、従来技術において、1つの検出器だけが物体を検出して最終的な検出に失敗する場合を説明する。図4は、複数の検出器を用いた推定結果が一致しない場合の一例を示す図である。図4に示すように、対象物10は、人物11と車12とが組み合わさったものである。図4の例では、人物11の全身を検出する検出器と、人物11の顔を検出する検出器とを用いた場合、全身検出では、人物11の下半身が車12で遮蔽されているので頭部推定の結果が検出失敗となる。一方、顔検出では、人物11の上半身が遮蔽されていないので、頭部推定の結果が検出成功となる。推定結果の一致判定では、全身検出で検出失敗となっているため、顔検出の検出成功と一致せず、最終的な検出結果は、検出失敗となる。すなわち、従来技術では、遮蔽のために物体の一部分しか検出できない場合に、物体検出に失敗することになる。
次に、実施例1の検出装置100の構成について説明する。図1に示すように、検出装置100は、通信部110と、表示部111と、操作部112と、記憶部120と、制御部130とを有する。なお、検出装置100は、図1に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークを介して他の情報処理装置と有線または無線で接続され、他の情報処理装置との間で情報の通信を司る通信インタフェースである。通信部110は、他の情報処理装置から訓練データおよびテストデータを受信する。通信部110は、受信した訓練データおよびテストデータを制御部130に出力する。
表示部111は、各種情報を表示するための表示デバイスである。表示部111は、例えば、表示デバイスとして液晶ディスプレイ等によって実現される。表示部111は、制御部130から入力された表示画面等の各種画面を表示する。
操作部112は、検出装置100のユーザから各種操作を受け付ける入力デバイスである。操作部112は、例えば、入力デバイスとして、キーボードやマウス等によって実現される。操作部112は、ユーザによって入力された操作を操作情報として制御部130に出力する。なお、操作部112は、入力デバイスとして、タッチパネル等によって実現されるようにしてもよく、表示部111の表示デバイスと、操作部112の入力デバイスとは、一体化されるようにしてもよい。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部120は、訓練データ記憶部121と、学習済モデル記憶部122と、テストデータ記憶部123とを有する。また、記憶部120は、制御部130での処理に用いる情報を記憶する。
訓練データ記憶部121は、物体の一部の画像(切り出し画像)およびマスクと、物体全体の画像(全体画像)およびマスクとを対応付けた訓練データを記憶する。なお、マスクは、物体の一部または物体全体の画像データにおける存在領域を表す。図5は、訓練データ記憶部の一例を示す図である。図5に示すように、訓練データ記憶部121は、「物体番号」、「データ番号」、「切り出し画像」、「切り出しマスク」、「元画像」、「元マスク」といった項目を有する。
「物体番号」は、検出対象の物体(対象物)を識別する識別子である。「データ番号」は、1つの物体から、物体の一部に対応する複数の切り出し画像を切り出した場合の各切り出し画像データを識別する識別子である。「切り出し画像」は、物体の一部に対応する切り出し画像データを示す情報である。「切り出しマスク」は、切り出し画像データに対応する領域(存在領域)を示す情報である。「元画像」は、物体全体に対応する全体画像データを示す情報である。「元マスク」は、全体画像データに対応する領域(存在領域)を示す情報である。
学習済モデル記憶部122は、対象物について、切り出し画像データおよび存在領域と、全体画像データおよび存在領域とを対応付けた訓練データを機械学習で学習させた学習済モデルを記憶する。学習済モデルは、各物体について、切り出し画像データおよび存在領域の入力に基づいて、当該物体の全体画像データおよび存在領域を出力する。つまり、学習済モデルは、各物体に対応する予測器の学習パラメータの集合である。また、学習済モデルは、画像の各画素、および、存在領域に対応するマスクを特徴量として、ニューラルネットワークを用いて深層学習を行ったものである。ニューラルネットワークとしては、例えば、CNN(Convolutional Neural Network)を用いることができる。つまり、学習済モデル記憶部122は、例えば、学習パラメータとしてニューラルネットワークの各種パラメータ(重み係数)等を記憶する。
図6は、学習済モデル記憶部の各予測器の学習結果の一例を示す図である。図6に示すように、学習結果122aは、「物体番号」、「学習パラメータ」といった項目を有する。すなわち、学習結果122aは、学習済モデルの各物体に対応する予測器の学習結果である学習パラメータを表す。
「物体番号」は、検出対象の物体(対象物)を識別する識別子である。つまり、「物体番号」は、予測器を識別する識別子でもある。「学習パラメータ」は、予測器の学習パラメータを示す情報である。なお、学習パラメータは、例えば、ニューラルネットワークの重みを所定の方法で並べた数値列である。
テストデータ記憶部123は、検出対象の画像データであるテストデータを記憶する。テストデータは、例えば、検出対象の物体(対象物)に遮蔽が生じているような画像を含む。なお、テストデータは、複数の検出対象の物体のうち、遮蔽が生じていない物体、つまり、一番手前に配置された物体を含む画像であってもよい。
図1の説明に戻って、制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。制御部130は、取得部131と、第1生成部132と、第1特定部133と、第2特定部134と、第2生成部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部131は、学習時において、図示しない情報処理装置から訓練データを受信して取得する。取得部131は、取得した訓練データを訓練データ記憶部121に記憶する。また、取得部131は、検出時において、図示しない情報処理装置からテストデータを受信して取得する。取得部131は、取得したテストデータをテストデータ記憶部123に記憶する。なお、取得部131は、第1特定部133が対応する、学習済モデル記憶部122に記憶された学習済モデルを取得する取得部とは異なる。
第1生成部132は、訓練データを機械学習することで、学習済モデルを生成する。つまり、第1生成部132は、訓練データ記憶部121から訓練データを読み込み、物体(対象物)ごとの訓練データを機械学習することで、各物体に対応する各予測器の学習結果である学習パラメータを生成する。第1生成部132は、生成した各学習パラメータを各物体と対応付けて、学習済モデルとして学習済モデル記憶部122に記憶する。すなわち、第1生成部132は、対象物の一部に対応する切り出し画像データおよび存在領域と、対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する。例えば、第1生成部132は、切り出し画像データおよび存在領域(マスク)をニューラルネットワークに入力する。第1生成部132は、ニューラルネットワークの出力を全体画像データおよび存在領域に割り当てて、所望の出力が得られるようにバックプロパゲーションによりニューラルネットワークの重みを調整することで学習を行う。
ここで、図7を用いて訓練データについて説明する。図7は、訓練データの一例を示す図である。なお、図7では、マスクは省略している。図7に示すように、訓練データ121a1は、物体1の入力である切り出し画像と、出力である元画像(物体1の全体画像)とを対応付けたものである。訓練データ121a2は、物体2の入力である切り出し画像と、出力である元画像(物体2の全体画像)とを対応付けたものである。訓練データ121a3は、物体3の入力である切り出し画像と、出力である元画像(物体3の全体画像)とを対応付けたものである。なお、訓練データ121a3は、入力の切り出し画像として物体3の全体画像を用いている場合である。また、切り出し画像は、例えば、ランダムな所定の大きさの正方形とすることができ、複数の切り出し画像を切り出すことで生成することができる。
第1特定部133は、例えば、ユーザから検出処理の開始を指示されると、学習済モデル記憶部122を参照し、学習済モデル、つまり各予測器の学習結果である学習パラメータを読み込んで各予測器を構成する。すなわち、第1特定部133は、学習済モデル記憶部122に記憶された学習済モデルを取得する取得部の一例である。第1特定部133は、第2生成部135からテストデータおよび予測指示が入力されると、テストデータに対して予測処理を実行する。なお、以下の説明では、テストデータを入力画像ともいう。
第1特定部133は、予測処理として、まず、入力画像に対する有効領域を全画面に初期化する。つまり、第1特定部133は、入力画像の全領域を物体の検出対象とする入力マスクを設定する。第1特定部133は、第2生成部135から予測指示が入力されると、各予測器に入力画像および入力マスクを入力し、予測結果である予測画像、予測マスクおよび物体位置を生成する。ここで、2回目以降の予測指示には、既に検出した物体の存在領域を有効領域から除外した入力マスクが含まれる。第1特定部133は、入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置を第2特定部134に出力する。
言い換えると、第1特定部133は、生成された学習済モデルに対する画像データの一部(部分画像)の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域(予測マスク、物体位置)を特定する。また、第1特定部133および第2生成部135は、特定した存在領域を、画像データ上で無効化した画像データを生成する。
ここで、図8および図9を用いて、各予測器について説明する。図8は、各予測器の入出力情報の一例を示す図である。図8に示すように、予測器122bには、入力画像および入力マスクが入力される。予測器122bは、入力された入力画像および入力マスクに基づいて、予測画像、予測マスクおよび物体位置を生成して出力する。なお、予測画像は、例えば、予測した物体をRGB(Red Green Blue)で表すカラー画像である。また、予測マスクは、例えば、予測した物体に対応するビットマップ画像であり、物体に対応する画素を「1」、物体以外の画素を「0」とした画像である。また、物体位置は、例えば、物体の外接長方形の座標を示す情報である。
図9は、物体の全体画像の予測の一例を示す図である。図9では、各予測器における物体の全体画像の予測をより詳細に説明する。図9に示すように、第1特定部133は、入力画像20の全領域から様々な大きさの部分画像を切り取る。第1特定部133は、例えば、入力画像20のうち、座標(a1,b1,a2,b2)で表される部分画像21を切り取る。部分画像21は、物体の一部分に相当する。第1特定部133は、部分画像21について位置合わせを行って予測器に入力する。予測器は、部分画像21の入力に基づいて、物体の全体画像22を予測して予測画像とし、全体画像22に対応する予測マスク、および、全体画像22の外接長方形の座標を表す物体位置とともに出力する。すなわち、第1特定部133は、入力画像の様々な位置から様々な大きさの部分画像を切り取って予測器(学習済のニューラルネットワーク)に入力し、予測器の出力を予測画像とする。従って、予測器からは、多数の予測画像が出力されることになる。
図10は、予測器の出力の一例を示す図である。図10に示す表23は、予測器ごとに出力される様々な予測画像のパターンがあることを示す。表23では、「予測器番号」は、予測器を識別する識別子である。「予測画像1」は、各予測器において1つ目の予測画像を示す情報である。「マスク1」は、各予測器において1つ目の予測マスクを示す情報である。「物体位置1」は、各予測器において1つ目の物体位置を示す情報である。「予測画像2」は、各予測器において2つ目の予測画像を示す情報である。以下、1つ目の予測画像と同様に、予測画像、予測マスクおよび物体位置の組が出力されることを示す。なお、予測器は、出力する予測画像、予測マスクおよび物体位置の組に確信度を付加してもよい。また、予測器は、出力する予測画像、予測マスクおよび物体位置の組を確信度順に組み合わせてもよい。
図1の説明に戻って、第2特定部134は、第1特定部133から入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置が入力されると、入力画像と予測画像を予測マスクによって表される存在領域において比較する。第2特定部134は、例えば、入力画像と予測画像との誤差が小さい領域の面積に基づいて、入力画像における対象物の位置を特定する。つまり、第2特定部134は、例えば、複数の予測画像について誤差の小さい順に並べ、予め設定された閾値以下の誤差である予測画像を検出候補とする。第2特定部134は、検出候補の入力画像における対象物の位置、つまり存在領域を特定する。なお、検出候補は、予め設定された閾値以下の誤差であれば、複数の予測画像としてもよい。また、誤差としては、例えば、有効領域の画素値の差の2乗平均を用いることができる。
ここで、第2特定部134は、検出候補があるか否かを判定する。第2特定部134は、検出候補があると判定した場合には、検出候補を検出結果として、例えば表示部111に出力して表示する。また、第2特定部134は、特定した検出候補の存在領域を、検出結果の物体の存在領域として、入力マスクとともに第2生成部135に出力する。一方、第2特定部134は、検出候補がないと判定した場合には、予測処理を終了する。
また、第2特定部134は、初回の比較において、入力された予測画像、予測マスクおよび物体位置(つまり、物体の存在領域)が複数ある場合、2回目以降の比較では、前回までの検出結果の物体の存在領域が無効化された入力画像を用いる。つまり、第2特定部134は、前回までの検出結果の物体の存在領域が無効化された入力画像と、残りの物体の予測画像との比較結果に基づいて、残りの物体の存在領域に対応する対象物の位置を特定していくこととなる。
言い換えると、第2特定部134は、特定した予測画像と、画像データとの比較結果に基づいて、画像データにおける対象物の位置を特定する。また、第2特定部134は、特定した予測画像と画像データとを比較し、比較の結果、誤差が小さい領域の面積に基づいて、画像データにおける対象物の位置を特定する。また、第2特定部134は、特定した存在領域が複数ある場合、特定した存在領域が無効化された画像データと、特定した予測画像との比較結果に基づいて、対応する対象物の位置を特定する。
第2生成部135は、例えば、ユーザから検出処理の開始を指示されると、テストデータ記憶部123からテストデータ(入力画像)を読み込み、テストデータおよび予測指示を第1特定部133に出力する。
第2生成部135は、第2特定部134から検出結果の物体の存在領域、および、入力マスクが入力されると、当該検出結果の物体の存在領域を有効領域から除外して入力マスクを更新する。第2生成部135は、入力マスクを更新すると、更新した入力マスクを含む予測指示を第1特定部133に出力する。
ここで、図11を用いて入力画像に着目した場合の物体検出の流れを説明し、図12から図19を用いて、具体例について説明する。
図11は、入力画像に着目した場合の物体検出の流れを説明する図である。図11に示すように、第2生成部135は、1回目の処理において、入力画像を第1特定部133に出力する。第1特定部133は、入力画像に対して全領域を物体の検出対象とする入力マスクを設定する。第1特定部133は、学習済モデルの各予測器122b1~122b3に対して入力画像および入力マスクを入力し、それぞれの予測画像、予測マスクおよび物体位置を生成する。第1特定部133は、入力画像、入力マスク、各予測器122b1~122b3の予測画像、予測マスクおよび物体位置を第2特定部134に出力する。
第2特定部134は、入力画像と、予測画像とを予測マスクが表す存在領域内で比較し、予め設定された閾値以下の誤差である予測画像を検出候補とする。第2特定部134は、検出候補があるか否かを判定する。第2特定部134は、検出候補がないと判定した場合には、処理を終了する。一方、第2特定部134は、検出候補があると判定した場合には、検出候補を検出結果として出力する。また、第2特定部134は、特定した検出候補の存在領域を、検出結果の物体の存在領域として、入力マスクとともに第2生成部135に出力する。第2生成部135は、第2特定部134から検出結果の物体の存在領域、および、入力マスクが入力されると、当該検出結果の物体の存在領域を有効領域から除外して入力マスクを更新する。第2生成部135は、更新した入力マスクと、入力画像とを第1特定部133に出力し、次の物体について予測および検出を行う。
図12は、物体の予測画像の生成の一例を示す図である。図12の例では、入力画像24に対して、予測画像25~27が生成される。入力画像24は、図2の物体1が物体3で遮蔽されているものとする。なお、図12から図19では、図2の物体1に予測画像26が対応し、物体2に予測画像27が対応し、物体3に予測画像25が対応するものとする。また、物体1および予測画像26は色が「青」であるものとする。また、物体2および予測画像27は、上部の角が丸い四角部分である領域27aの色が「青」であり、下部の逆L字型の部分である領域27bの色が「オレンジ」であるものとする。また、物体3および予測画像25は色が「緑」であるものとする。また、図12から図19では、予測マスクおよび物体位置は、これらを含む説明を行う場合を除いて省略している。
図13は、入力画像と予測画像との比較の一例を示す図である。図13では、入力画像24と、予測画像25~27とを比較している。入力画像24と予測画像25との比較では、比較誤差28に示すように、予測画像25と重なる領域29は誤差が小さく、予測画像25と重ならない領域30は誤差が大きい。入力画像24と予測画像26との比較では、比較誤差31に示すように、予測画像26と重なる領域32は誤差が小さく、予測画像26と重ならない領域33は誤差が大きい。入力画像24と予測画像27との比較では、比較誤差34に示すように、予測画像27と重なる領域35は誤差が小さく、予測画像27と重ならない領域36は誤差が大きい。第2特定部134は、比較誤差28,31,34について、例えば、誤差が小さい領域の面積に基づいて、予測画像25~27のうち、いずれが正しいかを判定する。図13の例では、予測画像25が正しいと判定されたとする。なお、第2特定部134は、予測画像のうち、複数の予測画像を正しいと判定するようにしてもよい。
図14は、検出結果の一例を示す図である。図14に示すように、第2特定部134は、入力画像24に対して正しいと予測された予測画像25を検出候補37とする。第2特定部134は、検出候補37の入力画像24における物体位置の座標(x1,y1,x2,y2)を特定する。第2特定部134は、検出候補37を検出結果として出力する。検出結果は、例えば、「物体「緑(物体3)」」、「物体位置(x1,y1,x2,y2)」といった情報が出力される。
図15は、2回目の物体の予測画像の生成の一例を示す図である。図15の入力画像38は、検出候補37、つまり物体3に相当する領域37aが無効化されている。従って、図15の例では、入力画像38に対して、予測画像26,27が生成される。
図16は、2回目の入力画像と予測画像との比較の一例を示す図である。図16では、入力画像38と、予測画像26,27とを比較している。入力画像38と予測画像26との比較では、比較誤差39に示すように、予測画像26と重なる領域40は誤差が小さく、無効化された領域37aに対応する領域41は比較対象外となる。入力画像38と予測画像27との比較では、比較誤差42に示すように、予測画像27と重なる領域43は誤差が小さく、無効化された領域37aに対応する領域44は比較対象外となる。また、予測画像27と重ならない領域45は誤差が大きい。第2特定部134は、比較誤差39,42について、例えば、誤差が小さい領域の面積に基づいて、予測画像26,27のうち、いずれが正しいかを判定する。図16の例では、予測画像26が正しいと判定されたとする。
図17は、2回目の検出結果の一例を示す図である。図17に示すように、第2特定部134は、入力画像38に対して正しいと予測された予測画像26を検出候補46とする。第2特定部134は、検出候補46の入力画像38における物体位置の座標(x3,y3,x4,y4)を特定する。第2特定部134は、検出候補46を検出結果として出力する。検出結果は、例えば、「物体「青(物体1)」」、「物体位置(x3,y3,x4,y4)」といった情報が出力される。
図18は、3回目の物体の予測画像の生成において物体が無い場合の一例を示す図である。図18の入力画像47は、領域37aと、検出候補46(物体1)に相当する領域46aが無効化されている。従って、図18の例では、入力画像47から検出対象の物体が全て無効化され、予測画像が生成できないため、検出を終了する。
図19は、比較結果に基づく検出候補の一例を示す図である。図19に示す表50は、図13の予測画像25~27および比較誤差28,31,34について、誤差を小さい順に並べて閾値「0.1」との比較結果を示すものである。表50に示すように、予測画像25に対応する予測画像番号「画像31」が誤差「0.08」と最も小さく、閾値以下であるので、予測画像25が正しいと判定され検出候補となる。なお、予測画像番号「画像31」は物体3に対応し、予測画像番号「画像11」は物体1に対応し、予測画像番号「画像21」は物体2に対応する。
次に、実施例1の検出装置100の動作について説明する。まず、図20を用いて学習処理について説明する。図20は、実施例1の学習処理の一例を示すフローチャートである。
第1生成部132は、訓練データ記憶部121から訓練データを読み込む(ステップS1)。第1生成部132は、物体ごとの訓練データの学習を実行し(ステップS2)、各予測器の学習結果である学習パラメータを生成する。第1生成部132は、各予測器の学習結果を学習済モデルとして学習済モデル記憶部122に保存する(ステップS3)。これにより、検出装置100は、物体の一部に対応する画像データの一部と、当該物体の全体画像データおよび存在領域との対応づけを学習することができる。
続いて、図21を用いて検出処理について説明する。図21は、実施例1の検出処理の一例を示すフローチャートである。
第1特定部133は、例えば、ユーザから検出処理の開始を指示されると、学習済モデル記憶部122を参照し、学習済モデル、つまり各予測器の学習結果を読み込んで各予測器を構成する(ステップS11)。また、第2生成部135は、例えば、ユーザから検出処理の開始を指示されると、テストデータ記憶部123からテストデータ(入力画像)を読み込み(ステップS12)、テストデータおよび予測指示を第1特定部133に出力する。第1特定部133は、第2生成部135からテストデータおよび予測指示が入力されると、テストデータに対して予測処理を実行する(ステップS13)。
ここで、図22を用いて予測処理について説明する。図22は、実施例1の予測処理の一例を示すフローチャートである。
第1特定部133は、入力画像に対する有効領域を全画面に初期化する(ステップS131)。第1特定部133は、第2生成部135から入力された予測指示に基づいて、各予測器に入力画像および入力マスクを入力し、入力画像における物体を予測する(ステップS132)。第1特定部133は、予測結果として予測画像、予測マスクおよび物体位置を生成する。第1特定部133は、入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置を第2特定部134に出力する。
第2特定部134は、第1特定部133から入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置が入力されると、入力画像と予測画像とを予測マスクが表す存在領域内で比較する。第2特定部134は、比較の結果、予め設定された閾値以下の誤差である予測画像を検出候補とする。第2特定部134は、検出候補があるか否かを判定する(ステップS133)。第2特定部134は、検出候補があると判定した場合には(ステップS133:肯定)、検出候補を検出結果として、例えば表示部111に出力して表示する(ステップS134)。また、第2特定部134は、特定した検出候補の存在領域を、検出結果の物体の存在領域として、入力マスクとともに第2生成部135に出力する。
第2生成部135は、第2特定部134から検出結果の物体の存在領域、および、入力マスクが入力されると、当該検出結果の物体の存在領域を有効領域から除外して入力マスクを更新する(ステップS135)。第2生成部135は、入力マスクを更新すると、更新した入力マスクを含む予測指示を第1特定部133に出力し、ステップS132に戻る。
一方、ステップS133において、第2特定部134は、検出候補がないと判定した場合には(ステップS133:否定)、予測処理を終了し、元の処理に戻る。第2特定部134は、予測処理が終了すると、検出処理を終了する。これにより、検出装置100は、遮蔽を含む画像データに対する検出精度(汎化能力)を向上できる。また、検出装置100は、深層学習により入力画像と比較可能なリアルな予測画像を生成できる。すなわち、検出装置100は、人物等の複雑な形状の物体であっても予測画像を生成することができる。
また、検出装置100は、対象物の一部に基づいて予測を行うため、対象物の検出漏れを低減することができる。また、検出装置100では、画像のような多次元データの予測が偶然に的中する確率は非常に低いため、実際とは異なる物体および物体位置が選ばれる可能性は低くなり、誤検出を低減することができる。また、検出装置100は、異なる物体が類似した色を持つようなレアケースに対しても、既に検出済の物体を除いて再検出を行うため、誤検出を低減することができる。
このように、検出装置100は、画像データから、該画像データに含まれる対象物の種類と位置を検出する。つまり、検出装置100は、対象物の一部に対応する切り出し画像データおよび存在領域と、対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する。また、検出装置100は、生成した学習済モデルに対する画像データの一部の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域を特定する。また、検出装置100は、特定した全体画像データと、画像データとの存在領域内での比較結果に基づいて、画像データにおける対象物の位置を特定する。また、検出装置100は、特定した存在領域を、画像データ上で無効化した画像データを生成する。その結果、検出装置100は、遮蔽を含む画像データに対する検出精度を向上できる。
また、検出装置100は、特定した全体画像データと、画像データとを存在領域内で比較し、比較の結果、誤差が小さい領域の面積に基づいて、画像データにおける対象物の位置を特定する。その結果、検出装置100は、対象物の一部が遮蔽されていても当該対象物を検出することができる。
また、検出装置100は、特定した存在領域が複数ある場合、特定した存在領域が無効化された画像データと、特定した予測画像との比較結果に基づいて、対応する対象物の位置を特定する。その結果、検出装置100は、対象物が複数重なっている場合であっても、各対象物を検出することができる。
上記実施例1では、学習済モデルを検出装置100で生成する場合について説明したが、他の情報処理装置で予め生成した学習済モデルを用いてもよく、この場合の実施の形態につき、実施例2として説明する。なお、実施例2では、実施例1の検出装置100と同一の構成には同一符号を付すことで、その重複する構成および動作の説明については省略する。
図23は、実施例2の検出装置の構成の一例を示すブロック図である。図23に示す検出装置200は、実施例1の検出装置100と比較して、記憶部120および制御部130に代えて記憶部220および制御部230を有する。また、記憶部220は、記憶部120と比較して、訓練データ記憶部121を除いている。また、制御部230は、制御部130と比較して、取得部131に代えて取得部231を有し、第1生成部132を除いている。
取得部231は、図示しない情報処理装置から学習済モデルを受信して取得する。取得部231は、取得した学習済モデルを学習済モデル記憶部122に記憶する。また、取得部231は、図示しない情報処理装置からテストデータを受信して取得する。取得部231は、取得したテストデータをテストデータ記憶部123に記憶する。なお、取得部231は、第1特定部133が対応する、学習済モデル記憶部122に記憶された学習済モデルを取得する取得部とは異なる。
実施例2の検出装置200の動作については、実施例1の検出装置100の検出処理と同様であるので、その説明を省略する。
このように、検出装置200は、画像データから、該画像データに含まれる対象物の種類と位置を検出する。つまり、検出装置200は、学習済モデル記憶部122に記憶された学習済モデルを取得する。また、検出装置200は、取得した学習済モデルに対する画像データの一部の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域を特定する。また、検出装置200は、特定した全体画像データと、画像データとの存在領域内での比較結果に基づいて、画像データにおける対象物の位置を特定する。また、検出装置200は、特定した存在領域を、画像データ上で無効化した画像データを生成する。その結果、検出装置200は、遮蔽を含む画像データに対する検出精度を向上できる。
なお、上記各実施例では、ニューラルネットワークとして、CNNを一例として挙げたが、これに限定されない。例えば、RNN(再帰型ニューラルネットワーク:Recurrent Neural Network)など様々なニューラルネットワークを用いることができる。また、学習の手法も、誤差逆伝播以外にも公知の様々な手法を採用することができる。また、ニューラルネットワークは、例えば入力層、中間層(隠れ層)、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。
また、上記各実施例では、静止画像について説明したが、これに限定されない。例えば、動画像のような時系列データに適用してもよい。この場合、短時間先の時刻における予測を用いるようにしてもよい。
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、検出装置100の第2特定部134と第2生成部135とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。
さらに、各装置で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。
ところで、上記の各実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図24は、検出プログラムを実行するコンピュータの一例を示す図である。
図24に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、データ入力を受け付ける入力装置302と、モニタ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る媒体読取装置304と、各種装置と接続するためのインタフェース装置305と、他の情報処理装置等と有線または無線により接続するための通信装置306とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM307と、ハードディスク装置308とを有する。また、各装置301~308は、バス309に接続される。
ハードディスク装置308には、図1に示した取得部131、第1生成部132、第1特定部133、第2特定部134および第2生成部135の各処理部と同様の機能を有する検出プログラムが記憶される。また、ハードディスク装置308には、訓練データ記憶部121、学習済モデル記憶部122、テストデータ記憶部123、および、検出プログラムを実現するための各種データが記憶される。また、ハードディスク装置308には、図23に示した取得部231、第1特定部133、第2特定部134および第2生成部135の各処理部と同様の機能を有する検出プログラムが記憶されるようにしてもよい。また、ハードディスク装置308には、学習済モデル記憶部122、テストデータ記憶部123、および、検出プログラムを実現するための各種データが記憶されるようにしてもよい。
入力装置302は、例えば、コンピュータ300のユーザから操作情報等の各種情報の入力を受け付ける。モニタ303は、例えば、コンピュータ300のユーザに対して表示画面等の各種画面を表示する。インタフェース装置305は、例えば印刷装置等が接続される。通信装置306は、例えば、図1,23に示した通信部110と同様の機能を有し図示しないネットワークと接続され、他の情報処理装置と各種情報をやりとりする。
CPU301は、ハードディスク装置308に記憶された各プログラムを読み出して、RAM307に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ300を図1に示した取得部131、第1生成部132、第1特定部133、第2特定部134および第2生成部135として機能させることができる。また、これらのプログラムは、コンピュータ300を図23に示した取得部231、第1特定部133、第2特定部134および第2生成部135として機能させるようにしてもよい。
なお、上記の検出プログラムは、必ずしもハードディスク装置308に記憶されている必要はない。例えば、コンピュータ300が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ300が読み出して実行するようにしてもよい。コンピュータ300が読み取り可能な記憶媒体は、例えば、CD-ROMやDVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこの検出プログラムを記憶させておき、コンピュータ300がこれらから検出プログラムを読み出して実行するようにしてもよい。
100,200 検出装置
110 通信部
111 表示部
112 操作部
120,220 記憶部
121 訓練データ記憶部
122 学習済モデル記憶部
123 テストデータ記憶部
130,230 制御部
131,231 取得部
132 第1生成部
133 第1特定部
134 第2特定部
135 第2生成部

Claims (8)

  1. 画像データから、該画像データに含まれる対象物の種類と位置を検出する検出方法であって、
    前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成し、
    生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
    特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
    特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
    処理をコンピュータが実行することを特徴とする検出方法。
  2. 前記対象物の位置を特定する処理は、特定した前記全体画像データと前記画像データとを前記存在領域内で比較し、比較の結果、誤差が小さい領域の面積に基づいて、前記画像データにおける前記対象物の位置を特定する、
    ことを特徴とする請求項1に記載の検出方法。
  3. 前記対象物の位置を特定する処理は、特定した前記存在領域が複数ある場合、特定した前記存在領域が無効化された画像データと、前記全体画像データとの比較結果に基づいて、対応する対象物の位置を特定する、
    ことを特徴とする請求項1または2に記載の検出方法。
  4. 画像データから、該画像データに含まれる対象物の種類と位置を検出する検出方法であって、
    記憶部に記憶された学習済モデルを取得し、
    取得した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
    特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
    特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
    処理をコンピュータが実行することを特徴とする検出方法。
  5. 画像データから、該画像データに含まれる対象物の種類と位置を検出する処理をコンピュータに実行させる検出プログラムであって、
    前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成し、
    生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
    特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
    特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
    処理をコンピュータに実行させることを特徴とする検出プログラム。
  6. 画像データから、該画像データに含まれる対象物の種類と位置を検出する処理をコンピュータに実行させる検出プログラムであって、
    記憶部に記憶された学習済モデルを取得し、
    取得した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
    特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
    特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
    処理をコンピュータに実行させることを特徴とする検出プログラム。
  7. 画像データから、該画像データに含まれる対象物の種類と位置を検出する検出装置であって、
    前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する第1生成部と、
    生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定する第1特定部と、
    特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定する第2特定部と、
    特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する第2生成部と、
    を有することを特徴とする検出装置。
  8. 画像データから、該画像データに含まれる対象物の種類と位置を検出する検出装置であって、
    記憶部に記憶された学習済モデルを取得する取得部と、
    取得した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定する第1特定部と、
    特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定する第2特定部と、
    特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する生成部と、
    を有することを特徴とする検出装置。
JP2018204393A 2018-10-30 2018-10-30 検出方法、検出プログラムおよび検出装置 Active JP7119910B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018204393A JP7119910B2 (ja) 2018-10-30 2018-10-30 検出方法、検出プログラムおよび検出装置
US16/660,743 US11210513B2 (en) 2018-10-30 2019-10-22 Detection method and detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018204393A JP7119910B2 (ja) 2018-10-30 2018-10-30 検出方法、検出プログラムおよび検出装置

Publications (2)

Publication Number Publication Date
JP2020071615A JP2020071615A (ja) 2020-05-07
JP7119910B2 true JP7119910B2 (ja) 2022-08-17

Family

ID=70325326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018204393A Active JP7119910B2 (ja) 2018-10-30 2018-10-30 検出方法、検出プログラムおよび検出装置

Country Status (2)

Country Link
US (1) US11210513B2 (ja)
JP (1) JP7119910B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825148B2 (en) * 2018-11-29 2020-11-03 Adobe Inc. Boundary-aware object removal and content fill
US11244443B2 (en) * 2019-07-28 2022-02-08 Advantest Corporation Examination apparatus, examination method, recording medium storing an examination program, learning apparatus, learning method, and recording medium storing a learning program
JP2021149446A (ja) * 2020-03-18 2021-09-27 株式会社日立製作所 注視物体認識システム及び方法
JP7115502B2 (ja) * 2020-03-23 2022-08-09 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置
CN111709471B (zh) * 2020-06-12 2022-09-23 腾讯科技(深圳)有限公司 对象检测模型的训练方法以及对象检测方法、装置
CN111797713A (zh) * 2020-06-16 2020-10-20 浙江大华技术股份有限公司 车牌识别方法及拍照设备
CN111914628B (zh) * 2020-06-19 2023-06-20 北京百度网讯科技有限公司 人脸识别模型的训练方法和装置
US11748999B2 (en) * 2020-07-13 2023-09-05 Beijing Jingdong Qianshi Technology Co., Ltd. System and method for recognizing intersection by autonomous vehicles
CN112101223B (zh) * 2020-09-16 2024-04-12 阿波罗智联(北京)科技有限公司 检测方法、装置、设备和计算机存储介质
JP2022072273A (ja) * 2020-10-29 2022-05-17 オムロン株式会社 学習方法、学習済みモデル、検出システム、検出方法、及びプログラム
CN112749735B (zh) * 2020-12-30 2023-04-07 中冶赛迪信息技术(重庆)有限公司 基于深度学习的转炉出钢钢流识别方法、系统、介质及终端
CN112784732B (zh) * 2021-01-20 2024-01-23 北京百度网讯科技有限公司 地物类型变化的识别、模型训练方法、装置、设备及介质
US11404088B1 (en) * 2021-04-29 2022-08-02 Gopro, Inc. Composite video generation
CN113420675A (zh) * 2021-06-25 2021-09-21 浙江大华技术股份有限公司 一种口罩佩戴规范度的检测方法及装置
CN115861328A (zh) * 2023-03-01 2023-03-28 中国科学院空天信息创新研究院 墓葬检测方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289078A (ja) 2008-05-29 2009-12-10 Dainippon Printing Co Ltd 目標物検出システム
JP2013114596A (ja) 2011-11-30 2013-06-10 Kddi Corp 画像認識装置及び方法
JP2013210968A (ja) 2012-03-30 2013-10-10 Canon Inc 物体検出装置及びその方法、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809185B2 (en) * 2006-09-21 2010-10-05 Microsoft Corporation Extracting dominant colors from images using classification techniques

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289078A (ja) 2008-05-29 2009-12-10 Dainippon Printing Co Ltd 目標物検出システム
JP2013114596A (ja) 2011-11-30 2013-06-10 Kddi Corp 画像認識装置及び方法
JP2013210968A (ja) 2012-03-30 2013-10-10 Canon Inc 物体検出装置及びその方法、プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山岡 めぐみ,長尾 健司,局所マッチングを用いた形状分類の実現,電子情報通信学会論文誌(J86-D-II) No. 7,2003年07月01日
池頭 俊樹 外3名,動画像処理によるバドミントン競技における自動認識に関する研究,電子情報通信学会技術研究報告 第114巻 第90号,2014年06月12日

Also Published As

Publication number Publication date
US20200134313A1 (en) 2020-04-30
JP2020071615A (ja) 2020-05-07
US11210513B2 (en) 2021-12-28

Similar Documents

Publication Publication Date Title
JP7119910B2 (ja) 検出方法、検出プログラムおよび検出装置
US11341375B2 (en) Image processing apparatus and method based on deep learning and neural network learning
AU2018250370B2 (en) Weakly supervised model for object detection
JP6620755B2 (ja) 画像処理装置、表示制御装置、画像処理方法、および、プログラム
US9478040B2 (en) Method and apparatus for segmenting object in image
US10996937B2 (en) Automated software installation using a click area prediction model
WO2015074521A1 (en) Devices and methods for positioning based on image detection
WO2021088422A1 (zh) 应用消息的通知方法及装置
CN111738976A (zh) 信息处理装置、用于控制信息处理装置的方法和存储介质
JP2020042754A (ja) 分類装置、分類方法、分類プログラム、及び検査装置
JP6623851B2 (ja) 学習方法、情報処理装置および学習プログラム
CN105354833B (zh) 一种阴影检测的方法和装置
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
JP7240199B2 (ja) パラメータ決定方法、パラメータ決定装置、及びプログラム
JP2009104244A (ja) 情報処理装置および方法、並びにプログラム
CN111488776A (zh) 对象检测方法、对象检测装置和电子设备
JP2019139386A (ja) 画像判定方法、画像判定装置および画像判定プログラム
WO2020195958A1 (ja) 学習方法、判定方法、プログラム、学習システム、学習用データセットの生成方法、及び、学習用データセット
CN110866478B (zh) 一种图像中对象的识别方法、装置和设备
US11244443B2 (en) Examination apparatus, examination method, recording medium storing an examination program, learning apparatus, learning method, and recording medium storing a learning program
US20220405894A1 (en) Machine learning device, machine learning method, andrecording medium storing machine learning program
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
WO2021049119A1 (ja) 学習装置、学習方法及び学習プログラムが格納された非一時的なコンピュータ可読媒体
US20230177705A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP2020140495A (ja) 認識方法、認識プログラムおよび認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220718

R150 Certificate of patent or registration of utility model

Ref document number: 7119910

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150