JP7311310B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7311310B2
JP7311310B2 JP2019092489A JP2019092489A JP7311310B2 JP 7311310 B2 JP7311310 B2 JP 7311310B2 JP 2019092489 A JP2019092489 A JP 2019092489A JP 2019092489 A JP2019092489 A JP 2019092489A JP 7311310 B2 JP7311310 B2 JP 7311310B2
Authority
JP
Japan
Prior art keywords
class
likelihood
candidate
determination
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019092489A
Other languages
English (en)
Other versions
JP2020064604A (ja
Inventor
洋平 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to PCT/JP2019/031587 priority Critical patent/WO2020079933A1/ja
Priority to EP19872900.6A priority patent/EP3869450A4/en
Priority to CN201980005337.2A priority patent/CN111417960A/zh
Publication of JP2020064604A publication Critical patent/JP2020064604A/ja
Priority to US16/859,264 priority patent/US11526708B2/en
Application granted granted Critical
Publication of JP7311310B2 publication Critical patent/JP7311310B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。
近年、画像内の物体を効率的に検出する装置及び方法が求められている。
例えば、特許文献1には、対象画像から物体の有無を識別する複数のシングルクラス分類部と、シングルクラス分類部により物体が識別された場合に、画像を他のシングルクラス分類部へ分類するマルチクラス分類部と、を備える検出装置及び検出方法が開示されている。
また、例えば、非特許文献1には、対象画像を入力して畳み込みフィルタ処理にて全ての物体候補について候補枠の探索とクラス分類を実行する方法が開示されている。
特開2016-151805号公報
Wei Liu et.al., "SSD:Single Shot MultiBox Detector", arXiv:1512.02324v5 [cs.CV], 29 Dec.,2016
しかしながら、従来技術では、物体のクラス分類のための処理量が増大する場合がある。例えば、特許文献1に記載の従来技術では、分類処理を複数回実行するため、処理量が多く、時間がかかる。また、非特許文献1に記載の従来技術では、検出された全ての候補枠に対してNon-Maximum suppression(NMS)処理を行うため、候補枠が多くなると処理量も増大してしまう。
そこで、本開示は、物体のクラス分類のための処理量を低減できる情報処理装置、情報処理方法及びプログラムを提供する。
上記課題を解決するため、本開示の一態様に係る情報処理装置は、プロセッサを備える情報処理装置であって、前記プロセッサは、分類尤度算出処理を実行する機械学習モデルを学習し、入力画像を取得し、学習済みの前記機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第1クラスに分類されるか否かの第1判定を実行し、前記第1判定において前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第2判定を実行し、前記第2判定の結果を用いて前記入力画像に映る物体の分類結果を出力前記第1判定では、前記各物体候補の前記第1クラスに対する尤度が第1閾値以上か否かを判定し、前記第1クラスに対する尤度が前記第1閾値以上である物体候補が前記第1クラスに分類されると判定され、前記機械学習モデルの学習は、前記機械学習モデルに訓練用入力画像を入力して、前記訓練用入力画像における前記各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記訓練用入力画像における前記各物体候補について、前記他のクラスに分類されるか否かの第3判定を実行し、前記第3判定により前記他のクラスに分類されると判定された物体候補のそれぞれの前記第1クラスに対する尤度より大きい値を前記第1閾値として決定する、処理をオフラインで行う
また、本開示の一態様に係る情報処理方法は、プロセッサに実行させる方法であって、分類尤度算出処理を実行する機械学習モデルを学習し、入力画像を取得し、学習済みの前記機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第1クラスに分類されるか否かの第1判定を実行し、前記第1判定において前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第2判定を実行し、前記第2判定の結果を用いて前記入力画像に映る物体の分類結果を出力前記第1判定では、前記各物体候補の前記第1クラスに対する尤度が第1閾値以上か否かを判定し、前記第1クラスに対する尤度が前記第1閾値以上である物体候補が前記第1クラスに分類されると判定され、前記機械学習モデルの学習は、前記機械学習モデルに訓練用入力画像を入力して、前記訓練用入力画像における前記各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記訓練用入力画像における前記各物体候補について、前記他のクラスに分類されるか否かの第3判定を実行し、前記第3判定により前記他のクラスに分類されると判定された物体候補のそれぞれの前記第1クラスに対する尤度より大きい値を前記第1閾値として決定する、処理をオフラインで行う
また、本開示の一態様は、上記情報処理方法をコンピュータに実行させるためのプログラムとして実現することができる。あるいは、当該プログラムを格納したコンピュータ読み取り可能な非一時的な記録媒体として実現することもできる。
本開示によれば、物体のクラス分類のための処理量を低減することができる。
図1は、物体検出アルゴリズムの一例を説明するための図である。 図2は、各候補枠の各クラスに対する尤度の算出結果の一例を示す図である。 図3は、従来技術の物体検出方法を説明するためのフローチャートである。 図4は、実施の形態に係る情報処理装置の機能構成の一例を示すブロック図である。 図5は、実施の形態に係る情報処理装置の実装例を示すブロック図である。 図6は、実施の形態に係る情報処理装置の動作の一例を示すフローチャートである。 図7は、機械学習モデルのオフライン処理の一例を示すフローチャートである。 図8は、機械学習モデルのオフライン処理の他の例を示すフローチャートである。 図9は、実施の形態の変形例に係る情報処理装置の動作の一例を示す第1フローチャートである。 図10は、実施の形態の変形例に係る情報処理装置の動作の一例を示す第2フローチャートである。
(本開示に至った知見)
以下、従来の物体検出方法について説明する。図1は、物体検出方法の一例を説明するための図である。物体検出方法に用いられる畳み込みネットワーク(CNN:Convolutional Neural Network)は、例えば、SSD(The Single Shot Detector)である(非特許文献1を参照)。図1の(a)は、CNNへの入力画像の一例を示す図である。図1の(a)に示される破線で囲まれた領域は、物体領域を示す。物体領域は、物体が撮像された領域である。また、図1の(b)は、入力画像をCNNに入力して得られた8×8特徴マップを示す図である。図1の(c)は、4×4特徴マップを示す図である。図1の(b)及び(c)に示される一点破線で囲まれた領域は、候補枠を示す。また、図1の(d)は、CNNの一例を示す図である。
図1に示される物体検出方法では、図1の(a)に示される入力画像をCNNに入力する。入力画像は、異なる種類の畳み込みフィルタからなるCNNによって畳み込まれ、様々なサイズの特徴マップに変換される。そして、図1の(b)及び(c)に示されるように、各特徴マップ上の各マス目に対して複数の候補枠(ここでは、4つの候補枠)が割り当てられる。全ての特徴マップ上の候補枠(以下、全候補枠)を検出し、最後に、最大値検索(例えば、NMS処理)を実行して、入力画像における物体の検出結果を出力する。なお、図1の(d)に示されるように、SSDでは、畳み込みフィルタ処理で得られた特徴マップをさらに別の畳み込みフィルタに入力して畳み込むことを繰り返す。このように、複数の異なる畳み込みフィルタを用いて特徴マップを少しずつ小さく畳み込むことにより、特徴の大小に関わらず、様々なスケールの候補枠を検出することができる。なお、図中の出力値は、物体領域とデフォルトボックスとの位置のオフセット(例えば、中心のX座標、中心のY座標、幅、及び高さの4次元のパラメータ)と、カテゴリスコア(例えば、各分類クラスに対する尤度)とを紐づけたデータである。
図2は、図1で説明した各特徴マップからの出力値の一例を示す図である。ここでは、図1の(a)に示される入力画像の2つの物体領域を例に説明する。入力画像における2つの物体領域は、それぞれ、図1の(b)に示される8×8特徴マップ上の2つの候補枠の集合に対応する。さらに、図1の(c)に示される4×4特徴マップ上の1組の図2に示される1組の候補枠の集合は、図1の(a)に示される自動車の物体領域に対応する。図2では、候補枠毎に算出された、歩行者、自動車、自転車、バイク、及び、背景の5つのクラスそれぞれに対する尤度を示している。図2に示されるように、全候補枠の検出処理では、全候補枠について各クラスの尤度が算出され、各候補枠の形状オフセットとカテゴリスコアとが紐づけられたデータが得られる。なお、図2に示される例では、正規化された尤度を用いているが、正規化されていない尤度を用いてもよい。
続いて、NMS処理について説明する。NMS処理は、上記の処理フローで検出された全候補枠を各クラスに分類する分類処理である第1処理と、分類された全候補枠のうち重なり合う候補枠を1つの候補枠に統合する第2処理と、を含む。図3は、従来技術における分類処理の一例を示すフローチャートである。図3に示されるステップS301の処理は、上記の全候補枠の検出処理を示す。ステップS301の処理では、入力画像における各候補枠の複数のクラスそれぞれに対する尤度が算出される。図3に示されるように、従来技術では、ステップS301の処理の後、全候補枠について分類ループの処理が実行される。全候補は、図2に示されるように、検出対象の物体が映っていない背景の候補枠も含まれる。従来技術では、背景の候補枠についても、複数のクラスに対する分類処理が実行される。例えば、ある候補枠の自動車クラスに対する尤度(尤度[候補枠])が、自動車クラスの閾値(閾値[自動車])以上であるか否かを判定する(ステップS302)。当該ある候補枠の自動車に対する尤度が、自動車の閾値以上である場合(ステップS302でYes)、当該ある候補枠は、自動車クラスのリスト(リスト[自動車])に追加される(ステップS303)。一方、当該ある候補枠の自動車に対する尤度が、自動車の閾値よりも小さい場合(ステップS302でNo)、当該ある候補枠は、自動車クラスのリストに追加されない。
次いで、他の1つの候補枠の自動車クラスに対する尤度が、自動車クラスの閾値以上であるか否かを判定する(ステップS302)。当該ある候補枠の自動車に対する尤度が、自動車の閾値以上である場合(ステップS302でYes)、当該ある候補枠は、自動車クラスのリストに追加される(ステップS303)。一方、当該ある候補枠の自動車に対する尤度が、自動車の閾値よりも小さい場合(ステップS302でNo)、当該ある候補枠は、自動車クラスのリストに追加されない。
このように、全候補枠について、自動車クラスに対する分類処理が終了すると、全候補枠について、自動車クラス以外の他のクラス(例えば、歩行者クラス)に対する分類処理が実行される。全候補枠について、複数のクラスそれぞれに対する分類処理(第1処理)が終了すると、全候補枠について、第2処理が実行される。
第2処理では、検出された全候補枠について、ある候補枠が当該ある候補枠よりも検出尤度の高い候補枠と重なっている場合、これらの候補枠の重なり度合いが所定の閾値を超えるとき、当該ある候補枠を削除する。つまり、重なり合う候補枠のうち、最大尤度を有する候補枠以外の候補枠を削除することにより、候補枠を1つに統合する。
以上のように、従来の物体検出方法では、全候補枠についてNMS処理を実行するため、最終段階の判定処理の処理量が多い。さらに、NMS処理は、畳み込み演算処理と異なり、専用のプロセッサでの高速化が難しく、CPU(Central Processing Unit)で実行されることが多い。また、物体検出装置は、車載ネットワークなどに実装されることが多い。車載ネットワークに実装されるCPUは、コンピュータに実装されるCPUよりも処理能力が低いため、NMS処理に時間がかかる。
本願発明者は、上記課題を鑑み鋭意検討した結果、検出された全候補枠について、他のクラスに対する尤度と負の相関関係を有するクラス(例えば、背景)に対する尤度に基づいて、検出対象の物体が映っている可能性の高い候補枠を抽出することにより、処理量を低減できることを見出した。例えば、背景クラスと、背景以外のクラスとに分類し、背景以外のクラスの候補枠、つまり、検出対象の物体が映っている可能性の高い候補枠についてのみ、他のクラスに分類されるか否かの判定処理を実行することで、第2処理における処理量を低減できることを見出した。これにより、最終段階の判定処理の処理量を低減できる情報処理装置及び情報処理方法に想到した。
本開示の一態様の概要は、以下の通りである。
本開示の一態様に係る情報処理装置は、プロセッサを備える情報処理装置であって、前記プロセッサは、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第1クラスに分類されるか否かの第1判定を実行し、前記第1判定において前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第2判定を実行し、前記第2判定の結果を用いて前記入力画像に映る物体の分類結果を出力する。
このように、各物体候補について、他のクラスに対する尤度と負の相関関係を有する、第1クラスに対する尤度を用いて第1判定が実行されるため、各候補枠は、第1クラス、及び、第1クラスではないクラスのいずれかに精度良く分類される。第1クラスではないと判定された物体候補についてのみ、第1クラス以外の他のクラスに分類されるか否かの第2判定を実施する。そのため、本開示の一態様に係る情報処理装置によれば、物体のクラス分類のための処理量を低減することができる。
また、例えば、前記プロセッサは、前記第1判定では、前記各物体候補の前記第1クラスに対する尤度が第1閾値以上か否かを判定するとしてもよい。このとき、例えば、前記プロセッサは、さらに前記各物体候補について、前記他のクラスに分類されるか否かの第3判定を実行し、前記第3判定により前記他のクラスに分類されると判定された物体候補の前記第1クラスに対する尤度より大きい値を前記第1閾値として決定するとしてもよい。例えば、前記プロセッサは、複数の前記入力画像の前記各物体候補について前記第3判定を実行し、複数の前記入力画像の前記各物体候補についての前記第3判定により前記他のクラスに分類されると判定された物体候補の前記第1クラスに対する尤度の全てより大きい値を前記第1閾値として決定するとしてもよい。
これにより、第1閾値に基づいて第1判定が実施されるため、第1判定において第1クラスに分類されないと判定された物体候補は、第1クラス以外の他のクラスに分類される物体候補を全て含む。そのため、本開示の一態様に係る情報処理装置によれば、第1判定を実行することにより、入力画像における全物体候補を、第1クラスと、第1クラス以外の他のクラスとに精度良く分類することができる。
また、例えば、前記第1クラスは、背景クラスであるとしてもよい。
これにより、本開示の一態様に係る情報処理装置によれば、検出対象の物体が映っている可能性の高い物体候補について、第1クラス以外の他のクラスのいずれに分類されるか否かの判定処理を実行することができる。
また、例えば、前記プロセッサは、前記機械学習モデルから、さらに、前記各物体候補について候補枠を取得し、前記第2判定では、前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに対する尤度が前記候補枠のサイズに応じた前記他のクラスに対応する閾値以上か否かを判定するとしてもよい。
このように、各物体候補について出力された候補枠のサイズに応じて第1クラス以外の他のクラスに対応する閾値を用いることにより、候補枠のサイズが大きい物体候補の検出精度を向上させるとともに、候補枠のサイズが小さい物体候補について誤検出を低減することができる。
また、本開示の一態様に係る情報処理方法は、プロセッサに実行させる方法であって、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第1クラスに分類されるか否かの第1判定を実行し、前記第1判定において前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第2判定を実行し、前記第2判定の結果を用いて前記入力画像に映る物体の分類結果を出力する。
このように、各物体候補について、他のクラスに対する尤度と負の相関関係を有する、第1クラスに対する尤度を用いて第1判定が実行されるため、各候補枠は、第1クラス、及び、第1クラスではないクラスのいずれかに精度良く分類される。第1クラスではないと判定された物体候補についてのみ、第1クラス以外の他のクラスに分類されるか否かの第2判定を実施する。そのため、本開示の一態様に係る情報処理方法によれば、判定処理の処理量を低減することができる。
また、本開示の一態様は、上記情報処理方法をコンピュータに実行させるためのプログラムとして実現することができる。あるいは、当該プログラムを格納したコンピュータ読み取り可能な非一時的な記録媒体として実現することもできる。
以下では、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
また、本明細書において、水平又は垂直などの要素間の関係性を示す用語、並びに、数値範囲は、厳密な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
(実施の形態)
[1.概要]
まず、実施の形態に係る情報処理装置の概要について説明する。情報処理装置は、画像内の物体を検出するための装置である。例えば、情報処理装置は、自動車、バイク、自転車、及び、電車などの車両、ドローンなどの飛行体、又は、飛行機など移動体に搭載されるカメラシステムの一構成であってもよく、防犯カメラシステムの一構成であってもよい。
情報処理装置は、訓練済みの機械学習モデルを用いて画像に映る物体の分類結果を出力する。機械学習モデルは、例えば、畳み込みフィルタネットワーク(CNN)であり、教師データを用いて訓練される。情報処理装置の動作及び機械学習モデルの訓練については、後述する。
[2.機能構成]
続いて、情報処理装置の機能構成の一例について、図4を用いて説明する。図4は、実施の形態に係る情報処理装置100の機能構成の一例を示すブロック図である。
図4に示されるように、情報処理装置100は、入力画像を取得し、入力画像を入力部11に入力する。入力部11は、入力画像を分類尤度算出部12に出力する。分類尤度算出部12は、例えば、分類尤度の算出処理を実行する機械学習モデルである。分類尤度算出部12は、入力画像における各物体候補の複数のクラスそれぞれに対する尤度を算出する。より具体的には、図1の(d)で説明したように、分類尤度算出部12は、入力画像を畳み込みフィルタ処理により畳み込み、様々なサイズの特徴マップを抽出する。次いで、分類尤度算出部12は、各特徴マップ上の各特徴点に割り当てられた複数の候補枠それぞれについて、複数のクラスそれぞれに対する尤度を算出する。すなわち、分類尤度算出部12は、図1の(d)に示される全候補枠の検出処理を行う。
第1抽出部13は、複数のクラスのうち第1クラスに分類される物体候補(以下、候補枠)を抽出し、第1クラス以外の他のクラス(以下、他のクラス)に分類される候補枠を第2抽出部14に出力する。第2抽出部14は、他のクラスに分類される候補枠のそれぞれを各クラスに分類し、統合部15に出力する。すなわち、第1抽出部13及び第2抽出部14における処理は、図1の(d)で説明したNon-Maximum suppression(NMS)処理の第1処理である。続いて、統合部15は、第2抽出部14から出力された他のクラスに分類される複数の候補枠を取得し、取得した複数の候補枠に対してNMS処理の第2処理を実行する。統合部15は、重なり合う候補枠のうち最大尤度を有する候補枠以外の候補枠を削除し、候補枠を1つに統合する。出力部16は、統合された候補枠を最終的な検出結果として出力する。
[3.実装例]
続いて、情報処理装置100の実装例について説明する。図5は、実施の形態に係る情報処理装置100の実装例を示すブロック図である。情報処理装置100は、プロセッサ10と、メモリ20と、を備える。例えば、図4に示される情報処理装置100の複数の構成要素は、図5に示されるプロセッサ10及びメモリ20によって実現される。
プロセッサ10は、メモリ20にアクセス可能な電子回路であって、情報処理を行う。例えば、プロセッサ10は、メモリ20を用いて画像中の物体を検出する専用又は汎用のプロセッサである。プロセッサ10は、例えば、CPUであってもよい。
また、例えば、専用のハードウェアで構成されてもよく、メモリ20に記録されたソフトウェアプログラムを読み出して実行してもよい。また、ソフトウェアプログラムは、ダウンロードなどにより配布されてもよいし、半導体メモリなどの記録媒体に記録して配布されてもよい。
また、プロセッサ10は、複数の電子回路で構成されていてもよいし、複数のサブプロセッサで構成されていてもよい。また、プロセッサ10は、図4及び図5に示される情報処理装置100の複数の構成要素のうち、情報を記憶するための構成要素を除く、複数の構成要素の役割を果たしてもよい。
メモリ20は、プロセッサ10が画像中の物体を検出するための情報が記憶される専用又は汎用のメモリである。メモリ20は、電子回路であってもよく、プロセッサ10に接続されていてもよいし、プロセッサ10に含まれていてもよい。
また、メモリ20は、複数の電子回路で構成されていてもよいし、複数のサブメモリで構成されていてもよい。また、メモリ20は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ20は、不揮発性メモリでもよいし、揮発性メモリでもよい。
例えば、メモリ20は、図4及び図5に示される情報処理装置100の複数の構成要素のうち、情報を記憶するための構成要素の役割を果たしてもよい。
また、メモリ20には、物体検出処理に供される動画像が記憶されてもよいし、物体検出処理に供される動画像に対応するビット列が記憶されてもよい。また、メモリ20には、プロセッサ10が画像中の物体を検出するためのプログラムが記憶されていてもよい。
また、情報処理装置100において、図4及び図5に示される複数の構成要素の全てが実装されなくてもよいし、上述された複数の処理の全てが行われなくてもよい。図4及び図5に示される複数の構成要素の一部は、他の装置に含まれていてもよいし、上述された複数の処理の一部は、他の装置によって実行されてもよい。そして、情報処理装置100において、図4及び図5に示される複数の構成要素のうちの一部が実装され、上述された複数の処理の一部が行われることによって、最終段階の判定処理の処理量を低減することができる。
上述した通り、図5に示される情報処理装置100のプロセッサ10は、情報処理装置100のメモリ20を用いて画像中の物体を検出する。
例えば、プロセッサ10は、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して入力画像における各物体候補(以下、候補枠)の複数のクラスそれぞれに対する尤度を取得する。次いで、プロセッサ10は、各候補枠について、複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第1クラスに分類されるか否かの第1判定を実行する。より具体的には、プロセッサ10は、第1判定では、各候補枠の第1クラスに対する尤度が第1閾値以上か否かを判定する。
なお、上記の負の相関関係とは、第1クラスに対する尤度と、他のクラスに対する尤度とが同時に高くならない関係である。尤度が高くならないとは、尤度が閾値以上にならないことをいう。そのため、各候補枠について、第1クラスに対する尤度と、第1クラス以外の他のクラスに対する尤度とは、同時に高くならない。より具体的には、各候補枠について、第1クラスに対する尤度が閾値以上である場合、第1クラス以外の他のクラスに対する尤度は、閾値よりも小さくなる。したがって、プロセッサ10は、各候補枠について、他のクラスに対する尤度と負の相関関係を有する、第1クラスに対する尤度を用いて分類処理を行うことにより、各候補枠は、第1クラス、及び、第1クラスではないクラスのいずれかに精度良く分類される。
なお、第1クラスは、第1クラス以外の他のクラスよりも画像における出現頻度が高いクラスであってよい。画像における出現頻度が高いとは、例えば、画像において検出される回数が多いこと、又は、画像における全候補枠のうち尤度が閾値よりも大きくなる候補枠の数が多いことである。
例えば、プロセッサ10は、さらに、各候補枠について、他のクラスに分類されるか否かの第3判定を実行し、第3判定により他のクラスに分類されると判定された候補枠の第1クラスに対する尤度より大きい値を第1閾値として決定する。例えば、プロセッサ10は、複数の入力画像の各物体候補について第3判定を実行し、複数の入力画像の各物体候補についての第3判定により他のクラスに分類されると判定された物体候補の第1クラスに対する尤度の全てより大きい値を第1閾値として決定する。これにより、第1判定において、各候補枠の第1クラスに対する尤度が第1閾値以上か否かを判定した場合に、第3判定により他のクラスに分類されると判定された候補枠の全てが第1クラスではないクラスに分類される。そのため、第1クラス以外の他のクラスに分類されるべき候補枠が誤って第1クラスに分類されることを低減することができる。
例えば、第1クラスは、背景クラスである。この場合、プロセッサ10は、各候補枠を、背景クラスと、背景ではないクラスとに分類する。これにより、全候補枠のうち、検出対象の物体が映っている可能性の高い候補枠が抽出される。これにより、検出対象の物体が映っていない候補枠について、さらなる分類処理が実行される必要がなくなるため、分類処理における処理量が低減される。また、全候補枠のうち、物体が映っている可能性の高い候補枠についてのみ、背景以外の他のクラスに分類する処理を実行するため、分類処理の効率が向上される。
例えば、プロセッサ10は、第1判定において第1クラスに分類されないと判定された候補枠それぞれについて、他のクラスに分類されるか否かの第2判定を実行する。ここで、複数のクラスにおける第1クラスが画像において出現頻度が高いクラスである場合、第1クラスに分類されないと判定された候補枠の数よりも、第1クラスに分類されると判定された候補枠の数の方が多くなる。そのため、第1クラスに分類されないと判定された候補枠それぞれについてのみ第2の判定を実行すると、全候補枠について第2の判定を実行する場合に比べて、処理量が大幅に低減される。
次いで、プロセッサ10は、第1判定及び第2判定の結果を用いて、入力画像に映る物体の分類結果を出力する。これにより、入力画像に映る物体の分類結果を簡便にかつ迅速に出力することができる。
ここで、本実施の形態の情報処理装置100を実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、各物体候補について、複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第1クラスに分類されるか否かの第1判定を実行し、第1判定において第1クラスに分類されないと判定された物体候補それぞれについて、他のクラスに分類されるか否かの第2判定を実行し、第2判定の結果を用いて入力画像に映る物体の分類結果を出力する情報処理方法を実行させてもよい。
[4.動作]
[4-1.各候補枠の分類処理]
続いて、情報処理装置100の動作について説明する。図6は、実施の形態に係る情報処理装置100の動作の一例を示すフローチャートである。
まず、情報処理装置100は、入力画像を取得する(不図示)。次いで、図6に示されるように、情報処理装置100は、入力画像における候補枠毎に尤度を算出する(ステップS601)。より具体的には、情報処理装置100は、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して、入力画像における各候補枠の複数のクラスそれぞれに対する尤度を算出させる。
次いで、情報処理装置100は、全候補枠について、複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第1クラスに分類されるか否かの第1判定を実行する。第1クラスに関する定義については、上記の実装例にて説明したため、ここでの説明を省略する。以下、第1クラスは、背景(BG:Background)クラスである例について説明する。
情報処理装置100は、各候補枠の背景クラスに対する尤度が背景の閾値以上であるか否かを判定する(ステップS602)。ある候補枠の背景クラスに対する尤度が背景の閾値以上である場合(ステップS602でYes)、当該ある候補枠は、背景(BG)クラスのリストに追加される。一方、ある候補枠の背景クラスに対する尤度が背景の閾値より小さい場合(ステップS602でNo)、当該ある候補枠は、背景ではない(not BG)クラスのリストに追加される(ステップS603)。情報処理装置100は、全候補枠について、上記の処理ループを実行することにより、全候補枠を上記の2つのクラス、つまり、背景(BG)クラス及び背景ではない(not BG)クラスのいずれかに分類する。
次いで、情報処理装置100は、第1判定(ステップS602)において背景クラスに分類されないと判定された候補枠(つまり、背景ではないクラスのリストに追加された候補枠)それぞれについて、他のクラスに分類されるか否かの第2判定(ステップS604)を実行する。具体的には、各候補枠について、他のクラスのそれぞれに対する尤度が各クラスの閾値以上であるか否かを判定する(ステップS604)。ある候補枠のあるクラスに対する尤度(例えば、自動車クラスに対する尤度)が自動車の閾値以上である場合(ステップS604でYes)、当該ある候補枠は、自動車クラスのリストに追加される(ステップS605)。一方、当該ある候補枠の自動車クラスに対する尤度が自動車の閾値よりも小さい場合(ステップS604でNo)、当該ある候補枠は、自動車クラスのリストに追加されない。
次いで、情報処理装置100は、例えば、他の1つの候補枠の自動車クラスに対する尤度が自動車の閾値以上である場合(ステップS604でYes)、当該他の1つの候補枠は、自動車クラスのリストに追加される(ステップS605)。一方、当該他の1つの候補枠の自動車クラスに対する尤度が自動車の閾値よりも小さい場合(ステップS604でNo)、当該他の1つの候補枠は、自動車クラスのリストに追加されない。
このように、背景ではないクラスのリスト中の全候補枠について、1つのクラス(ここでは、自動車クラス)に対する分類処理を実行した後、別のクラス(例えば、歩行者クラス)に対する分類処理を実行する。同様の処理を繰り替えし、背景ではないクラスのリスト中の全候補枠に対する分類ループが終了する。
以上のように、本実施の形態に係る情報処理装置100によれば、まず、入力画像における全候補枠のそれぞれについて、例えば、画像において最も出現頻度の高いクラス(つまり、他のクラスの尤度と負の相関関係を有する尤度のクラス)に分類されるか否かを判定する。これにより、例えば、検出された全候補枠を、背景クラスと背景ではないクラスとの2つの分類することができる。背景クラスは、例えば、画像における出現頻度が高いクラスである。情報処理装置100は、背景ではないクラスに分類された各候補枠について、背景クラス以外の他のクラスに対する分類処理を行うため、処理量が低減される。
[4-2.第1クラスの第1閾値の決定処理]
続いて、情報処理装置100が実行する第1クラス(ここでは、背景クラス)の尤度閾値である第1閾値の決定処理フローの一例について説明する。図7は、実施の形態における機械学習モデルのオフライン処理の一例を示すフローチャートである。
図6で説明したように、情報処理装置100は、分類尤度算出処理を実行する機械学習モデルに入力画像を入力し、入力画像における各候補枠の複数のクラスそれぞれに対する尤度を算出する。機械学習モデルは、教師データを用いて、入力画像における候補枠の検出、及び、各候補枠の複数のクラスそれぞれに対する尤度の算出を訓練される。
情報処理装置100は、例えば、オフラインで、所定の入力画像を機械学習モデルに入力し、機械学習モデルは検出した全候補枠のそれぞれについて複数のクラスに対する尤度を算出する(不図示)。
次いで、情報処理装置100は、機械学習モデルによって、分類ループを開始する。まず、情報処理装置100は、機械学習モデルによって、全候補枠について、複数のクラスのうちの1つのクラスについて分類処理を実行する。例えば、ある候補枠の背景クラスに対する尤度が背景の閾値以上であるか否かを判定する(ステップS701)。当該ある候補枠の背景クラスに対する尤度が背景の閾値以上である場合(ステップS701でYes)、当該ある候補枠は、背景クラスのリストに追加される(ステップS702)。一方、当該ある候補枠の背景クラスに対する尤度が背景の閾値よりも小さい場合(ステップS701でNo)、当該ある候補枠は、背景クラスのリストに追加されない。
次いで、他の1つの候補枠について、ステップS701の処理を実行し、当該他の1つの候補枠の背景クラスに対する尤度が背景の閾値以上である場合(ステップS701でYes)、当該他の1つの候補枠は、背景クラスのリストに追加される(ステップS702)。一方、当該他の1つの候補枠の背景クラスに対する尤度が背景の閾値よりも小さい場合(ステップS701でNo)、当該他の1つの候補枠は、背景クラスのリストに追加されない。
以上のように、全候補枠について、背景クラスに対する分類処理を実行した後、全候補枠について、背景クラス以外の他のクラス(例えば自動車クラス)に対する分類処理(第3判定の処理)を実行する。同様に、自動車クラスに対する分類処理が終了した後、全候補枠について、背景クラス及び自動車クラス以外の他のクラス(例えば、歩行者クラス)に対する分類処理を実行する。このようにして、全候補枠について、全クラスに対する分類処理を実行する。
図示していないが、情報処理装置100は、上記の一連の処理により背景クラス以外の他のクラスのリストに追加された各候補枠の背景クラスに対する尤度より大きい値を第1閾値として決定する。例えば、第1閾値は、他のクラスのリストに追加された各候補枠の背景クラスに対する尤度の平均値よりも大きい値であってもよく、最大値よりも大きい値であってもよい。これにより、情報処理装置100は、第1判定において、物体が映っている可能性のある候補枠を取りこぼすことなく、背景ではないクラスに分類することができる。
[4-3.決定された第1閾値の調整]
続いて、情報処理装置100は、図7に示される処理によって決定された第1閾値を用いて、入力画像における全候補枠に対して第1判定を実行し、第1閾値が適切であるか否かを判定し、判定結果に基づいて、第1閾値の値を調整する。
図8は、機械学習モデルのオフライン処理の他の例を示すフローチャートである。図8に示される処理フローでは、情報処理装置100は、入力画像における全候補枠について、第1クラスに(ここでは、背景クラス)に対する尤度が第1閾値以上か否かを判定する第1判定を実行し、全候補枠を背景クラス及び背景ではないクラスのいずれかに分類する。第1閾値は、第1クラス(ここでは、背景クラス)の閾値である。なお、図7及び図8に示される処理フローでは、情報処理装置100は、同じ入力画像を機械学習モデルに入力している。
図8に示されるように、情報処理装置100は、機械学習モデルによって、全候補枠について、背景クラスに分類されるか否かを判定する。例えば、ある候補枠の背景クラスに対する尤度が背景の閾値以上であるか否かを判定する(ステップS801)。当該ある候補枠の背景クラスに対する尤度が背景の閾値以上である場合(ステップS801でYes)、当該ある候補枠は、背景クラスに追加される。一方、当該ある候補枠の背景クラスに対する尤度が背景の閾値よりも小さい場合(ステップS801でNo)、当該ある候補枠は、背景ではない(not BG)クラスに追加される(ステップS802)。
次いで、情報処理装置100は、他の候補枠のそれぞれについて、同様の処理を実行し、背景リスト及び背景ではないリストのいずれかに分類する。全候補枠について第1判定を実行し終えると、全候補枠のループが終了する。
情報処理装置100は、図7に示される処理フローにおいて背景クラス以外の他のクラスに分類された候補枠の全てが、図8に示される処理により背景ではないクラスのリストに追加されているか否かを判定する。他のクラスに分類された候補枠の全てが背景ではないクラスのリストに追加されている場合、情報処理装置100は、背景ではないクラスのリストに追加された候補枠の数と他のクラスに分類された候補枠の数との差分に応じて、第1閾値に所定のマージを加えてもよい。一方、他のクラスに分類された候補枠のうち、背景ではないクラスのリストに追加されていない候補枠がある場合、情報処理装置100は、第1閾値を調整する。このとき、情報処理装置100は、他のクラスに分類されると判定された候補枠のうち背景ではないクラスのリストに追加されていない候補枠のデータに基づいて第1閾値を調整してもよい。
情報処理装置100は、第1閾値を調整した場合、調整した第1閾値を用いて、図8に示される処理フローを実行する。そして、再び、情報処理装置100は、図7に示される処理フローにおいて他のクラスに分類された候補枠の全てが、背景ではないクラスのリストに含まれるか否かを判定する。このように、情報処理装置100は、オフラインで、所定の訓練用データを用いて機械学習モデルの訓練を実行し、適切な第1閾値を決定する。
(変形例)
続いて、変形例に係る情報処理装置について説明する。ここでは、実施の形態に係る情報処理装置100と異なる点を中心に説明する。
変形例に係る情報処理装置は、第1判定において第1クラス(例えば、背景クラス)に分類されないと判定された候補枠それぞれについて、各候補枠のサイズに応じて他のクラスに対応する閾値を決定し、各候補枠の他のクラスに対する尤度が当該閾値以上か否かを判定する点で、実施の形態に係る情報処理装置100と異なる。
図9は、変形例に係る情報処理装置の動作の一例を示す第1フローチャートである。図10は、変形例に係る情報処理装置の動作の一例を示す第2フローチャートである。
図9に示されるように、変形例に係る情報処理装置は、入力画像における各候補枠の複数のクラスそれぞれに対する尤度を算出する(ステップS901)。次いで、情報処理装置は、全候補枠について第1判定を実行する。例えば、情報処理装置は、ある候補枠の背景に対する尤度が背景の閾値以上であるか否かの第1判定を実行する(ステップS902)。当該ある候補枠の背景に対する尤度が背景の閾値以上である場合(ステップS902でYes)、当該ある候補枠は、背景クラスのリストに追加される。一方、当該ある候補枠の背景に対する尤度が背景の閾値よりも小さい場合(ステップS902でNo)、当該ある候補枠は、背景ではない(not BG)リストに追加される(ステップS903)。
次いで、他の1つの候補枠の背景に対する尤度が背景の閾値以上であるか否かの第1判定を実行する(ステップS902)。当該他の1つの候補枠の背景に対する尤度が背景の閾値以上である場合(ステップS902でYes)、当該他の1つの候補枠は、背景クラスのリストに追加される。一方、当該他の1つの候補枠の背景に対する尤度が背景の閾値よりも小さい場合(ステップS902でNo)、当該他の1つの候補枠は、背景ではない(not BG)クラスのリストに追加される(ステップS903)。
全候補枠について、上記の処理ループを終了すると、背景ではないクラスのリスト中の候補枠の分類ループ処理を開始する(図10参照)。
図示していないが、変形例に係る情報処理装置は、候補枠のサイズに応じて他のクラスに対応する閾値を決定する。例えば、候補枠のサイズが小さくなるほど小さい値の閾値を設定する。これにより、情報処理装置が映像において小さく映る物体を誤検出することを低減することができる。
図10に示されるように、まず、情報処理装置は、各候補枠のサイズを判定する。例えば、情報処理装置は、図9に示される処理により背景ではないクラスのリストに追加された各候補枠のサイズがh1(高さ1)より大きく、h2(高さ2)以下であるか否かを判定する(ステップS1001)。このとき、1つめの候補枠のサイズがh1より大きくh2以下である場合(ステップS1001でYes)、当該1つめの候補枠の自動車クラスに対する尤度が自動車の閾値1以上であるか否かを判定する(ステップS1002)。当該1つめの候補枠の自動車クラスに対する尤度が自動車の閾値以上である場合、当該ある候補枠は自動車クラスのリストに追加される(ステップS1003)。一方、当該1つめ候補枠の自動車クラスに対する尤度が自動車の閾値よりも小さい場合(ステップS1002でNo)、当該1つめの候補枠は、自動車クラスのリストに追加されない。
次いで、2つめの候補枠のサイズがh1より大きく、h2以下であるか否かを判定する(ステップS1001)。当該2つめの候補枠のサイズがh1より大きく、h2以下でない場合(ステップS1001でNo)、当該2つめの候補枠のサイズがh2(高さ2)より大きく、h3(高さ3)以下であるか否かを判定する(ステップS1004)。このとき、当該2つめの候補枠のサイズがh2より大きく、h3以下である場合(ステップS1004でYes)、当該2つめの候補枠の自動車クラスに対する尤度が自動車の閾値2以上であるか否かを判定する(ステップS1005)。当該2つめの候補枠の自動車クラスに対する尤度が自動車の閾値2以上である場合(ステップS1005でYes)、当該2つめの候補枠は、自動車クラスのリストに追加される(ステップS1006)。一方、当該2つめの候補枠の自動車クラスに対する尤度が自動車の閾値2より小さい場合(ステップS1005でNo)、当該2つめの候補枠は、自動車クラスのリストに追加されない。
次いで、3つめの候補枠のサイズがh1より大きく、h2以下であるか否かを判定する(ステップS1001)。当該3つめの候補枠のサイズがh1より大きく、h2以下でない場合(ステップS1001でNo)、当該3つめの候補枠のサイズがh2(高さ2)より大きく、h3(高さ3)以下であるか否かを判定する(ステップS1004)。このとき、当該3つめの候補枠のサイズがh2より大きく、h3以下でない場合(ステップS1004でNo)、当該3つめの候補枠のサイズがh3(高さ3)より大きく、h4(高さ4)以下であるか否かを判定する(ステップS1007)。このとき、当該3つめの候補枠のサイズがh3より大きく、h4以下である場合(ステップS1007でYes)、当該3つめの候補枠の自動車クラスに対する尤度が自動車の閾値3以上であるか否かを判定する(ステップS1008)。当該3つめの候補枠の自動車クラスに対する尤度が自動車の閾値3以上である場合(ステップS1008でYes)、当該3つめの候補枠は、自動車クラスのリストに追加される(ステップS1009)。一方、当該3つめの候補枠の自動車クラスに対する尤度が自動車の閾値3より小さい場合(ステップS1008でNo)、当該3つめの候補枠は、自動車クラスのリストに追加されない。
このように、背景ではないクラスに分類された全候補枠について、自動車に対する尤度閾値の判定処理が終わると、背景クラス及び自動車クラス以外の他のクラスについて、上記の分類処理が実行される。
(他の実施の形態)
以上、1つ又は複数の態様に係る情報処理装置及び情報処理方法について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、及び、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲に含まれる。
例えば、上記の実施の形態において説明した処理は、単一の装置(システム)を用いて集中処理することによって実現してもよく、又は、複数の装置を用いて分散処理することによって実現してもよい。また、上記プログラムを実行するプロセッサは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、又は、分散処理を行ってもよい。
また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
また、上記の各実施の形態は、特許請求の範囲又はその均等の範囲において種々の変更、書き換え、付加、及び、省略などを行うことができる。
本開示は、分類処理における処理量を低減できる情報処理装置などとして利用でき、例えば、自動運転の制御、又は、防犯カメラシステムにおける人検知などに利用することができる。
10 プロセッサ
11 入力部
12 分類尤度算出部
13 第1抽出部
14 第2抽出部
15 統合部
16 出力部
20 メモリ
100 情報処理装置

Claims (6)

  1. プロセッサを備える情報処理装置であって、
    前記プロセッサは、
    分類尤度算出処理を実行する機械学習モデルを学習し、
    入力画像を取得し、
    学習済みの前記機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、
    前記各物体候補について、前記複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第1クラスに分類されるか否かの第1判定を実行し、
    前記第1判定において前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第2判定を実行し、
    前記第2判定の結果を用いて前記入力画像に映る物体の分類結果を出力
    前記第1判定では、前記各物体候補の前記第1クラスに対する尤度が第1閾値以上か否かを判定し、前記第1クラスに対する尤度が前記第1閾値以上である物体候補が前記第1クラスに分類されると判定され、
    前記機械学習モデルの学習は、
    前記機械学習モデルに訓練用入力画像を入力して、前記訓練用入力画像における前記各物体候補の複数のクラスそれぞれに対する尤度を取得し、
    前記訓練用入力画像における前記各物体候補について、前記他のクラスに分類されるか否かの第3判定を実行し、
    前記第3判定により前記他のクラスに分類されると判定された物体候補のそれぞれの前記第1クラスに対する尤度より大きい値を前記第1閾値として決定する、
    処理をオフラインで行う、
    情報処理装置。
  2. 前記プロセッサは、
    複数の前記訓練用入力画像の前記各物体候補について前記第3判定を実行し、
    複数の前記訓練用入力画像の前記各物体候補についての前記第3判定により前記他のクラスに分類されると判定された物体候補の前記第1クラスに対する尤度の全てより大きい値を前記第1閾値として決定する
    請求項に記載の情報処理装置。
  3. 前記第1クラスは、背景クラスである、
    請求項1又は2に記載の情報処理装置。
  4. 前記プロセッサは、
    前記機械学習モデルから、さらに、前記各物体候補候補枠を取得し、
    取得された前記候補枠のそれぞれのサイズを判定し、
    前記第2判定では、前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに対する尤度が前記候補枠のサイズに応じた前記他のクラスに対応する複数の閾値のうち第2閾値以上か否かを判定
    前記複数の閾値のそれぞれは、前記候補枠のそれぞれのサイズに対応付けられ、
    前記第2閾値は、取得された前記候補枠のそれぞれについて判定されたサイズに応じて適用される、
    請求項に記載の情報処理装置。
  5. プロセッサに実行させる方法であって、
    分類尤度算出処理を実行する機械学習モデルを学習し、
    入力画像を取得し、
    学習済みの前記機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、
    前記各物体候補について、前記複数のクラスにおける第1クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第1クラスに分類されるか否かの第1判定を実行し、
    前記第1判定において前記第1クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第2判定を実行し、
    前記第2判定の結果を用いて前記入力画像に映る物体の分類結果を出力
    前記第1判定では、前記各物体候補の前記第1クラスに対する尤度が第1閾値以上か否かを判定し、前記第1クラスに対する尤度が前記第1閾値以上である物体候補が前記第1クラスに分類されると判定され、
    前記機械学習モデルの学習は、
    前記機械学習モデルに訓練用入力画像を入力して、前記訓練用入力画像における前記各物体候補の複数のクラスそれぞれに対する尤度を取得し、
    前記訓練用入力画像における前記各物体候補について、前記他のクラスに分類されるか否かの第3判定を実行し、
    前記第3判定により前記他のクラスに分類されると判定された物体候補のそれぞれの前記第1クラスに対する尤度より大きい値を前記第1閾値として決定する、
    処理をオフラインで行う、
    情報処理方法。
  6. 請求項に記載の情報処理方法をコンピュータに実行させるための、
    プログラム。
JP2019092489A 2018-10-18 2019-05-15 情報処理装置、情報処理方法及びプログラム Active JP7311310B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2019/031587 WO2020079933A1 (ja) 2018-10-18 2019-08-09 情報処理装置、情報処理方法及びプログラム
EP19872900.6A EP3869450A4 (en) 2018-10-18 2019-08-09 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN201980005337.2A CN111417960A (zh) 2018-10-18 2019-08-09 信息处理装置、信息处理方法及程序
US16/859,264 US11526708B2 (en) 2018-10-18 2020-04-27 Information processing device, information processing method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862747276P 2018-10-18 2018-10-18
US62/747,276 2018-10-18

Publications (2)

Publication Number Publication Date
JP2020064604A JP2020064604A (ja) 2020-04-23
JP7311310B2 true JP7311310B2 (ja) 2023-07-19

Family

ID=70388335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019092489A Active JP7311310B2 (ja) 2018-10-18 2019-05-15 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US11526708B2 (ja)
EP (1) EP3869450A4 (ja)
JP (1) JP7311310B2 (ja)
CN (1) CN111417960A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021103347A (ja) * 2019-12-24 2021-07-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN111860376B (zh) * 2020-07-24 2023-10-31 北京博维航空设施管理有限公司 一种舱门的轮廓拟合方法及装置
CN111931727A (zh) * 2020-09-23 2020-11-13 深圳市商汤科技有限公司 点云数据标注方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108407A (ja) 2005-10-13 2007-04-26 Nec Corp 音声認識システムと音声認識方法およびプログラム
JP2014515128A (ja) 2011-03-04 2014-06-26 エルビーティー イノベーションズ リミテッド 明細書微生物増殖を分析する方法およびソフトウェア
JP2016177046A (ja) 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7648460B2 (en) * 2005-08-31 2010-01-19 Siemens Medical Solutions Usa, Inc. Medical diagnostic imaging optimization based on anatomy recognition
US9355337B2 (en) * 2009-08-25 2016-05-31 Xerox Corporation Consistent hierarchical labeling of image and image regions
US9235781B2 (en) * 2013-08-09 2016-01-12 Kabushiki Kaisha Toshiba Method of, and apparatus for, landmark location
CN104331715B (zh) * 2014-10-08 2018-08-28 清华大学 基于模板学习的指纹姿态矫正方法及系统
JP2016151805A (ja) 2015-02-16 2016-08-22 大日本印刷株式会社 オブジェクト検出装置、オブジェクト検出方法、及びプログラム
US9946951B2 (en) * 2015-08-12 2018-04-17 International Business Machines Corporation Self-optimized object detection using online detector selection
JP2017084006A (ja) * 2015-10-26 2017-05-18 キヤノン株式会社 画像処理装置およびその方法
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
US10657364B2 (en) * 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
JP6964234B2 (ja) * 2016-11-09 2021-11-10 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN108664844A (zh) * 2017-03-28 2018-10-16 爱唯秀股份有限公司 卷积深度神经网络的图像目标语义识别及追踪
US10242294B2 (en) * 2017-05-01 2019-03-26 Intel Corporation Target object classification using three-dimensional geometric filtering
JP7015001B2 (ja) * 2018-03-14 2022-02-02 オムロン株式会社 欠陥検査装置、欠陥検査方法、及びそのプログラム
US11809998B2 (en) * 2020-05-20 2023-11-07 Qualcomm Incorporated Maintaining fixed sizes for target objects in frames

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108407A (ja) 2005-10-13 2007-04-26 Nec Corp 音声認識システムと音声認識方法およびプログラム
JP2014515128A (ja) 2011-03-04 2014-06-26 エルビーティー イノベーションズ リミテッド 明細書微生物増殖を分析する方法およびソフトウェア
JP2016177046A (ja) 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jingyan Wang, et al.,"The more you look, the more you see: towards general object understanding through recursive refinement",Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision,IEEE,2018年03月15日,Pages 1794-1803,ISBN: 978-1-5386-4886-5, <DOI: DOI: 10.1109/WACV.2018.00199>.
山下 隆義,「イラストで学ぶ ディープラーニング」,日本,株式会社 講談社,2016年02月22日,第18~30,36~41頁,ISBN: 978-4-06-153825-2.
岡谷 貴之,「ディープラーニングと画像認識 - 基礎と最近の動向 -」,オペレーションズ・リサーチ,日本,公益社団法人 日本オペレーションズ・リサーチ学会,2015年04月01日,Vol.60, No.4,第198~204頁,ISSN: 0030-3674.
高木 俊平(外2名),「SIMDアレイ型FPGAを用いたMulti-Stream TrackingにおけるDCNNによる物体識別」,情報処理学会第78回(平成28年)全国大会講演論文集(1),日本,一般社団法人 情報処理学会,2016年03月10日,第1-157頁及び第1-158頁.

Also Published As

Publication number Publication date
JP2020064604A (ja) 2020-04-23
US11526708B2 (en) 2022-12-13
CN111417960A (zh) 2020-07-14
US20200364517A1 (en) 2020-11-19
EP3869450A4 (en) 2021-12-08
EP3869450A1 (en) 2021-08-25

Similar Documents

Publication Publication Date Title
Vennelakanti et al. Traffic sign detection and recognition using a CNN ensemble
CN108960266B (zh) 图像目标检测方法及装置
CN108268869B (zh) 目标检测方法、装置及系统
JP6897335B2 (ja) 学習プログラム、学習方法および物体検知装置
CN107169421B (zh) 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
KR101848019B1 (ko) 차량 영역 검출을 통한 차량 번호판 검출 방법 및 장치
Bautista et al. Convolutional neural network for vehicle detection in low resolution traffic videos
CN107851318B (zh) 用于对象跟踪的系统和方法
JP6514192B2 (ja) ライダに基づいたオブジェクト移動の分類
CN108388879B (zh) 目标的检测方法、装置和存储介质
JP7311310B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2019051941A1 (zh) 车型识别方法、装置、设备及计算机可读存储介质
Walha et al. Video stabilization with moving object detecting and tracking for aerial video surveillance
WO2017059576A1 (en) Apparatus and method for pedestrian detection
US10964033B2 (en) Decoupled motion models for object tracking
WO2014174932A1 (ja) 画像処理装置、プログラム及び画像処理方法
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
KR101780676B1 (ko) 트레이닝 이미지를 이용하여 분류 트리를 구성함으로써 rejector를 학습하고 상기 rejector를 이용하여 테스트 이미지 상의 객체를 검출하는 방법
KR20170140214A (ko) 신경망을 위한 훈련 기준으로서의 필터 특이성
CN110097050B (zh) 行人检测方法、装置、计算机设备及存储介质
KR102476022B1 (ko) 얼굴검출 방법 및 그 장치
JP2019061505A (ja) 情報処理システム、制御システム、及び学習方法
KR101753097B1 (ko) 차량검출방법, 차량검출을 위한 데이터베이스의 구조, 및 차량검출을 위한 데이터베이스 구축방법
Baldwin et al. Inceptive event time-surfaces for object classification using neuromorphic cameras
CN112926461B (zh) 神经网络训练、行驶控制方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230706

R150 Certificate of patent or registration of utility model

Ref document number: 7311310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150