JP2022148383A - 学習方法、学習装置、及び、プログラム - Google Patents

学習方法、学習装置、及び、プログラム Download PDF

Info

Publication number
JP2022148383A
JP2022148383A JP2021050042A JP2021050042A JP2022148383A JP 2022148383 A JP2022148383 A JP 2022148383A JP 2021050042 A JP2021050042 A JP 2021050042A JP 2021050042 A JP2021050042 A JP 2021050042A JP 2022148383 A JP2022148383 A JP 2022148383A
Authority
JP
Japan
Prior art keywords
class
correct
learning
evaluation value
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021050042A
Other languages
English (en)
Other versions
JP7361342B2 (ja
Inventor
一博 和気
Kazuhiro Wake
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2021050042A priority Critical patent/JP7361342B2/ja
Priority to CN202210253435.1A priority patent/CN115131752A/zh
Priority to US17/701,560 priority patent/US20220309400A1/en
Publication of JP2022148383A publication Critical patent/JP2022148383A/ja
Application granted granted Critical
Publication of JP7361342B2 publication Critical patent/JP7361342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】検知対象を精度よく検知可能な学習方法等を提供する。【解決手段】学習方法は、物体を含む学習用画像と、物体のクラスを示す正解クラス及び物体の学習用画像上での領域を示す正解枠を含む正解情報とを取得し(S11)、画像を入力として物体検知結果を出力する学習モデルに学習用画像を入力することにより得られる、物体のクラスを示す検知クラス及び物体の学習用画像上での領域を示す検知枠を含む物体検知結果と正解情報との差に基づいて、学習モデルに対する評価値を算出し(S13)、評価値に基づいて学習モデルのパラメータを調整する(S14)ことを含む。評価値の算出では、正解枠及び検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、正解クラスが特定クラスであるか否かに応じて正解クラス及び検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、評価値を算出する。【選択図】図5

Description

本開示は、学習方法、学習装置、及び、プログラムに関する。
近年、運転中の事故防止のために、衝突被害低減ブレーキを搭載する車両が増えており、今後もさらに増えることが予測される。このような衝突被害低減ブレーキを実現するために、車載カメラ等が撮像した画像データを用いて、車両周囲の物体を検知する物体検知装置が知られている。車両は、物体検知装置が物体を検知した結果に基づいて走行が制御されるので、物体検知装置の検知精度は高いことが望まれる。
このような物体検知装置では、機械学習を用いて学習された物体検知のための学習モデルが用いられる。物体検知のためにアルゴリズムとしては、例えば、SSD(Single Shot multibox Detector)が知られている(非特許文献1を参照)。
Wei Liu et al.、"SSD:Single Shot Multi Detector"、インターネット<URL:https://arxiv.org/pdf/1512.02325.pdf>
しかしながら、非特許文献1の技術では、物体検知装置が検知対象を精度よく検知することできない場合があるという課題がある。
そこで、本開示は、検知対象を精度よく検知可能な学習方法、学習装置、及び、プログラムを提供する。
本開示の一態様に係る学習方法は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得し、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出し、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整することを含み、前記評価値の算出では、前記正解枠及び前記検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、前記評価値を算出する。
本開示の一態様に係る学習装置は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得する取得部と、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出する評価部と、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整する調整部とを備え、前記評価部は、前記評価値の算出において、前記正解枠及び前記検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、前記評価値を算出する。
本開示の一態様に係るプログラムは、上記の学習方法をコンピュータに実行させるためのプログラムである。
本開示の一態様によれば、検知対象を精度よく検知可能な学習方法等を実現することができる。
図1は、比較例に係る車両における位置推定を説明するための概略図である。 図2は、実施の形態1に係る位置推定システムの機能構成を示すブロック図である。 図3は、位置推定結果の一例を示す図である。 図4は、実施の形態1に係る位置推定のための学習装置の機能構成を示すブロック図である。 図5は、実施の形態1に係る学習装置の動作を示すフローチャートである。 図6Aは、学習装置の学習時に与えられる正解枠を示す図である。 図6Bは、学習装置の学習時に出力される推定枠を示す図である。 図6Cは、学習装置の学習時における正解枠と推定枠とのズレを示す図である。 図7は、実施の形態1に係る調整部によるパラメータ調整方法を説明するための図である。 図8は、実施の形態2に係る位置推定装置の検知対象となるクラスを示す図である。 図9は、実施の形態2に係る学習装置の動作を示すフローチャートである。 図10は、実施の形態2の変形例に係る位置推定装置の検知対象となるクラスを示す図である。 図11は、実施の形態2の変形例に係る学習装置の動作を示すフローチャートである。
(本開示に至った経緯)
近年、車載カメラ等が撮像した画像データを用いて、車両周囲の対象物を検知する物体検知装置について、様々な検討が行われている。例えば、カメラで撮像した画像データに基づいて、対象物の位置を推定する検討が行われている。対象物の位置には、車両から対象物までの距離が含まれる。車両等が自動運転を行う場合、当該車両では、例えば、TTC(Time To Collision)による制御が行われる。TTCによる制御において、対象物の位置の精度は重要である。
例えば、カメラが単眼カメラである場合、単眼カメラを用いて対象物の位置を推定することにより、車両が複数のカメラを備えていなくても、対象物の位置を推定することができる。つまり、より低コストで対象物の位置を推定することができる。物体検知装置の一例として、このような対象物の位置を推定する位置推定装置が車両に搭載されることがある。
カメラで撮像した画像データに基づいて、対象物の位置を推定することについて、図1を参照しながら説明する。図1は、比較例に係る車両における位置推定を説明するための概略図である。図1は、カメラ20を備える車両10の前方に道路L(地面)と接触している歩行者Uがいる例を示している。また、車両10は、道路Lに接している。図1では、車両10が接している平面と同じ平面に歩行者Uが接している例を示している。歩行者Uは、対象物の一例である。なお、位置推定装置は、車両10に搭載されることに限定されない。
図1に示すように、車両10のカメラ20は、例えば、車両10のフロントガラス上部の室内側に設けられ、前方にいる歩行者Uを含む車両10の周囲を撮像する。カメラ20は、例えば、単眼カメラであるが、これに限定されない。
車両10が備える位置推定装置(図示しない)は、カメラ20が撮像した画像データに基づいて、当該歩行者Uの位置を推定する。位置推定装置は、例えば、撮像した画像データに写る歩行者Uを検知した領域(後述する推定枠)の下端が道路Lと接していることを前提として、当該歩行者Uの位置を推定する。この場合、歩行者Uの位置を精度よく推定するためには、例えば、画像データ上における、歩行者Uを検知した領域の下端を精度よく検知することが必要となる。このように、位置推定装置が車両に搭載される場合、学習モデルを用いて、歩行者Uを検知した領域の下端を特に精度よく検知できることが求められることがある。なお、歩行者Uを検知した領域の下端は、特定の位置の一例である。
しかしながら、非特許文献1には、画像データ上における特定の位置等を精度よく検知することについては、開示されていない。
なお、上記では、特定の位置の検知について例示したが、特定のクラスの検知においても同様のことが言える。例えば、非特許文献1には、特定のクラスを精度よく検知することについては、開示されていない。なお、特定のクラスとは、特に精度よく検知したい対象物を示すクラスであり、例えば、位置推定装置が車両に搭載されている場合、特定のクラスは、人物である。また、特定の位置、及び、特定のクラスは、特定の検知対象の一例である。
上記のように、従来では、特定の検知対象を精度よく検知することができないことがある。そこで、本願発明者らは、特定の検知対象を精度よく検知可能な学習方法等について、鋭意検討を行い、以下に説明する学習方法等を創案した。
本開示の一態様に係る学習方法は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得し、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出し、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整することを含み、前記評価値の算出では、前記正解枠及び前記検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、前記評価値を算出する。
これにより、評価値の算出において、位置及びクラスの中での評価値を算出するための重みを異ならせることができる。例えば、特定の検知対象に対する検知精度を向上させることができるように重みが設定されることで、重みが一定である場合に比べて、当該特定の検知対象を精度よく検知できるように学習モデルを学習させることができる。よって、本開示によれば、検知対象を精度よく検知可能な学習方法を実現することができる。
また、例えば、前記評価値の算出では、前記正解枠及び前記検知枠における特定の位置又は特定の長さの差に対する第1の重みと、前記正解枠及び前記検知枠における前記特定の位置又は前記特定の長さ以外の位置又は長さの差に対する第2の重みとを異ならせる、及び、前記正解クラスが前記特定クラスである場合の前記正解クラスと前記検知クラスとの差に対する第3の重みと、前記正解クラスが前記特定クラス以外である場合の前記正解クラスと前記検知クラスとの差に対する第4の重みとを異ならせることの少なくとも1つを行い、前記評価値を算出してもよい。
これにより、特定の位置、特定の長さ又は特定のクラスを精度よく検知することができる学習モデルを生成することができる。
また、例えば、前記評価値の算出では、少なくとも前記第1の重みと前記第2の重みとを異ならせ、前記第1の重みは、前記第2の重みより大きくてもよい。
これにより、特に、特定の位置又は特定の長さを精度よく検知することができる学習モデルを生成することができる。
また、例えば、前記評価値の算出では、前記第2の重みをゼロにしてもよい。
これにより、特定の位置又は特定の長さをさらに精度よく検知することができる学習モデルを生成することができる。
また、例えば、前記特定の位置は、前記正解枠及び前記検知枠における下端の位置であってもよい。
これにより、検知枠における下端の位置をさらに精度よく検知することができる学習モデルを生成することができる。これによれば、物体が人物である場合、人物の足元位置を精度よく検知可能な学習モデルを生成することができる。
また、例えば、前記評価値の算出では、少なくとも前記第3の重みと前記第4の重みとを異ならせ、前記第3の重みは、前記第4の重みより大きくてもよい。
これにより、特に、特定のクラス(特定のラベル)を精度よく検知することができる学習モデルを生成することができる。
また、例えば、前記正解クラスは、前記物体を分類するための第1の正解クラスと、前記物体の属性又は状態を示す第2の正解クラスとを含み、前記検知クラスは、前記物体が分類された第1の検知クラスと、検知された前記物体の属性又は状態を示す第2の検知クラスとを含み、前記第2の正解クラスが前記特定クラスである場合、前記評価値の算出では、前記第1の正解クラスと前記第1の検知クラスとの差に対する重みを前記第4の重みとし、前記第2の正解クラスと前記第2の検知クラスとの差に対する重みを前記第3の重みとしてもよい。
これにより、クラスが複数種類ある場合に、特定のクラスを精度よく検知することができる学習モデルを生成することができる。
また、本開示の一態様に係る学習装置は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得する取得部と、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出する評価部と、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整する調整部とを備え、前記評価部は、前記評価値の算出において、前記正解枠及び前記検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、前記評価値を算出するである。また、本開示の一態様に係るプログラムは、上記の学習方法をコンピュータに実行させるためのプログラムである。
これにより、上記の学習方法と同様の効果を奏する。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROM等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。例えば、数値は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
また、本明細書において、同一などの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度(例えば、5%程度)の差異をも含むことを意味する表現である。
(実施の形態1)
以下、本実施の形態に係る位置推定システム、及び、学習装置について、図2~図7を参照しながら説明する。
[1-1.位置推定システムの構成]
まず、本実施の形態に係る位置推定システムの構成について、図2を参照しながら説明する。図2は、本実施の形態に係る位置推定システム1の機能構成を示すブロック図である。
図2に示すように、位置推定システム1は、カメラ20と位置推定装置30とを備える。位置推定システム1は、カメラ20が撮像した画像データに基づいて、当該画像データに写る物体(対象物)の位置を推定する情報処理システムである。なお、位置推定システム1は移動体に搭載されることに限定されず、所定の位置に固定して使用される機器又は据え置きで使用される機器等に搭載されてもよい。以下では、位置推定システム1が移動体の一例である車両10に搭載される例について説明する。
カメラ20は、車両10に搭載され、車両10の周囲を撮像する。カメラ20は、例えば、車両10の前方の車幅の中心位置近くに取り付けられた小型な車載カメラ(例えば、車載単眼カメラ)である。カメラ20は、例えば、車両10の前方に設けられるが、車内のフロントガラス付近の天井に取り付けられてもよい。また、カメラ20は、車両10の後方又は側方を撮像できるように取り付けられていてもよい。
カメラ20としては、特に限定されず、公知のカメラを用いることができる。カメラ20は、例えば、可視光領域の波長の光を撮像する一般的な可視光カメラであるが、赤外光の情報を取得できるカメラであってもよい。また、カメラ20は、例えば、広角で撮像するものであってもよい。また、カメラ20は、例えば、魚眼レンズを有する魚眼カメラであってもよい。また、カメラ20は、モノクロ画像を撮像するモノクロカメラであってもよいし、カラー画像を撮像するカラーカメラであってもよい。
カメラ20は、撮像した画像データを位置推定装置30に出力する。カメラ20は、撮像装置の一例である。また、画像データは、例えば、2次元画像データである。
位置推定装置30は、カメラ20から取得した画像データに基づいて、対象物の位置を推定する。位置推定装置30は、画像データに基づいて、実空間における対象物の3次元位置を推定する3次元位置推定装置である。位置推定装置30は、検知部31と、位置推定部32とを有する。
検知部31は、カメラ20から取得した画像データに基づいて、検知対象の対象物を検知する。以下において検知部31の検知対象の対象物のクラスは人物を含む例について説明するが、クラスは人物を含むことに限定されない。検知部31は、カメラ20から歩行者Uを含む画像データを取得する取得部として機能する。歩行者Uは、人物の一例である。
検知部31は、画像データを入力とし、当該画像データに写る人物を含む物体を検知した推定枠(検知枠)、及び、検知した物体のクラス(ここでは、人物)を含む物体検知結果を出力するように学習された学習済みモデルを用いて物体を検知する。推定枠は、画像データ上での物体の領域を示しており、例えば、矩形状の枠である。推定枠は、例えば、画像データ上での座標情報を含む。座標情報は、例えば、推定枠の対角をなす点の座標を含む。
検知部31は、カメラ20から取得した画像データに基づく物体検知結果を位置推定部32に出力する。
位置推定部32は、物体検知結果に基づいて、対象物の位置を推定し、推定された位置を含む位置情報を出力する。本実施の形態に係る位置推定部32は、歩行者Uが道路Lに接触しているという仮定に基づいて当該歩行者Uの位置を推定する。
具体的には、位置推定部32は、歩行者Uが道路Lに接触しているという仮定に基づいて、検知結果に含まれる推定枠の座標を、画像データ上の座標(カメラ座標系)から実世界(実空間)における座標(直交座標系)に変換する。座標は、当該対象物の位置を示す。座標は、例えば、位置推定システム1が搭載される車両10を基準とした位置、つまり車両10から対象物までの距離であってもよい。なお、座標変換を行う方法は特に限定されず、既知のいかなる方法が用いられてもよい。
ここで、歩行者Uの位置Pの検知について、図3を参照しながら説明する。図3は、位置推定結果の一例を示す図である。図3では、歩行者Uの実際の位置Pが4mである例を示している。
図3に示すように、検知部31により歩行者Uの推定枠が歩行者Uより大きく検知された場合、位置推定部32は、推定枠の下端の位置を歩行者Uが道路L(地面)と接触している位置であるとして、歩行者Uの位置を推定する。図3の例では、位置推定部32は、歩行者Uの位置(歩行者Uまでの距離)を画像上の座標から算出するので、歩行者Uの位置を3mであると算出する。この場合、位置の誤差が1mとなる。
このように、位置推定部32は、推定枠の下端が道路Lに接触しているという仮定に基づいて、対象物の位置を算出するので、推定枠の下端が対象物の位置を算出するときの精度に大きく影響する。本実施の形態では、検知部31は、後述する学習装置40により学習された学習済みモデルを用いるので、推定枠の下端、つまり歩行者Uと道路Lとが接触する位置を精度よく検知することが可能である。
[1-2.学習装置の構成]
続いて、本実施の形態に係る学習装置40について、図4を参照しながら説明する。図4は、本実施の形態に係る学習装置40の機能構成を示すブロック図である。
図4に示すように、学習装置40は、取得部41と、推定部42と、評価部43と、調整部44と、出力部45とを有する。学習装置40は、位置推定装置30の検知部31で用いられる、位置を推定するための学習済みモデルを生成する。本実施の形態では、学習装置40は、対象物を検知した推定枠の下端を精度よく検知可能な学習済みモデルを生成可能なように構成される。なお、学習装置40は、データセットを用いた機械学習により、学習モデルの学習を行う。学習モデルは、画像データに基づいて物体を検知する機械学習モデルの一例であり、例えば、Deep Larning(深層学習)等のニューラルネットワークを用いた機械学習モデルである。機械学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)、R-CNN(Regions with CNN features)、Faster R-CNN、YOLO(You Only Look Once)、SSD(Single Shot multibox Detector)等を用いて構築されてもよい。
なお、本明細書における学習とは、後述する正解枠(例えば、図6Aを参照)と推定枠(例えば、図6Bを参照)とのズレ、及び、正解クラスと検知クラスとのズレを定量化した評価値が小さくなるように学習モデルのパラメータを調整することを意味する。評価値は、学習モデルの物体検知性能を示す。また、推定枠は、SSDでは、デフォルトボックスとも称される。
取得部41は、学習モデルを学習するための学習用データを取得する。学習用データは、対象物を含む学習用画像及び当該学習用画像に対する正解情報を含むデータセットである。学習用画像は、機械学習における入力画像として用いられる。正解情報は、機械学習におけるリファレンスデータであり、例えば、物体のクラス及び物体の画像上の領域を含む。データセットは、例えば、公知のデータセットであり学習装置40の外部の装置から取得されるが、学習装置40により生成されてもよい。正解情報に含まれる物体のクラスは、正解クラスの一例である。画像上の領域は、矩形状の枠(図6Aを参照)であり、正解枠とも記載する。取得部41は、例えば、通信回路を含んで構成される。
推定部42は、物体の推論を行う学習モデルを用いて、取得部41が取得した学習用画像に対して推論処理を行う。推定部42は、学習用画像を学習モデル入力して、学習用画像に写る物体の推定結果を取得する。推定結果には、物体に対する推定枠、及び、物体のクラスが含まれる。推定結果に含まれる推定枠は、検知枠の一例であり、物体のクラスは、検知クラスの一例である。
評価部43は、推定部42から取得した推定結果と、取得部41が取得した学習用データに含まれる正解情報とに基づいて、学習モデルに対する評価を示す評価値を算出する。評価部43は、例えば、評価関数を用いて評価値を算出する。詳細は後述するが、本実施の形態では、評価部43における評価値の算出方法に特徴を有する。なお、以下では、評価値が大きいほど、学習モデルの検知性能が低いことを示す例について説明するが、これに限定されない。
調整部44は、評価部43が算出した評価値に基づいて学習モデルの調整を行う。調整部44は、評価値が閾値以上である、又は、推定部42、評価部43及び調整部44の一連の処理が繰り返し行われた回数が閾値回数以下である場合、評価値を用いて学習モデルの調整を行う。学習モデルの調整は、例えば、重み及びバイアスの少なくとも1つを調整することを含む。学習モデルの調整は、既知のいかなる手法が用いられてもよく、例えば、誤差逆伝播法(BP:BackPropagation)等が用いられてもよい。
なお、評価値が閾値未満であるか否か、及び、繰り返し行われた回数が閾値回数より多いか否かは、所定の条件の一例である。調整部44は、所定の条件を満たさない場合に、学習モデルの調整を行う。
調整された学習モデルに対して、推定部42において再度推定処理が行われる。推定部42、評価部43及び調整部44は、このような調整をそれぞれ異なる複数の(例えば数千組の)学習用画像及びこれに対応する正解情報について繰り返すことによって、学習モデルの検知精度を向上させる。
出力部45は、評価値が所定値未満である学習モデルを学習済みモデルとして出力する。出力部45は、例えば、学習済みモデルを通信により位置推定装置30に出力する。出力部45と位置推定装置30との間の通信方法は特に限定されず、有線通信であってもよいし、無線通信であってもよい。また、通信規格も特に限定されない。出力部45は、例えば、通信回路を含んで構成される。
また、学習装置40は、例えば、さらに、ユーザからの入力を受け付ける受付部、各種情報を記憶する記憶部等を有していてもよい。受付部は、例えば、タッチパネル、ボタン、キーボード等により実現されてもよいし、音声等による入力を受け付ける構成を有してもよい。また、記憶部は、例えば、半導体メモリ等により実現され、各種テーブル等を記憶する。
なお、学習装置40における機械学習は、例えば、学習用画像を入力画像とし、当該学習用画像に写る物体の推定枠及び物体のクラスを正解情報として行われる。学習装置40における機械学習は、例えば、教師ありデータによる行われるが、これに限定されない。
[1-3.学習装置の動作]
続いて、上記の学習装置40の動作について、図5~図7を参照しながら説明する。図5は、本実施の形態に係る学習装置40の動作を示すフローチャートである。
図5に示すように、取得部41は、学習用データを取得する(S11)。学習用データには、物体を含む学習用画像と、物体のクラスを示す正解クラス及び物体の学習用画像上での領域を示す正解枠を含む正解情報とが含まれる。取得部41は、例えば、無線通信により学習用データを取得する。学習用データの取得は、例えば、ユーザの指示に基づいて行われてもよい。なお、物体のクラスを示す正解クラスには、物体のクラスに関する正解を示す情報が含まれ、例えば、物体のクラスに複数のラベルが含まれる場合、クラスにおける正解となるラベルを示す情報が含まれる。本実施の形態では、ステップS11において、正解クラスとして、物体に対応するラベル(正解ラベル)が含まれる。正解情報は、アノテーション情報とも称される。
図6Aは、学習装置40の学習時に与えられる正解枠を示す図である。
図6Aに示すように、学習用データには、学習用画像として人物を含む画像が含まれ、正解情報として正解枠を示す情報が含まれる。さらに、学習用データには、学習用画像に写る物体(例えば、人物)のクラスが含まれる。クラスには、人物、車両(例えば、自動車)、自転車、バイク等が一例として含まれるが、位置推定システム1の利用用途に応じて適宜決定される。また、例えば、クラスは、2つ以上の情報を含んでいてもよい。例えば、クラスは、物体及び物体の状態を示すものであってもよい。例えば、クラスは、座っている人物、走行している車両等であってもよい。また、例えば、クラスは、物体の属性及び物体の状態を示すものであってもよい。例えば、クラスは、座っている男性等であってもよい。また、例えば、クラスは、物体及び物体の属性を示すものであってもよい。例えば、クラスは、20代の人物、赤色の車両等であってもよい。このようなクラスも、物体のクラスを示す検知クラスの一例である。なお、属性は、物体の種類等に応じて適宜決定されるが、例えば、性別、年齢、色、姿勢、感情、動作等であってもよい。
図5を再び参照して、次に、推定部42は、学習用データを用いて、学習モデルに対して推定処理を行う(S12)。推定部42は、学習モデルに学習用画像を入力して得られる出力を、推定結果として取得する。推定結果には、推定枠及びクラスが含まれる。
図6Bは、学習装置40の学習時に出力される推定枠を示す図である。
図6Bに示すように、推定部42は、学習用画像に対する推定結果として、推定枠を取得する。図6Bでは、推定部42による推定枠が人物からズレている例を示している。
図5を再び参照して、次に、評価部43は、推定結果を評価する(S13)。評価部43は、推定結果を用いて、評価値を算出する。評価部43は、画像を入力として物体検知結果を出力する学習モデルに学習用画像を入力することにより得られる物体のクラスを示す検知クラス及び物体の学習用画像上での領域を示す推定枠を含む物体検知結果を取得し、取得した物体検知結果と正解情報との差に基づいて評価値を算出する。評価値は、当該差に応じた値である。
評価部43は、検知対象のうち、特定の検知対象のズレが評価値に与える影響を、他の検知対象のズレが評価値に与える影響より相対的に大きくなるように評価値を算出する。特定の検知対象が推定枠の下端の位置である場合、評価部43は、例えば、評価関数における推定枠の下端の重みを、下端以外(例えば、上端)の重みより高くして評価値を算出する。例えば、評価部43は、推定枠及び正解枠の下端のズレと上端のズレとが同値である場合、下端のズレによる評価値を上端のズレによる評価値より大きく算出する。このように、評価部43は、調整部44によるパラメータ調整により推定枠の下端と正解枠の下端とのズレがより小さくなるような評価を行う。
図6Cは、学習装置40の学習時における正解枠と推定枠とのズレを示す図である。図6Cの実線枠は、図6Aの正解枠を示しており、図6Cの破線枠は、図6Bの推定枠を示している。
図6Cに示すように、正解枠と推定枠とにズレが生じている。評価部43は、正解枠と推定枠とのズレを検知するとも言える。図6Cでは、正解枠及び推定枠の下端及び上端のそれぞれがズレている。学習装置40は、上記のように評価値を算出することで、下端及び上端のうち、下端のズレを優先して小さくすることができる。
なお、正解枠及び推定枠は、例えば、形状が等しい枠である。本実施の形態では、正解枠及び推定枠のそれぞれは、矩形状であるが、これに限定されない。
図7は、本実施の形態に係る調整部44によるパラメータ調整方法を説明するための図である。図7に示す図は、図6Cに示す正解枠及び推定枠を拡大し、かつ、各位置の座標等を記載した図である。
図7に示すように、正解枠の重心の座標は、(c_x0、c_y0)であり、正解枠の幅は、W0であり、正解枠の高さは、h0であり、正解枠の対角の座標は、(x00、y00)及び(x10、y10)である。また、推定枠の重心の座標は、(c_x1、c_y1)であり、推定枠の幅は、w1であり、推定枠の高さは、h1であり、推定枠の対角の座標は、(x01、y01)及び(x11、y11)である。なお、重心は、対角線の交点の位置である。
比較例に係る学習装置では、推定枠の対角の座標、又は、推定枠の重心、高さ及び幅の正解枠に対するズレが最小となるように学習が行われる。そのため、例えば、推定枠の対角の座標の正解枠に対するズレが最小となるように学習が行われる場合、下端の座標(例えば、座標(x01、y01))、及び、上端の座標(例えば、座標(x11、y11))のそれぞれにおいて正解枠とのズレが最小になるように学習が行われる。例えば、比較例に係る学習装置では、下端の座標の差及び上端の座標の差の重みがそれぞれ同じである。このような学習では、下端の座標を精度よく検知したい場合に、下端の座標の精度を効果的に向上させることが困難である。
一方、本実施の形態に係る学習装置40では、上記で説明したように重みが決定されることで、推定枠の対角の座標、又は、推定枠の重心、高さ及び幅のうち、下端の座標の正解枠の下端の座標に対するズレが最小となるように学習が行われる。そのため、例えば、推定枠の対角の座標の正解枠に対するズレが最小となるように学習が行われる場合、下端の座標(例えば、座標(x01、y01))、及び、上端の座標(例えば、座標(x11、y11))のうち、下端の座標の差が最小になるように学習を行うことが可能である。このような学習により、下端の座標を精度よく検知したい場合に、下端の座標の精度を効果的に向上させることができる。
なお、推定枠の対角の座標のズレに基づく評価値は、下端の座標のズレに基づく第1の評価値と上端のズレに基づく第2の評価値との合計により算出される。また、推定枠の重心、高さ及び幅に基づく評価値は、重心のズレに基づく第3の評価値と高さのズレに基づく第4の評価値と幅のズレに基づく第5の評価値との合計により算出される。
ここで、評価部43における評価値の算出するための評価関数について説明する。まず評価関数は、以下の(式1)により表される。
評価値=クラスに対する評価値+推定枠に対する評価値 (式1)
(式1)に示すように、学習モデルに対する評価値は、クラスに対する評価値と推定枠に対する評価値との合計として算出される。
クラスに対する評価値は、物体の正解クラスと検知クラスとが一致していない場合、正解クラスと検知クラスとが一致している場合より高い値が設定される。また、推定枠に対する評価値は、正解枠と推定枠との位置の差が大きいほど、高い値が設定される。
評価部43は、正解枠及び推定枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、正解クラスが特定のクラスであるか否かに応じて正解クラス及び検知クラスにおける差に対する重みを互いに異ならせることの少なくとも1つを行うことで、評価値を算出する。本実施の形態では、評価部43は、例えば、正解枠及び推定枠における差が特定の位置又は特定の長さにおける差であるか否かに基づいて、正解枠及び推定枠の差に対する重みを異ならせる。なお、2以上の位置又は長さの差は、2以上の位置それぞれの差を含んでいてもよいし、2以上の長さそれぞれの差を含んでいてもよいし、1以上の位置の差及び1以上の長さの差を含んでいてもよい。なお、差に対する重みとは、評価値の算出において、当該差に演算される重みである。
特定の位置は、位置推定装置30において精度よく検知したい位置であり、例えば、位置推定システム1が搭載される機器等の制御において重視される位置である。位置推定システム1が車両10に搭載される場合、特定の位置は、例えば、推定枠の下端であるが、これに限定されない。本実施の形態では、推定枠の下端は、人物の足元位置を示しており、実空間での物体の位置を算出するために用いられる。また、特定の長さは、位置推定装置30において精度よく検知したい長さであり、例えば、位置推定システム1が搭載される機器等の制御において重視される長さである。位置推定システム1が車両10に搭載される場合、特定の長さは、例えば、推定枠の上下方向の長さであるが、これに限定されない。推定枠の上下方向の長さは、物体の高さ(人物である場合は身長)を算出するために用いられる。
評価部43は、例えば、評価値の算出において、正解枠及び推定枠における特定の位置又は特定の長さの差に対する第1の重みと、正解枠及び推定枠における特定の位置又は特定の長さ以外の位置又は長さの差に対する第2の重みとを異ならせる、及び、正解クラスが特定のクラスである場合の正解クラスと検知クラスとの差に対する第3の重みと、正解クラスが特定クラス以外である場合の正解クラスと検知クラスとの差に対する第4の重みとを異ならせることの少なくとも1つを行い、評価値を算出する。本実施の形態では、評価部43は、少なくとも第1の重みと第2の重みとを異ならせる。以下では、第1の重みと第2の重みとを異ならせる例について説明し、第3の重みと第4の重みとを異ならせる実施の形態については、実施の形態2において説明する。
例えば、推定枠に対する評価値は、図7に示す座標等を用いて、以下の(式2)により算出される。(式2)は、推定枠の重心、高さ及び幅に基づいて算出される推定枠に対する評価値を算出するための式である。
推定枠に対する評価値=A×abs(c_x_正解枠-c_x_推定枠)+B×abs(c_y_正解枠-c_y_推定枠)+C×abs(w_正解枠-w_推定枠)+D×abs(h_正解枠-h_推定枠) (式2)
(式2)の第1項は、正解枠の重心と推定枠の重心との横方向における座標の差の絶対値を示しており、第2項は、正解枠の重心と推定枠の重心との縦方向における座標の差の絶対値を示している。また、第3項は、正解枠の幅と推定枠の幅との差の絶対値を示しており、第4項は、正解枠の高さと推定枠の高さとの差の絶対値を示している。なお、幅は、枠における横方向の長さであり、高さは、枠における縦方向の長さである。評価部43は、重みA、B、C及びDを調整することで、重視する位置にズレがある場合に、評価値を効果的に大きくすることができる。
評価部43は、特定の位置が枠の下端の位置である又は特定の長さが枠の高さである場合、例えば、特定の検知対象が人物の足元位置又は推定枠の高さ(人物の身長)である場合、重みB及びDを重みA及びCのそれぞれより大きな値とする。この場合、重みB及びDは、第1の重みの一例であり、重みA及びCは、第2の重みの一例である。また、重みB及びDのそれぞれ、並びに、重みA及びCのそれぞれは、互いに異なる値であってもよいし、同じ値であってもよい。特定の検知対象以外の検知対象における重みは、例えば、全て同じ値であってもよい。
また、評価部43は、特定の長さが枠の幅である場合、例えば、特定の検知対象が推定枠の幅(人物の幅)である場合、重みA及びCを重みB及びDのそれぞれより大きな値とする。この場合、重みA及びCは、第1の重みの一例であり、重みB及びDは、第2の重みの一例である。
上記のように、本実施の形態では、評価部43は、少なくとも第1の重みと第2の重みとを異ならせて、推定枠に対する評価値を算出する。評価部43は、正解枠及び推定枠における特定の位置又は特定の長さの差に対する第1の重みを、正解枠及び推定枠における特定の位置又は特定の長さ以外の位置又は長さの差に対する第2の重みより大きくする。評価部43は、例えば、重みA、B、C及びDのうち、少なくとも1つの重みを他の重みと異なる値とし、評価値を算出する。
なお、評価部43は、(式2)に基づいて推定枠に対する評価値を算出することに限定されない。評価部43は、例えば、人物の足元位置に特化した検知を行う場合、人物の足元位置の項のみに基づいて、推定枠に対する評価値を算出してもよい。このような式は、例えば、以下の(式3)により表される。
推定枠に対する評価値=abs(c_y_正解枠-c_y_推定枠) (式3)
評価部43は、人物の足元位置を精度よく検知する場合、正解枠における人物の足元位置に対応する座標であるc_y_正解枠、及び、推定枠における人物の足元位置に対応する座標であるc_y_推定枠のみを用いて、推定枠に対する評価値を算出してもよい。このように、評価部43は、評価値の算出において、正解枠及び推定枠における特定の位置又は長さ以外の位置又は長さの差に対する第2の重みをゼロにしてもよい。(式3)は、(式2)において、重みBを1とし、かつ、重みA、C及びDを0にした式を示す。この場合、重みBは、第1の重みの一例であり、重みA、C及びDは、第2の重みの一例である。
評価部43は、別々に算出したクラスに対する評価値と推定枠に対する評価値とを合計することで、学習モデルに対する評価値を算出する。
図5を再び参照して、次に、調整部44は、ステップS13において算出された評価値に基づいて、学習モデルのパラメータを調整する(S14)。調整部44は、例えば、評価値が所定の条件を満たさない場合に、学習モデルのパラメータを調整する。調整部44は、例えば、ステップS13において算出された評価値が閾値未満であるか否かを判定し、評価値が閾値以上である場合に、ステップS14の処理を実行する。
このような評価値を用いて調整部44がパラメータを調整することで、特定の検知対象(例えば、重視する位置)のズレが効果的に抑制されるように、パラメータが調整される。
また、出力部45は、ステップS13において算出された評価値が所定の条件を満たす場合に、学習モデルを位置推定装置30に出力する。出力部45は、ステップS13において算出された評価値が閾値未満であるか否かを判定し、評価値が閾値未満である場合に、学習モデルを位置推定装置30に出力する。
以上のように、本実施の形態に係る評価部43は、(式2)及び(式3)に示す評価関数における重みを、重視する情報(重視する位置又は長さ)に応じて調整する。これにより、調整部44は、評価値が小さくなるように学習モデルのパラメータを調整することで、重視する情報(例えば、精度よく検知したい情報)が精度よく検知されるように、効果的に学習モデルのパラメータを調整することができる。なお、評価部43は、重視する情報の入力を受け付けると、重視する情報と重みとが対応付けられたテーブルに基づいて、各重みを決定してもよい。また、各重みは、ユーザにより直接入力されてもよい。
(実施の形態2)
以下、本実施の形態に係る学習装置40について、図8及び図9を参照しながら説明する。なお、本実施の形態に係る学習装置40の機能構成は、実施の形態1に係る学習装置40と同様であり、説明を省略する。なお、図8は、本実施の形態に係る位置推定装置の検知対象となるクラスを示す図である。図8に示すように、クラスは、人物、車両、自転車及びバイクのラベルを含む。本実施の形態では、複数のラベルの中に重視するラベルが含まれる例について説明する。以下では、特定の検知対象が人物であり、人物が他のラベルに比べて重視される例について説明する。なお、図8では、クラスの一例として、物体を分類したときの物体クラスを示している。
[2-1.学習装置の動作]
本実施の形態に係る学習装置40の動作について、図9を参照しながら説明する。図9は、本実施の形態に係る学習装置40の動作を示すフローチャートである。なお、実施の形態1の図5に示す動作と同一又は類似の動作については、同一の符号を付し、説明を省略又は簡略化する。
図9に示すように、評価部43は、推定結果を評価する(S131)。評価部43は、推定結果を用いて、評価値を算出する。本実施の形態では、評価部43は、少なくとも第3の重みと第4の重みとを異ならせて、クラスに対する評価値を算出する。評価部43は、例えば、検知するラベルのうち、重視するラベルのズレがクラスに対する評価値に与える影響を、他のラベルのズレがクラスに対する評価値に与える影響より相対的に大きくなるようにクラスに対する評価値を算出する。評価部43は、評価値の算出において、正解クラスが特定のクラス(特定のラベル)である場合、正解クラスが特定のクラスではない場合に比べて、クラスに対する評価値を算出するための重みを大きくする。例えば、第3の重みは、第4の重みより大きい。
評価部43は、正解クラスが特定のクラスであり、検知クラスが特定のクラス以外である場合、正解クラスが特定のクラス以外であり、検知クラスが誤っている場合に比べて、クラスによる評価値が大きくなるように、第3の重みを第4の重みより大きくする。また、評価部43は、正解クラスが特定のクラス以外であり、検知クラスが特定のクラスである場合、正解クラスが特定のクラス以外であり、検知クラスが特定のクラス以外で誤っている場合に比べて、クラスによる評価値が大きくなるように、第4の重みを第3の重みより大きくしてもよい。
評価部43は、特定のクラス(特定のラベル)が人物である場合、例えば、正解クラス(正解ラベル)が人物であり、かつ、検知クラスが人物以外である場合、正解クラスが人物以外であり、かつ、検知クラスが正解クラス以外のラベルである場合に比べて、第3の重みを第4の重みより大きくしてもよい。評価部43は、例えば、特定のクラスが人物である場合、評価関数における人物の重みを他のラベルの重みより高くして評価するとも言える。
評価部43は、別々に算出したクラスに対する評価値と推定枠に対する評価値とを合計することで、学習モデルに対する評価値を算出する。
以上のように、本実施の形態に係る評価部43は、評価関数における重みを、重視する情報(重視するクラス)に応じて調整する。これにより、調整部44は、評価値が小さくなるように学習モデルのパラメータを調整することで、重視する情報(例えば、精度よく検知したいクラス)が精度よく検知されるように、効果的に学習モデルのパラメータを調整することができる。例えば、クラスが複数のラベルを含む場合、特定のラベルの検知精度が向上した学習済みモデルを生成することができる。特定のラベルは、特定のクラスの一例である。
(実施の形態2の変形例)
以下、本実施の形態に係る学習装置40について、図10及び図11を参照しながら説明する。なお、本変形例に係る学習装置40の機能構成は、実施の形態1に係る学習装置40と同様であり、説明を省略する。なお、図10は、本変形例に係る位置推定装置の検知対象となるクラスを示す図である。図10に示すように、クラスは、クラス1、クラス2及びクラス3の3つのクラスを出力する。3つのクラスは、物体検知結果に含まれる。なお、クラスの数は、3つに限定されず、2以上であればよい。なお、複数のクラスのそれぞれは、互いに異なる種類のクラスである。
クラス1は、物体を分類したクラスであり、例えば、人物、車両、自転車及びバイク等を含む。クラス1は、物体のカテゴリを示すとも言える。クラス2は、物体の属性を示すクラスであり、例えば、物体が人物である場合、性別等を含む。クラス3は、物体の状態を示すクラスであり、例えば、物体の姿勢等を含む。姿勢は、例えば、立っている、寝ている、しゃがんでいる等であるが、これに限定されない。
この場合、学習済みモデルの検知結果のうち、クラスに対する検知結果は、クラス1が「人物」であり、クラス2が「男性」であり、クラス3が「立っている」等である。
このように、クラスが複数ある場合、特定のクラスを他のクラスより精度よく検知することが望まれることがある。以下では、クラス1~3のうち、クラス3を他のクラスより精度よく検知する例について説明する。クラス3は、特定の検知対象(特定のクラス)の一例である。
続いて、本変形例に係る学習装置40の動作について、図11を参照しながら説明する。図11は、本変形例に係る学習装置40の動作を示すフローチャートである。なお、実施の形態2の図9に示す動作と同一又は類似の動作については、同一の符号を付し、説明を省略又は簡略化する。
図11に示すように、評価部43は、推定結果を評価する(S132)。評価部43は、推定結果を用いて、評価値を算出する。本変形例では、評価部43は、検知する複数のクラスのうち、重視するクラスのズレがクラスに対する評価値に与える影響を、他のクラスのズレがクラスに対する評価値に与える影響より相対的に大きくなるように評価値を算出する。評価部43は、評価値の算出において、クラス3が特定のクラスである場合、クラス3に対する正解クラスと検知クラスの差に対する重みを、クラス3以外のクラスに対する正解クラスと検知クラスの差に対する重みより大きくする。図10の例では、クラス1~3のうち、クラス3に対する重みを、クラス1及び2のそれぞれより大きくする。
このように、正解クラスは、物体を分類するためのクラス1(第1の正解クラスの一例)と、物体の属性又は状態を示すクラス2又は3(第2の正解クラスの一例)とを含む。検知クラスは、物体が分類された第1の検知クラスと、検知された物体の属性又は状態を示す第2の検知クラスとを含む。そして、評価部43は、第1の正解クラス及び第2の正解クラスの一方が特定クラスである場合、当該一方と、当該一方に対応する検知クラスとの差に対する重みを第3の重みとし、他方と、当該他方に対応する検知クラスとの差に対する重みを第4の重みとする。評価部43は、例えば、第2の正解クラスが特定クラスであり、かつ、第1の正解クラスが特定クラスではない場合、評価値の算出において、第1の正解クラスと第1の検知クラスとの差に対する重みを第4の重みとし、第2の正解クラスと第2の検知クラスとの差に対する重みを第3の重みとする。つまり、評価部43は、評価値の算出において、第2の正解クラスと第2の検知クラスとの差に対する重みを、第1の正解クラスと第1の検知クラスとの差に対する重みより大きくする。
なお、第1の正解クラスは、物体を分類するためのクラスであり、第2の正解クラスは、物体の属性又は状態を示すクラスであることに限定されない。第1の正解クラスと第2の正解クラスとは、互いに種類が異なるクラスであればよい。第1の正解クラスと第2の正解クラスとは、例えば、互いに異なるラベルを含む。
評価部43は、別々に算出したクラスに対する評価値と推定枠に対する評価値とを合計することで、学習モデルに対する評価値を算出する。
以上のように、本変形例に係る評価部43は、評価関数における重みを、重視する情報(複数のクラスのうち重視するクラス)に応じて調整する。これにより、調整部44は、評価値が小さくなるように学習モデルのパラメータを調整することで、重視する情報(例えば、精度よく検知したいクラス)が精度よく検知されるように、効果的に学習モデルのパラメータを調整することができる。
(その他の実施の形態)
以上、一つまたは複数の態様に係る学習方法等について、実施の形態等に基づいて説明したが、本開示は、この実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。
例えば、上記実施の形態等では、調整部は、クラスに対する評価値と推定枠に対する評価値とを合計した評価値が閾値(第1の閾値)未満であるか否かの判定結果に基づいて、学習モデルのパラメータを調整したが、これに限定されない。調整部は、クラスに対する評価値と推定枠に対する評価値とのいずれかが閾値(第2の閾値)未満であるか否かの判定結果に基づいて、学習モデルのパラメータを調整してもよい。調整部は、例えば、特定の検知対象に対する評価値を含んで算出された評価値(クラスに対する評価値及び推定枠に対する評価値のうちのいずれか一方)が第2の閾値未満であるか否かの判定を行い、当該評価値が第2の閾値以上である場合に、学習モデルのパラメータを調整してもよい。
また、上記実施の形態等では、正解枠及び推定枠が矩形状である例について説明したが、枠形状は矩形状であることに限定されない。
また、上記実施の形態2の変形例では、クラス2は性別である例について説明したが、これに限定されず、年齢(例えば、10代、20代等)、肌の色、大人又は子供等の少なくとも1つを含んでいてもよい。また、クラス3は、姿勢である例について説明したが、これに限定されず、感情、表情、動作等の少なくとも1つを含んでいてもよい。
また、上記実施の形態等では、学習時における評価値の算出について説明したが、本開示は、学習済みモデルを再学習するときの評価値の算出にも適用可能である。
また、上記実施の形態等では、学習モデルは、Deep Learning等のニューラルネットワークを用いた機械学習モデルである例について説明したが、他の機械学習モデルであってもよい。例えば、機械学習モデルは、Random Forest、Genetic Programming等を用いた機械学習モデルであってもよい。
また、上記実施の形態等において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時(並列)に実行されてもよいし、上記ステップの一部は実行されなくてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、上記実施の形態等に係る学習装置は、単一の装置として実現されてもよいし、複数の装置により実現されてもよい。学習装置が複数の装置によって実現される場合、当該学習装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。また、学習装置が備える各構成要素の少なくとも1つは、サーバ装置により実現されてもよい。また、学習装置が複数の装置で実現される場合、当該学習装置が備える装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信および有線通信が組み合わされてもよい。
また、上記実施の形態等で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるLSIとして実現されてもよい。これらは、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)又は、LSI内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。
システムLSIは、複数の処理部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
また、本開示の一態様は、図5、図9又は図11などに示す学習方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。
本開示は、カメラで撮像した画像データを用いて対象物の位置等を推定するための機械学習モデルを生成する学習装置に有用である。
1 位置推定システム
10 車両
20 カメラ
30 位置推定装置
31 検知部
32 位置推定部
40 学習装置
41 取得部
42 推定部
43 評価部
44 調整部
45 出力部
A、B、C、D 重み
L 道路
P 位置
U 歩行者

Claims (9)

  1. 物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得し、
    画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出し、
    算出された前記評価値に基づいて、前記学習モデルのパラメータを調整することを含み、
    前記評価値の算出では、前記正解枠及び前記検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、前記評価値を算出する
    学習方法。
  2. 前記評価値の算出では、前記正解枠及び前記検知枠における特定の位置又は特定の長さの差に対する第1の重みと、前記正解枠及び前記検知枠における前記特定の位置又は前記特定の長さ以外の位置又は長さの差に対する第2の重みとを異ならせる、及び、前記正解クラスが前記特定クラスである場合の前記正解クラスと前記検知クラスとの差に対する第3の重みと、前記正解クラスが前記特定クラス以外である場合の前記正解クラスと前記検知クラスとの差に対する第4の重みとを異ならせることの少なくとも1つを行い、前記評価値を算出する
    請求項1に記載の学習方法。
  3. 前記評価値の算出では、少なくとも前記第1の重みと前記第2の重みとを異ならせ、
    前記第1の重みは、前記第2の重みより大きい
    請求項2に記載の学習方法。
  4. 前記評価値の算出では、前記第2の重みをゼロにする
    請求項2又は3に記載の学習方法。
  5. 前記特定の位置は、前記正解枠及び前記検知枠における下端の位置である
    請求項2~4のいずれか1項に記載の学習方法。
  6. 前記評価値の算出では、少なくとも前記第3の重みと前記第4の重みとを異ならせ、
    前記第3の重みは、前記第4の重みより大きい
    請求項2~5のいずれか1項に記載の学習方法。
  7. 前記正解クラスは、前記物体を分類するための第1の正解クラスと、前記物体の属性又は状態を示す第2の正解クラスとを含み、
    前記検知クラスは、前記物体が分類された第1の検知クラスと、検知された前記物体の属性又は状態を示す第2の検知クラスとを含み、
    前記第2の正解クラスが前記特定クラスである場合、前記評価値の算出では、前記第1の正解クラスと前記第1の検知クラスとの差に対する重みを前記第4の重みとし、前記第2の正解クラスと前記第2の検知クラスとの差に対する重みを前記第3の重みとする
    請求項2~6のいずれか1項に記載の学習方法。
  8. 物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得する取得部と、
    画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出する評価部と、
    算出された前記評価値に基づいて、前記学習モデルのパラメータを調整する調整部とを備え、
    前記評価部は、前記評価値の算出において、前記正解枠及び前記検知枠における2以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも1つを行うことで、前記評価値を算出する
    学習装置。
  9. 請求項1~7のいずれか1項に記載の学習方法をコンピュータに実行させるためのプログラム。
JP2021050042A 2021-03-24 2021-03-24 学習方法、学習装置、及び、プログラム Active JP7361342B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021050042A JP7361342B2 (ja) 2021-03-24 2021-03-24 学習方法、学習装置、及び、プログラム
CN202210253435.1A CN115131752A (zh) 2021-03-24 2022-03-15 学习方法、学习装置以及程序记录介质
US17/701,560 US20220309400A1 (en) 2021-03-24 2022-03-22 Learning method, learning device, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021050042A JP7361342B2 (ja) 2021-03-24 2021-03-24 学習方法、学習装置、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2022148383A true JP2022148383A (ja) 2022-10-06
JP7361342B2 JP7361342B2 (ja) 2023-10-16

Family

ID=83364874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021050042A Active JP7361342B2 (ja) 2021-03-24 2021-03-24 学習方法、学習装置、及び、プログラム

Country Status (3)

Country Link
US (1) US20220309400A1 (ja)
JP (1) JP7361342B2 (ja)
CN (1) CN115131752A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021152691A (ja) * 2020-03-24 2021-09-30 株式会社 日立産業制御ソリューションズ 学習画像判定装置、プログラムおよび学習画像判定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013149146A (ja) * 2012-01-20 2013-08-01 Nec Corp 物体検知装置、物体検知方法、および、コンピュータ・プログラム
CN110378243A (zh) * 2019-06-26 2019-10-25 深圳大学 一种行人检测方法及装置
US20200193609A1 (en) * 2018-12-18 2020-06-18 Qualcomm Incorporated Motion-assisted image segmentation and object detection
JP2020126633A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. Avm及び強化学習を利用して自律走行の安全性を達成するためのアテンション−ドリブンアルゴリズムを利用したリソース割り当てのための方法及び装置{method and device for attention−driven resource allocation by using avmand reinforcement learning to thereby achieve safety of autonomous driving}

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013149146A (ja) * 2012-01-20 2013-08-01 Nec Corp 物体検知装置、物体検知方法、および、コンピュータ・プログラム
US20200193609A1 (en) * 2018-12-18 2020-06-18 Qualcomm Incorporated Motion-assisted image segmentation and object detection
JP2020126633A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. Avm及び強化学習を利用して自律走行の安全性を達成するためのアテンション−ドリブンアルゴリズムを利用したリソース割り当てのための方法及び装置{method and device for attention−driven resource allocation by using avmand reinforcement learning to thereby achieve safety of autonomous driving}
CN110378243A (zh) * 2019-06-26 2019-10-25 深圳大学 一种行人检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANAN LI ET AL.: ""Scale-Aware Fast R-CNN for Pedestrian Detection"", IEEE TRANSACTIONS ON MULTIMEDIA, vol. 20, no. 4, JPN6023010666, April 2018 (2018-04-01), pages 985 - 995, ISSN: 0005082450 *
SEBASTIAN SCHMIDT ET AL.: ""Advanced Active Learning Strategies for Object Detection"", 2020 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV), JPN6023024349, 19 October 2020 (2020-10-19), pages 871 - 876, XP033873389, ISSN: 0005082451, DOI: 10.1109/IV47402.2020.9304565 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021152691A (ja) * 2020-03-24 2021-09-30 株式会社 日立産業制御ソリューションズ 学習画像判定装置、プログラムおよび学習画像判定方法
JP7266008B2 (ja) 2020-03-24 2023-04-27 株式会社 日立産業制御ソリューションズ 学習画像判定装置、プログラムおよび学習画像判定方法

Also Published As

Publication number Publication date
US20220309400A1 (en) 2022-09-29
CN115131752A (zh) 2022-09-30
JP7361342B2 (ja) 2023-10-16

Similar Documents

Publication Publication Date Title
CN109635685B (zh) 目标对象3d检测方法、装置、介质及设备
CN107169421B (zh) 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
US20190043216A1 (en) Information processing apparatus and estimating method for estimating line-of-sight direction of person, and learning apparatus and learning method
US9626766B2 (en) Depth sensing using an RGB camera
US10366300B1 (en) Systems and methods regarding 2D image and 3D image ensemble prediction models
US8406470B2 (en) Object detection in depth images
JP2021523443A (ja) Lidarデータと画像データの関連付け
JP6398979B2 (ja) 映像処理装置、映像処理方法および映像処理プログラム
US11527077B2 (en) Advanced driver assist system, method of calibrating the same, and method of detecting object in the same
US11068754B1 (en) Systems and methods regarding image distification and prediction models
US11670097B2 (en) Systems and methods for 3D image distification
CN109598781B (zh) 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置
KR102416227B1 (ko) 건설 객체 실시간 모니터링 장치 및 모니터링 방법 및 이를 실행하기 위한 컴퓨터프로그램
KR20180056685A (ko) 비 장애물 영역 검출을 위한 시스템 및 방법
KR20170056860A (ko) 이미지 생성 방법 및 장치
JP7091686B2 (ja) 立体物認識装置、撮像装置および車両
CN110956662A (zh) 载体避障方法、装置及电子设备
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
US11640530B2 (en) Learning device, learning method, computer program product, and recognition device
JP2022148383A (ja) 学習方法、学習装置、及び、プログラム
JP2021015479A (ja) 行動認識装置、行動認識方法、及び行動認識プログラム
US20230021591A1 (en) Model generation method, model generation apparatus, non-transitory storage medium, mobile object posture estimation method, and mobile object posture estimation apparatus
US20220270351A1 (en) Image recognition evaluation program, image recognition evaluation method, evaluation apparatus, and evaluation system
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
JP2013149146A (ja) 物体検知装置、物体検知方法、および、コンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R151 Written notification of patent or utility model registration

Ref document number: 7361342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

SZ03 Written request for cancellation of trust registration

Free format text: JAPANESE INTERMEDIATE CODE: R313Z03