JP2022148383A

JP2022148383A - 学習方法、学習装置、及び、プログラム

Info

Publication number: JP2022148383A
Application number: JP2021050042A
Authority: JP
Inventors: 一博和気; Kazuhiro Wake
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-10-06
Anticipated expiration: 2041-03-24
Also published as: US20220309400A1; CN115131752A; JP7361342B2

Abstract

【課題】検知対象を精度よく検知可能な学習方法等を提供する。【解決手段】学習方法は、物体を含む学習用画像と、物体のクラスを示す正解クラス及び物体の学習用画像上での領域を示す正解枠を含む正解情報とを取得し（Ｓ１１）、画像を入力として物体検知結果を出力する学習モデルに学習用画像を入力することにより得られる、物体のクラスを示す検知クラス及び物体の学習用画像上での領域を示す検知枠を含む物体検知結果と正解情報との差に基づいて、学習モデルに対する評価値を算出し（Ｓ１３）、評価値に基づいて学習モデルのパラメータを調整する（Ｓ１４）ことを含む。評価値の算出では、正解枠及び検知枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、正解クラスが特定クラスであるか否かに応じて正解クラス及び検知クラスの差に対する重みを互いに異ならせることの少なくとも１つを行うことで、評価値を算出する。【選択図】図５

Description

本開示は、学習方法、学習装置、及び、プログラムに関する。

近年、運転中の事故防止のために、衝突被害低減ブレーキを搭載する車両が増えており、今後もさらに増えることが予測される。このような衝突被害低減ブレーキを実現するために、車載カメラ等が撮像した画像データを用いて、車両周囲の物体を検知する物体検知装置が知られている。車両は、物体検知装置が物体を検知した結果に基づいて走行が制御されるので、物体検知装置の検知精度は高いことが望まれる。

このような物体検知装置では、機械学習を用いて学習された物体検知のための学習モデルが用いられる。物体検知のためにアルゴリズムとしては、例えば、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔｍｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）が知られている（非特許文献１を参照）。

ＷｅｉＬｉｕｅｔａｌ．、"ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＤｅｔｅｃｔｏｒ"、インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５１２．０２３２５．ｐｄｆ＞

しかしながら、非特許文献１の技術では、物体検知装置が検知対象を精度よく検知することできない場合があるという課題がある。

そこで、本開示は、検知対象を精度よく検知可能な学習方法、学習装置、及び、プログラムを提供する。

本開示の一態様に係る学習方法は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得し、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出し、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整することを含み、前記評価値の算出では、前記正解枠及び前記検知枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも１つを行うことで、前記評価値を算出する。

本開示の一態様に係る学習装置は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得する取得部と、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出する評価部と、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整する調整部とを備え、前記評価部は、前記評価値の算出において、前記正解枠及び前記検知枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも１つを行うことで、前記評価値を算出する。

本開示の一態様に係るプログラムは、上記の学習方法をコンピュータに実行させるためのプログラムである。

本開示の一態様によれば、検知対象を精度よく検知可能な学習方法等を実現することができる。

図１は、比較例に係る車両における位置推定を説明するための概略図である。図２は、実施の形態１に係る位置推定システムの機能構成を示すブロック図である。図３は、位置推定結果の一例を示す図である。図４は、実施の形態１に係る位置推定のための学習装置の機能構成を示すブロック図である。図５は、実施の形態１に係る学習装置の動作を示すフローチャートである。図６Ａは、学習装置の学習時に与えられる正解枠を示す図である。図６Ｂは、学習装置の学習時に出力される推定枠を示す図である。図６Ｃは、学習装置の学習時における正解枠と推定枠とのズレを示す図である。図７は、実施の形態１に係る調整部によるパラメータ調整方法を説明するための図である。図８は、実施の形態２に係る位置推定装置の検知対象となるクラスを示す図である。図９は、実施の形態２に係る学習装置の動作を示すフローチャートである。図１０は、実施の形態２の変形例に係る位置推定装置の検知対象となるクラスを示す図である。図１１は、実施の形態２の変形例に係る学習装置の動作を示すフローチャートである。

（本開示に至った経緯）
近年、車載カメラ等が撮像した画像データを用いて、車両周囲の対象物を検知する物体検知装置について、様々な検討が行われている。例えば、カメラで撮像した画像データに基づいて、対象物の位置を推定する検討が行われている。対象物の位置には、車両から対象物までの距離が含まれる。車両等が自動運転を行う場合、当該車両では、例えば、ＴＴＣ（ＴｉｍｅＴｏＣｏｌｌｉｓｉｏｎ）による制御が行われる。ＴＴＣによる制御において、対象物の位置の精度は重要である。

例えば、カメラが単眼カメラである場合、単眼カメラを用いて対象物の位置を推定することにより、車両が複数のカメラを備えていなくても、対象物の位置を推定することができる。つまり、より低コストで対象物の位置を推定することができる。物体検知装置の一例として、このような対象物の位置を推定する位置推定装置が車両に搭載されることがある。

カメラで撮像した画像データに基づいて、対象物の位置を推定することについて、図１を参照しながら説明する。図１は、比較例に係る車両における位置推定を説明するための概略図である。図１は、カメラ２０を備える車両１０の前方に道路Ｌ（地面）と接触している歩行者Ｕがいる例を示している。また、車両１０は、道路Ｌに接している。図１では、車両１０が接している平面と同じ平面に歩行者Ｕが接している例を示している。歩行者Ｕは、対象物の一例である。なお、位置推定装置は、車両１０に搭載されることに限定されない。

図１に示すように、車両１０のカメラ２０は、例えば、車両１０のフロントガラス上部の室内側に設けられ、前方にいる歩行者Ｕを含む車両１０の周囲を撮像する。カメラ２０は、例えば、単眼カメラであるが、これに限定されない。

車両１０が備える位置推定装置（図示しない）は、カメラ２０が撮像した画像データに基づいて、当該歩行者Ｕの位置を推定する。位置推定装置は、例えば、撮像した画像データに写る歩行者Ｕを検知した領域（後述する推定枠）の下端が道路Ｌと接していることを前提として、当該歩行者Ｕの位置を推定する。この場合、歩行者Ｕの位置を精度よく推定するためには、例えば、画像データ上における、歩行者Ｕを検知した領域の下端を精度よく検知することが必要となる。このように、位置推定装置が車両に搭載される場合、学習モデルを用いて、歩行者Ｕを検知した領域の下端を特に精度よく検知できることが求められることがある。なお、歩行者Ｕを検知した領域の下端は、特定の位置の一例である。

しかしながら、非特許文献１には、画像データ上における特定の位置等を精度よく検知することについては、開示されていない。

なお、上記では、特定の位置の検知について例示したが、特定のクラスの検知においても同様のことが言える。例えば、非特許文献１には、特定のクラスを精度よく検知することについては、開示されていない。なお、特定のクラスとは、特に精度よく検知したい対象物を示すクラスであり、例えば、位置推定装置が車両に搭載されている場合、特定のクラスは、人物である。また、特定の位置、及び、特定のクラスは、特定の検知対象の一例である。

上記のように、従来では、特定の検知対象を精度よく検知することができないことがある。そこで、本願発明者らは、特定の検知対象を精度よく検知可能な学習方法等について、鋭意検討を行い、以下に説明する学習方法等を創案した。

これにより、評価値の算出において、位置及びクラスの中での評価値を算出するための重みを異ならせることができる。例えば、特定の検知対象に対する検知精度を向上させることができるように重みが設定されることで、重みが一定である場合に比べて、当該特定の検知対象を精度よく検知できるように学習モデルを学習させることができる。よって、本開示によれば、検知対象を精度よく検知可能な学習方法を実現することができる。

また、例えば、前記評価値の算出では、前記正解枠及び前記検知枠における特定の位置又は特定の長さの差に対する第１の重みと、前記正解枠及び前記検知枠における前記特定の位置又は前記特定の長さ以外の位置又は長さの差に対する第２の重みとを異ならせる、及び、前記正解クラスが前記特定クラスである場合の前記正解クラスと前記検知クラスとの差に対する第３の重みと、前記正解クラスが前記特定クラス以外である場合の前記正解クラスと前記検知クラスとの差に対する第４の重みとを異ならせることの少なくとも１つを行い、前記評価値を算出してもよい。

これにより、特定の位置、特定の長さ又は特定のクラスを精度よく検知することができる学習モデルを生成することができる。

また、例えば、前記評価値の算出では、少なくとも前記第１の重みと前記第２の重みとを異ならせ、前記第１の重みは、前記第２の重みより大きくてもよい。

これにより、特に、特定の位置又は特定の長さを精度よく検知することができる学習モデルを生成することができる。

また、例えば、前記評価値の算出では、前記第２の重みをゼロにしてもよい。

これにより、特定の位置又は特定の長さをさらに精度よく検知することができる学習モデルを生成することができる。

また、例えば、前記特定の位置は、前記正解枠及び前記検知枠における下端の位置であってもよい。

これにより、検知枠における下端の位置をさらに精度よく検知することができる学習モデルを生成することができる。これによれば、物体が人物である場合、人物の足元位置を精度よく検知可能な学習モデルを生成することができる。

また、例えば、前記評価値の算出では、少なくとも前記第３の重みと前記第４の重みとを異ならせ、前記第３の重みは、前記第４の重みより大きくてもよい。

これにより、特に、特定のクラス（特定のラベル）を精度よく検知することができる学習モデルを生成することができる。

また、例えば、前記正解クラスは、前記物体を分類するための第１の正解クラスと、前記物体の属性又は状態を示す第２の正解クラスとを含み、前記検知クラスは、前記物体が分類された第１の検知クラスと、検知された前記物体の属性又は状態を示す第２の検知クラスとを含み、前記第２の正解クラスが前記特定クラスである場合、前記評価値の算出では、前記第１の正解クラスと前記第１の検知クラスとの差に対する重みを前記第４の重みとし、前記第２の正解クラスと前記第２の検知クラスとの差に対する重みを前記第３の重みとしてもよい。

これにより、クラスが複数種類ある場合に、特定のクラスを精度よく検知することができる学習モデルを生成することができる。

また、本開示の一態様に係る学習装置は、物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得する取得部と、画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出する評価部と、算出された前記評価値に基づいて、前記学習モデルのパラメータを調整する調整部とを備え、前記評価部は、前記評価値の算出において、前記正解枠及び前記検知枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも１つを行うことで、前記評価値を算出するである。また、本開示の一態様に係るプログラムは、上記の学習方法をコンピュータに実行させるためのプログラムである。

これにより、上記の学習方法と同様の効果を奏する。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭ等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。例えば、数値は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。

また、本明細書において、同一などの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度（例えば、５％程度）の差異をも含むことを意味する表現である。

（実施の形態１）
以下、本実施の形態に係る位置推定システム、及び、学習装置について、図２～図７を参照しながら説明する。

［１－１．位置推定システムの構成］
まず、本実施の形態に係る位置推定システムの構成について、図２を参照しながら説明する。図２は、本実施の形態に係る位置推定システム１の機能構成を示すブロック図である。

図２に示すように、位置推定システム１は、カメラ２０と位置推定装置３０とを備える。位置推定システム１は、カメラ２０が撮像した画像データに基づいて、当該画像データに写る物体（対象物）の位置を推定する情報処理システムである。なお、位置推定システム１は移動体に搭載されることに限定されず、所定の位置に固定して使用される機器又は据え置きで使用される機器等に搭載されてもよい。以下では、位置推定システム１が移動体の一例である車両１０に搭載される例について説明する。

カメラ２０は、車両１０に搭載され、車両１０の周囲を撮像する。カメラ２０は、例えば、車両１０の前方の車幅の中心位置近くに取り付けられた小型な車載カメラ（例えば、車載単眼カメラ）である。カメラ２０は、例えば、車両１０の前方に設けられるが、車内のフロントガラス付近の天井に取り付けられてもよい。また、カメラ２０は、車両１０の後方又は側方を撮像できるように取り付けられていてもよい。

カメラ２０としては、特に限定されず、公知のカメラを用いることができる。カメラ２０は、例えば、可視光領域の波長の光を撮像する一般的な可視光カメラであるが、赤外光の情報を取得できるカメラであってもよい。また、カメラ２０は、例えば、広角で撮像するものであってもよい。また、カメラ２０は、例えば、魚眼レンズを有する魚眼カメラであってもよい。また、カメラ２０は、モノクロ画像を撮像するモノクロカメラであってもよいし、カラー画像を撮像するカラーカメラであってもよい。

カメラ２０は、撮像した画像データを位置推定装置３０に出力する。カメラ２０は、撮像装置の一例である。また、画像データは、例えば、２次元画像データである。

位置推定装置３０は、カメラ２０から取得した画像データに基づいて、対象物の位置を推定する。位置推定装置３０は、画像データに基づいて、実空間における対象物の３次元位置を推定する３次元位置推定装置である。位置推定装置３０は、検知部３１と、位置推定部３２とを有する。

検知部３１は、カメラ２０から取得した画像データに基づいて、検知対象の対象物を検知する。以下において検知部３１の検知対象の対象物のクラスは人物を含む例について説明するが、クラスは人物を含むことに限定されない。検知部３１は、カメラ２０から歩行者Ｕを含む画像データを取得する取得部として機能する。歩行者Ｕは、人物の一例である。

検知部３１は、画像データを入力とし、当該画像データに写る人物を含む物体を検知した推定枠（検知枠）、及び、検知した物体のクラス（ここでは、人物）を含む物体検知結果を出力するように学習された学習済みモデルを用いて物体を検知する。推定枠は、画像データ上での物体の領域を示しており、例えば、矩形状の枠である。推定枠は、例えば、画像データ上での座標情報を含む。座標情報は、例えば、推定枠の対角をなす点の座標を含む。

検知部３１は、カメラ２０から取得した画像データに基づく物体検知結果を位置推定部３２に出力する。

位置推定部３２は、物体検知結果に基づいて、対象物の位置を推定し、推定された位置を含む位置情報を出力する。本実施の形態に係る位置推定部３２は、歩行者Ｕが道路Ｌに接触しているという仮定に基づいて当該歩行者Ｕの位置を推定する。

具体的には、位置推定部３２は、歩行者Ｕが道路Ｌに接触しているという仮定に基づいて、検知結果に含まれる推定枠の座標を、画像データ上の座標（カメラ座標系）から実世界（実空間）における座標（直交座標系）に変換する。座標は、当該対象物の位置を示す。座標は、例えば、位置推定システム１が搭載される車両１０を基準とした位置、つまり車両１０から対象物までの距離であってもよい。なお、座標変換を行う方法は特に限定されず、既知のいかなる方法が用いられてもよい。

ここで、歩行者Ｕの位置Ｐの検知について、図３を参照しながら説明する。図３は、位置推定結果の一例を示す図である。図３では、歩行者Ｕの実際の位置Ｐが４ｍである例を示している。

図３に示すように、検知部３１により歩行者Ｕの推定枠が歩行者Ｕより大きく検知された場合、位置推定部３２は、推定枠の下端の位置を歩行者Ｕが道路Ｌ（地面）と接触している位置であるとして、歩行者Ｕの位置を推定する。図３の例では、位置推定部３２は、歩行者Ｕの位置（歩行者Ｕまでの距離）を画像上の座標から算出するので、歩行者Ｕの位置を３ｍであると算出する。この場合、位置の誤差が１ｍとなる。

このように、位置推定部３２は、推定枠の下端が道路Ｌに接触しているという仮定に基づいて、対象物の位置を算出するので、推定枠の下端が対象物の位置を算出するときの精度に大きく影響する。本実施の形態では、検知部３１は、後述する学習装置４０により学習された学習済みモデルを用いるので、推定枠の下端、つまり歩行者Ｕと道路Ｌとが接触する位置を精度よく検知することが可能である。

［１－２．学習装置の構成］
続いて、本実施の形態に係る学習装置４０について、図４を参照しながら説明する。図４は、本実施の形態に係る学習装置４０の機能構成を示すブロック図である。

図４に示すように、学習装置４０は、取得部４１と、推定部４２と、評価部４３と、調整部４４と、出力部４５とを有する。学習装置４０は、位置推定装置３０の検知部３１で用いられる、位置を推定するための学習済みモデルを生成する。本実施の形態では、学習装置４０は、対象物を検知した推定枠の下端を精度よく検知可能な学習済みモデルを生成可能なように構成される。なお、学習装置４０は、データセットを用いた機械学習により、学習モデルの学習を行う。学習モデルは、画像データに基づいて物体を検知する機械学習モデルの一例であり、例えば、ＤｅｅｐＬａｒｎｉｎｇ（深層学習）等のニューラルネットワークを用いた機械学習モデルである。機械学習モデルは、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔｍｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）等を用いて構築されてもよい。

なお、本明細書における学習とは、後述する正解枠（例えば、図６Ａを参照）と推定枠（例えば、図６Ｂを参照）とのズレ、及び、正解クラスと検知クラスとのズレを定量化した評価値が小さくなるように学習モデルのパラメータを調整することを意味する。評価値は、学習モデルの物体検知性能を示す。また、推定枠は、ＳＳＤでは、デフォルトボックスとも称される。

取得部４１は、学習モデルを学習するための学習用データを取得する。学習用データは、対象物を含む学習用画像及び当該学習用画像に対する正解情報を含むデータセットである。学習用画像は、機械学習における入力画像として用いられる。正解情報は、機械学習におけるリファレンスデータであり、例えば、物体のクラス及び物体の画像上の領域を含む。データセットは、例えば、公知のデータセットであり学習装置４０の外部の装置から取得されるが、学習装置４０により生成されてもよい。正解情報に含まれる物体のクラスは、正解クラスの一例である。画像上の領域は、矩形状の枠（図６Ａを参照）であり、正解枠とも記載する。取得部４１は、例えば、通信回路を含んで構成される。

推定部４２は、物体の推論を行う学習モデルを用いて、取得部４１が取得した学習用画像に対して推論処理を行う。推定部４２は、学習用画像を学習モデル入力して、学習用画像に写る物体の推定結果を取得する。推定結果には、物体に対する推定枠、及び、物体のクラスが含まれる。推定結果に含まれる推定枠は、検知枠の一例であり、物体のクラスは、検知クラスの一例である。

評価部４３は、推定部４２から取得した推定結果と、取得部４１が取得した学習用データに含まれる正解情報とに基づいて、学習モデルに対する評価を示す評価値を算出する。評価部４３は、例えば、評価関数を用いて評価値を算出する。詳細は後述するが、本実施の形態では、評価部４３における評価値の算出方法に特徴を有する。なお、以下では、評価値が大きいほど、学習モデルの検知性能が低いことを示す例について説明するが、これに限定されない。

調整部４４は、評価部４３が算出した評価値に基づいて学習モデルの調整を行う。調整部４４は、評価値が閾値以上である、又は、推定部４２、評価部４３及び調整部４４の一連の処理が繰り返し行われた回数が閾値回数以下である場合、評価値を用いて学習モデルの調整を行う。学習モデルの調整は、例えば、重み及びバイアスの少なくとも１つを調整することを含む。学習モデルの調整は、既知のいかなる手法が用いられてもよく、例えば、誤差逆伝播法（ＢＰ：ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）等が用いられてもよい。

なお、評価値が閾値未満であるか否か、及び、繰り返し行われた回数が閾値回数より多いか否かは、所定の条件の一例である。調整部４４は、所定の条件を満たさない場合に、学習モデルの調整を行う。

調整された学習モデルに対して、推定部４２において再度推定処理が行われる。推定部４２、評価部４３及び調整部４４は、このような調整をそれぞれ異なる複数の（例えば数千組の）学習用画像及びこれに対応する正解情報について繰り返すことによって、学習モデルの検知精度を向上させる。

出力部４５は、評価値が所定値未満である学習モデルを学習済みモデルとして出力する。出力部４５は、例えば、学習済みモデルを通信により位置推定装置３０に出力する。出力部４５と位置推定装置３０との間の通信方法は特に限定されず、有線通信であってもよいし、無線通信であってもよい。また、通信規格も特に限定されない。出力部４５は、例えば、通信回路を含んで構成される。

また、学習装置４０は、例えば、さらに、ユーザからの入力を受け付ける受付部、各種情報を記憶する記憶部等を有していてもよい。受付部は、例えば、タッチパネル、ボタン、キーボード等により実現されてもよいし、音声等による入力を受け付ける構成を有してもよい。また、記憶部は、例えば、半導体メモリ等により実現され、各種テーブル等を記憶する。

なお、学習装置４０における機械学習は、例えば、学習用画像を入力画像とし、当該学習用画像に写る物体の推定枠及び物体のクラスを正解情報として行われる。学習装置４０における機械学習は、例えば、教師ありデータによる行われるが、これに限定されない。

［１－３．学習装置の動作］
続いて、上記の学習装置４０の動作について、図５～図７を参照しながら説明する。図５は、本実施の形態に係る学習装置４０の動作を示すフローチャートである。

図５に示すように、取得部４１は、学習用データを取得する（Ｓ１１）。学習用データには、物体を含む学習用画像と、物体のクラスを示す正解クラス及び物体の学習用画像上での領域を示す正解枠を含む正解情報とが含まれる。取得部４１は、例えば、無線通信により学習用データを取得する。学習用データの取得は、例えば、ユーザの指示に基づいて行われてもよい。なお、物体のクラスを示す正解クラスには、物体のクラスに関する正解を示す情報が含まれ、例えば、物体のクラスに複数のラベルが含まれる場合、クラスにおける正解となるラベルを示す情報が含まれる。本実施の形態では、ステップＳ１１において、正解クラスとして、物体に対応するラベル（正解ラベル）が含まれる。正解情報は、アノテーション情報とも称される。

図６Ａは、学習装置４０の学習時に与えられる正解枠を示す図である。

図６Ａに示すように、学習用データには、学習用画像として人物を含む画像が含まれ、正解情報として正解枠を示す情報が含まれる。さらに、学習用データには、学習用画像に写る物体（例えば、人物）のクラスが含まれる。クラスには、人物、車両（例えば、自動車）、自転車、バイク等が一例として含まれるが、位置推定システム１の利用用途に応じて適宜決定される。また、例えば、クラスは、２つ以上の情報を含んでいてもよい。例えば、クラスは、物体及び物体の状態を示すものであってもよい。例えば、クラスは、座っている人物、走行している車両等であってもよい。また、例えば、クラスは、物体の属性及び物体の状態を示すものであってもよい。例えば、クラスは、座っている男性等であってもよい。また、例えば、クラスは、物体及び物体の属性を示すものであってもよい。例えば、クラスは、２０代の人物、赤色の車両等であってもよい。このようなクラスも、物体のクラスを示す検知クラスの一例である。なお、属性は、物体の種類等に応じて適宜決定されるが、例えば、性別、年齢、色、姿勢、感情、動作等であってもよい。

図５を再び参照して、次に、推定部４２は、学習用データを用いて、学習モデルに対して推定処理を行う（Ｓ１２）。推定部４２は、学習モデルに学習用画像を入力して得られる出力を、推定結果として取得する。推定結果には、推定枠及びクラスが含まれる。

図６Ｂは、学習装置４０の学習時に出力される推定枠を示す図である。

図６Ｂに示すように、推定部４２は、学習用画像に対する推定結果として、推定枠を取得する。図６Ｂでは、推定部４２による推定枠が人物からズレている例を示している。

図５を再び参照して、次に、評価部４３は、推定結果を評価する（Ｓ１３）。評価部４３は、推定結果を用いて、評価値を算出する。評価部４３は、画像を入力として物体検知結果を出力する学習モデルに学習用画像を入力することにより得られる物体のクラスを示す検知クラス及び物体の学習用画像上での領域を示す推定枠を含む物体検知結果を取得し、取得した物体検知結果と正解情報との差に基づいて評価値を算出する。評価値は、当該差に応じた値である。

評価部４３は、検知対象のうち、特定の検知対象のズレが評価値に与える影響を、他の検知対象のズレが評価値に与える影響より相対的に大きくなるように評価値を算出する。特定の検知対象が推定枠の下端の位置である場合、評価部４３は、例えば、評価関数における推定枠の下端の重みを、下端以外（例えば、上端）の重みより高くして評価値を算出する。例えば、評価部４３は、推定枠及び正解枠の下端のズレと上端のズレとが同値である場合、下端のズレによる評価値を上端のズレによる評価値より大きく算出する。このように、評価部４３は、調整部４４によるパラメータ調整により推定枠の下端と正解枠の下端とのズレがより小さくなるような評価を行う。

図６Ｃは、学習装置４０の学習時における正解枠と推定枠とのズレを示す図である。図６Ｃの実線枠は、図６Ａの正解枠を示しており、図６Ｃの破線枠は、図６Ｂの推定枠を示している。

図６Ｃに示すように、正解枠と推定枠とにズレが生じている。評価部４３は、正解枠と推定枠とのズレを検知するとも言える。図６Ｃでは、正解枠及び推定枠の下端及び上端のそれぞれがズレている。学習装置４０は、上記のように評価値を算出することで、下端及び上端のうち、下端のズレを優先して小さくすることができる。

なお、正解枠及び推定枠は、例えば、形状が等しい枠である。本実施の形態では、正解枠及び推定枠のそれぞれは、矩形状であるが、これに限定されない。

図７は、本実施の形態に係る調整部４４によるパラメータ調整方法を説明するための図である。図７に示す図は、図６Ｃに示す正解枠及び推定枠を拡大し、かつ、各位置の座標等を記載した図である。

図７に示すように、正解枠の重心の座標は、（ｃ＿ｘ０、ｃ＿ｙ０）であり、正解枠の幅は、Ｗ０であり、正解枠の高さは、ｈ０であり、正解枠の対角の座標は、（ｘ００、ｙ００）及び（ｘ１０、ｙ１０）である。また、推定枠の重心の座標は、（ｃ＿ｘ１、ｃ＿ｙ１）であり、推定枠の幅は、ｗ１であり、推定枠の高さは、ｈ１であり、推定枠の対角の座標は、（ｘ０１、ｙ０１）及び（ｘ１１、ｙ１１）である。なお、重心は、対角線の交点の位置である。

比較例に係る学習装置では、推定枠の対角の座標、又は、推定枠の重心、高さ及び幅の正解枠に対するズレが最小となるように学習が行われる。そのため、例えば、推定枠の対角の座標の正解枠に対するズレが最小となるように学習が行われる場合、下端の座標（例えば、座標（ｘ０１、ｙ０１））、及び、上端の座標（例えば、座標（ｘ１１、ｙ１１））のそれぞれにおいて正解枠とのズレが最小になるように学習が行われる。例えば、比較例に係る学習装置では、下端の座標の差及び上端の座標の差の重みがそれぞれ同じである。このような学習では、下端の座標を精度よく検知したい場合に、下端の座標の精度を効果的に向上させることが困難である。

一方、本実施の形態に係る学習装置４０では、上記で説明したように重みが決定されることで、推定枠の対角の座標、又は、推定枠の重心、高さ及び幅のうち、下端の座標の正解枠の下端の座標に対するズレが最小となるように学習が行われる。そのため、例えば、推定枠の対角の座標の正解枠に対するズレが最小となるように学習が行われる場合、下端の座標（例えば、座標（ｘ０１、ｙ０１））、及び、上端の座標（例えば、座標（ｘ１１、ｙ１１））のうち、下端の座標の差が最小になるように学習を行うことが可能である。このような学習により、下端の座標を精度よく検知したい場合に、下端の座標の精度を効果的に向上させることができる。

なお、推定枠の対角の座標のズレに基づく評価値は、下端の座標のズレに基づく第１の評価値と上端のズレに基づく第２の評価値との合計により算出される。また、推定枠の重心、高さ及び幅に基づく評価値は、重心のズレに基づく第３の評価値と高さのズレに基づく第４の評価値と幅のズレに基づく第５の評価値との合計により算出される。

ここで、評価部４３における評価値の算出するための評価関数について説明する。まず評価関数は、以下の（式１）により表される。

評価値＝クラスに対する評価値＋推定枠に対する評価値（式１）

（式１）に示すように、学習モデルに対する評価値は、クラスに対する評価値と推定枠に対する評価値との合計として算出される。

クラスに対する評価値は、物体の正解クラスと検知クラスとが一致していない場合、正解クラスと検知クラスとが一致している場合より高い値が設定される。また、推定枠に対する評価値は、正解枠と推定枠との位置の差が大きいほど、高い値が設定される。

評価部４３は、正解枠及び推定枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、正解クラスが特定のクラスであるか否かに応じて正解クラス及び検知クラスにおける差に対する重みを互いに異ならせることの少なくとも１つを行うことで、評価値を算出する。本実施の形態では、評価部４３は、例えば、正解枠及び推定枠における差が特定の位置又は特定の長さにおける差であるか否かに基づいて、正解枠及び推定枠の差に対する重みを異ならせる。なお、２以上の位置又は長さの差は、２以上の位置それぞれの差を含んでいてもよいし、２以上の長さそれぞれの差を含んでいてもよいし、１以上の位置の差及び１以上の長さの差を含んでいてもよい。なお、差に対する重みとは、評価値の算出において、当該差に演算される重みである。

特定の位置は、位置推定装置３０において精度よく検知したい位置であり、例えば、位置推定システム１が搭載される機器等の制御において重視される位置である。位置推定システム１が車両１０に搭載される場合、特定の位置は、例えば、推定枠の下端であるが、これに限定されない。本実施の形態では、推定枠の下端は、人物の足元位置を示しており、実空間での物体の位置を算出するために用いられる。また、特定の長さは、位置推定装置３０において精度よく検知したい長さであり、例えば、位置推定システム１が搭載される機器等の制御において重視される長さである。位置推定システム１が車両１０に搭載される場合、特定の長さは、例えば、推定枠の上下方向の長さであるが、これに限定されない。推定枠の上下方向の長さは、物体の高さ（人物である場合は身長）を算出するために用いられる。

評価部４３は、例えば、評価値の算出において、正解枠及び推定枠における特定の位置又は特定の長さの差に対する第１の重みと、正解枠及び推定枠における特定の位置又は特定の長さ以外の位置又は長さの差に対する第２の重みとを異ならせる、及び、正解クラスが特定のクラスである場合の正解クラスと検知クラスとの差に対する第３の重みと、正解クラスが特定クラス以外である場合の正解クラスと検知クラスとの差に対する第４の重みとを異ならせることの少なくとも１つを行い、評価値を算出する。本実施の形態では、評価部４３は、少なくとも第１の重みと第２の重みとを異ならせる。以下では、第１の重みと第２の重みとを異ならせる例について説明し、第３の重みと第４の重みとを異ならせる実施の形態については、実施の形態２において説明する。

例えば、推定枠に対する評価値は、図７に示す座標等を用いて、以下の（式２）により算出される。（式２）は、推定枠の重心、高さ及び幅に基づいて算出される推定枠に対する評価値を算出するための式である。

推定枠に対する評価値＝Ａ×ａｂｓ（ｃ＿ｘ＿正解枠－ｃ＿ｘ＿推定枠）＋Ｂ×ａｂｓ（ｃ＿ｙ＿正解枠－ｃ＿ｙ＿推定枠）＋Ｃ×ａｂｓ（ｗ＿正解枠－ｗ＿推定枠）＋Ｄ×ａｂｓ（ｈ＿正解枠－ｈ＿推定枠）（式２）

（式２）の第１項は、正解枠の重心と推定枠の重心との横方向における座標の差の絶対値を示しており、第２項は、正解枠の重心と推定枠の重心との縦方向における座標の差の絶対値を示している。また、第３項は、正解枠の幅と推定枠の幅との差の絶対値を示しており、第４項は、正解枠の高さと推定枠の高さとの差の絶対値を示している。なお、幅は、枠における横方向の長さであり、高さは、枠における縦方向の長さである。評価部４３は、重みＡ、Ｂ、Ｃ及びＤを調整することで、重視する位置にズレがある場合に、評価値を効果的に大きくすることができる。

評価部４３は、特定の位置が枠の下端の位置である又は特定の長さが枠の高さである場合、例えば、特定の検知対象が人物の足元位置又は推定枠の高さ（人物の身長）である場合、重みＢ及びＤを重みＡ及びＣのそれぞれより大きな値とする。この場合、重みＢ及びＤは、第１の重みの一例であり、重みＡ及びＣは、第２の重みの一例である。また、重みＢ及びＤのそれぞれ、並びに、重みＡ及びＣのそれぞれは、互いに異なる値であってもよいし、同じ値であってもよい。特定の検知対象以外の検知対象における重みは、例えば、全て同じ値であってもよい。

また、評価部４３は、特定の長さが枠の幅である場合、例えば、特定の検知対象が推定枠の幅（人物の幅）である場合、重みＡ及びＣを重みＢ及びＤのそれぞれより大きな値とする。この場合、重みＡ及びＣは、第１の重みの一例であり、重みＢ及びＤは、第２の重みの一例である。

上記のように、本実施の形態では、評価部４３は、少なくとも第１の重みと第２の重みとを異ならせて、推定枠に対する評価値を算出する。評価部４３は、正解枠及び推定枠における特定の位置又は特定の長さの差に対する第１の重みを、正解枠及び推定枠における特定の位置又は特定の長さ以外の位置又は長さの差に対する第２の重みより大きくする。評価部４３は、例えば、重みＡ、Ｂ、Ｃ及びＤのうち、少なくとも１つの重みを他の重みと異なる値とし、評価値を算出する。

なお、評価部４３は、（式２）に基づいて推定枠に対する評価値を算出することに限定されない。評価部４３は、例えば、人物の足元位置に特化した検知を行う場合、人物の足元位置の項のみに基づいて、推定枠に対する評価値を算出してもよい。このような式は、例えば、以下の（式３）により表される。

推定枠に対する評価値＝ａｂｓ（ｃ＿ｙ＿正解枠－ｃ＿ｙ＿推定枠）（式３）

評価部４３は、人物の足元位置を精度よく検知する場合、正解枠における人物の足元位置に対応する座標であるｃ＿ｙ＿正解枠、及び、推定枠における人物の足元位置に対応する座標であるｃ＿ｙ＿推定枠のみを用いて、推定枠に対する評価値を算出してもよい。このように、評価部４３は、評価値の算出において、正解枠及び推定枠における特定の位置又は長さ以外の位置又は長さの差に対する第２の重みをゼロにしてもよい。（式３）は、（式２）において、重みＢを１とし、かつ、重みＡ、Ｃ及びＤを０にした式を示す。この場合、重みＢは、第１の重みの一例であり、重みＡ、Ｃ及びＤは、第２の重みの一例である。

評価部４３は、別々に算出したクラスに対する評価値と推定枠に対する評価値とを合計することで、学習モデルに対する評価値を算出する。

図５を再び参照して、次に、調整部４４は、ステップＳ１３において算出された評価値に基づいて、学習モデルのパラメータを調整する（Ｓ１４）。調整部４４は、例えば、評価値が所定の条件を満たさない場合に、学習モデルのパラメータを調整する。調整部４４は、例えば、ステップＳ１３において算出された評価値が閾値未満であるか否かを判定し、評価値が閾値以上である場合に、ステップＳ１４の処理を実行する。

このような評価値を用いて調整部４４がパラメータを調整することで、特定の検知対象（例えば、重視する位置）のズレが効果的に抑制されるように、パラメータが調整される。

また、出力部４５は、ステップＳ１３において算出された評価値が所定の条件を満たす場合に、学習モデルを位置推定装置３０に出力する。出力部４５は、ステップＳ１３において算出された評価値が閾値未満であるか否かを判定し、評価値が閾値未満である場合に、学習モデルを位置推定装置３０に出力する。

以上のように、本実施の形態に係る評価部４３は、（式２）及び（式３）に示す評価関数における重みを、重視する情報（重視する位置又は長さ）に応じて調整する。これにより、調整部４４は、評価値が小さくなるように学習モデルのパラメータを調整することで、重視する情報（例えば、精度よく検知したい情報）が精度よく検知されるように、効果的に学習モデルのパラメータを調整することができる。なお、評価部４３は、重視する情報の入力を受け付けると、重視する情報と重みとが対応付けられたテーブルに基づいて、各重みを決定してもよい。また、各重みは、ユーザにより直接入力されてもよい。

（実施の形態２）
以下、本実施の形態に係る学習装置４０について、図８及び図９を参照しながら説明する。なお、本実施の形態に係る学習装置４０の機能構成は、実施の形態１に係る学習装置４０と同様であり、説明を省略する。なお、図８は、本実施の形態に係る位置推定装置の検知対象となるクラスを示す図である。図８に示すように、クラスは、人物、車両、自転車及びバイクのラベルを含む。本実施の形態では、複数のラベルの中に重視するラベルが含まれる例について説明する。以下では、特定の検知対象が人物であり、人物が他のラベルに比べて重視される例について説明する。なお、図８では、クラスの一例として、物体を分類したときの物体クラスを示している。

［２－１．学習装置の動作］
本実施の形態に係る学習装置４０の動作について、図９を参照しながら説明する。図９は、本実施の形態に係る学習装置４０の動作を示すフローチャートである。なお、実施の形態１の図５に示す動作と同一又は類似の動作については、同一の符号を付し、説明を省略又は簡略化する。

図９に示すように、評価部４３は、推定結果を評価する（Ｓ１３１）。評価部４３は、推定結果を用いて、評価値を算出する。本実施の形態では、評価部４３は、少なくとも第３の重みと第４の重みとを異ならせて、クラスに対する評価値を算出する。評価部４３は、例えば、検知するラベルのうち、重視するラベルのズレがクラスに対する評価値に与える影響を、他のラベルのズレがクラスに対する評価値に与える影響より相対的に大きくなるようにクラスに対する評価値を算出する。評価部４３は、評価値の算出において、正解クラスが特定のクラス（特定のラベル）である場合、正解クラスが特定のクラスではない場合に比べて、クラスに対する評価値を算出するための重みを大きくする。例えば、第３の重みは、第４の重みより大きい。

評価部４３は、正解クラスが特定のクラスであり、検知クラスが特定のクラス以外である場合、正解クラスが特定のクラス以外であり、検知クラスが誤っている場合に比べて、クラスによる評価値が大きくなるように、第３の重みを第４の重みより大きくする。また、評価部４３は、正解クラスが特定のクラス以外であり、検知クラスが特定のクラスである場合、正解クラスが特定のクラス以外であり、検知クラスが特定のクラス以外で誤っている場合に比べて、クラスによる評価値が大きくなるように、第４の重みを第３の重みより大きくしてもよい。

評価部４３は、特定のクラス（特定のラベル）が人物である場合、例えば、正解クラス（正解ラベル）が人物であり、かつ、検知クラスが人物以外である場合、正解クラスが人物以外であり、かつ、検知クラスが正解クラス以外のラベルである場合に比べて、第３の重みを第４の重みより大きくしてもよい。評価部４３は、例えば、特定のクラスが人物である場合、評価関数における人物の重みを他のラベルの重みより高くして評価するとも言える。

以上のように、本実施の形態に係る評価部４３は、評価関数における重みを、重視する情報（重視するクラス）に応じて調整する。これにより、調整部４４は、評価値が小さくなるように学習モデルのパラメータを調整することで、重視する情報（例えば、精度よく検知したいクラス）が精度よく検知されるように、効果的に学習モデルのパラメータを調整することができる。例えば、クラスが複数のラベルを含む場合、特定のラベルの検知精度が向上した学習済みモデルを生成することができる。特定のラベルは、特定のクラスの一例である。

（実施の形態２の変形例）
以下、本実施の形態に係る学習装置４０について、図１０及び図１１を参照しながら説明する。なお、本変形例に係る学習装置４０の機能構成は、実施の形態１に係る学習装置４０と同様であり、説明を省略する。なお、図１０は、本変形例に係る位置推定装置の検知対象となるクラスを示す図である。図１０に示すように、クラスは、クラス１、クラス２及びクラス３の３つのクラスを出力する。３つのクラスは、物体検知結果に含まれる。なお、クラスの数は、３つに限定されず、２以上であればよい。なお、複数のクラスのそれぞれは、互いに異なる種類のクラスである。

クラス１は、物体を分類したクラスであり、例えば、人物、車両、自転車及びバイク等を含む。クラス１は、物体のカテゴリを示すとも言える。クラス２は、物体の属性を示すクラスであり、例えば、物体が人物である場合、性別等を含む。クラス３は、物体の状態を示すクラスであり、例えば、物体の姿勢等を含む。姿勢は、例えば、立っている、寝ている、しゃがんでいる等であるが、これに限定されない。

この場合、学習済みモデルの検知結果のうち、クラスに対する検知結果は、クラス１が「人物」であり、クラス２が「男性」であり、クラス３が「立っている」等である。

このように、クラスが複数ある場合、特定のクラスを他のクラスより精度よく検知することが望まれることがある。以下では、クラス１～３のうち、クラス３を他のクラスより精度よく検知する例について説明する。クラス３は、特定の検知対象（特定のクラス）の一例である。

続いて、本変形例に係る学習装置４０の動作について、図１１を参照しながら説明する。図１１は、本変形例に係る学習装置４０の動作を示すフローチャートである。なお、実施の形態２の図９に示す動作と同一又は類似の動作については、同一の符号を付し、説明を省略又は簡略化する。

図１１に示すように、評価部４３は、推定結果を評価する（Ｓ１３２）。評価部４３は、推定結果を用いて、評価値を算出する。本変形例では、評価部４３は、検知する複数のクラスのうち、重視するクラスのズレがクラスに対する評価値に与える影響を、他のクラスのズレがクラスに対する評価値に与える影響より相対的に大きくなるように評価値を算出する。評価部４３は、評価値の算出において、クラス３が特定のクラスである場合、クラス３に対する正解クラスと検知クラスの差に対する重みを、クラス３以外のクラスに対する正解クラスと検知クラスの差に対する重みより大きくする。図１０の例では、クラス１～３のうち、クラス３に対する重みを、クラス１及び２のそれぞれより大きくする。

このように、正解クラスは、物体を分類するためのクラス１（第１の正解クラスの一例）と、物体の属性又は状態を示すクラス２又は３（第２の正解クラスの一例）とを含む。検知クラスは、物体が分類された第１の検知クラスと、検知された物体の属性又は状態を示す第２の検知クラスとを含む。そして、評価部４３は、第１の正解クラス及び第２の正解クラスの一方が特定クラスである場合、当該一方と、当該一方に対応する検知クラスとの差に対する重みを第３の重みとし、他方と、当該他方に対応する検知クラスとの差に対する重みを第４の重みとする。評価部４３は、例えば、第２の正解クラスが特定クラスであり、かつ、第１の正解クラスが特定クラスではない場合、評価値の算出において、第１の正解クラスと第１の検知クラスとの差に対する重みを第４の重みとし、第２の正解クラスと第２の検知クラスとの差に対する重みを第３の重みとする。つまり、評価部４３は、評価値の算出において、第２の正解クラスと第２の検知クラスとの差に対する重みを、第１の正解クラスと第１の検知クラスとの差に対する重みより大きくする。

なお、第１の正解クラスは、物体を分類するためのクラスであり、第２の正解クラスは、物体の属性又は状態を示すクラスであることに限定されない。第１の正解クラスと第２の正解クラスとは、互いに種類が異なるクラスであればよい。第１の正解クラスと第２の正解クラスとは、例えば、互いに異なるラベルを含む。

以上のように、本変形例に係る評価部４３は、評価関数における重みを、重視する情報（複数のクラスのうち重視するクラス）に応じて調整する。これにより、調整部４４は、評価値が小さくなるように学習モデルのパラメータを調整することで、重視する情報（例えば、精度よく検知したいクラス）が精度よく検知されるように、効果的に学習モデルのパラメータを調整することができる。

（その他の実施の形態）
以上、一つまたは複数の態様に係る学習方法等について、実施の形態等に基づいて説明したが、本開示は、この実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。

例えば、上記実施の形態等では、調整部は、クラスに対する評価値と推定枠に対する評価値とを合計した評価値が閾値（第１の閾値）未満であるか否かの判定結果に基づいて、学習モデルのパラメータを調整したが、これに限定されない。調整部は、クラスに対する評価値と推定枠に対する評価値とのいずれかが閾値（第２の閾値）未満であるか否かの判定結果に基づいて、学習モデルのパラメータを調整してもよい。調整部は、例えば、特定の検知対象に対する評価値を含んで算出された評価値（クラスに対する評価値及び推定枠に対する評価値のうちのいずれか一方）が第２の閾値未満であるか否かの判定を行い、当該評価値が第２の閾値以上である場合に、学習モデルのパラメータを調整してもよい。

また、上記実施の形態等では、正解枠及び推定枠が矩形状である例について説明したが、枠形状は矩形状であることに限定されない。

また、上記実施の形態２の変形例では、クラス２は性別である例について説明したが、これに限定されず、年齢（例えば、１０代、２０代等）、肌の色、大人又は子供等の少なくとも１つを含んでいてもよい。また、クラス３は、姿勢である例について説明したが、これに限定されず、感情、表情、動作等の少なくとも１つを含んでいてもよい。

また、上記実施の形態等では、学習時における評価値の算出について説明したが、本開示は、学習済みモデルを再学習するときの評価値の算出にも適用可能である。

また、上記実施の形態等では、学習モデルは、ＤｅｅｐＬｅａｒｎｉｎｇ等のニューラルネットワークを用いた機械学習モデルである例について説明したが、他の機械学習モデルであってもよい。例えば、機械学習モデルは、ＲａｎｄｏｍＦｏｒｅｓｔ、ＧｅｎｅｔｉｃＰｒｏｇｒａｍｍｉｎｇ等を用いた機械学習モデルであってもよい。

また、上記実施の形態等において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時（並列）に実行されてもよいし、上記ステップの一部は実行されなくてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、上記実施の形態等に係る学習装置は、単一の装置として実現されてもよいし、複数の装置により実現されてもよい。学習装置が複数の装置によって実現される場合、当該学習装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。また、学習装置が備える各構成要素の少なくとも１つは、サーバ装置により実現されてもよい。また、学習装置が複数の装置で実現される場合、当該学習装置が備える装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信および有線通信が組み合わされてもよい。

また、上記実施の形態等で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるＬＳＩとして実現されてもよい。これらは、個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又は、ＬＳＩ内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。

システムＬＳＩは、複数の処理部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

また、本開示の一態様は、図５、図９又は図１１などに示す学習方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。

本開示は、カメラで撮像した画像データを用いて対象物の位置等を推定するための機械学習モデルを生成する学習装置に有用である。

１位置推定システム
１０車両
２０カメラ
３０位置推定装置
３１検知部
３２位置推定部
４０学習装置
４１取得部
４２推定部
４３評価部
４４調整部
４５出力部
Ａ、Ｂ、Ｃ、Ｄ重み
Ｌ道路
Ｐ位置
Ｕ歩行者

Claims

物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得し、
画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出し、
算出された前記評価値に基づいて、前記学習モデルのパラメータを調整することを含み、
前記評価値の算出では、前記正解枠及び前記検知枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも１つを行うことで、前記評価値を算出する
学習方法。
前記評価値の算出では、前記正解枠及び前記検知枠における特定の位置又は特定の長さの差に対する第１の重みと、前記正解枠及び前記検知枠における前記特定の位置又は前記特定の長さ以外の位置又は長さの差に対する第２の重みとを異ならせる、及び、前記正解クラスが前記特定クラスである場合の前記正解クラスと前記検知クラスとの差に対する第３の重みと、前記正解クラスが前記特定クラス以外である場合の前記正解クラスと前記検知クラスとの差に対する第４の重みとを異ならせることの少なくとも１つを行い、前記評価値を算出する
請求項１に記載の学習方法。
前記評価値の算出では、少なくとも前記第１の重みと前記第２の重みとを異ならせ、
前記第１の重みは、前記第２の重みより大きい
請求項２に記載の学習方法。
前記評価値の算出では、前記第２の重みをゼロにする
請求項２又は３に記載の学習方法。
前記特定の位置は、前記正解枠及び前記検知枠における下端の位置である
請求項２～４のいずれか１項に記載の学習方法。
前記評価値の算出では、少なくとも前記第３の重みと前記第４の重みとを異ならせ、
前記第３の重みは、前記第４の重みより大きい
請求項２～５のいずれか１項に記載の学習方法。
前記正解クラスは、前記物体を分類するための第１の正解クラスと、前記物体の属性又は状態を示す第２の正解クラスとを含み、
前記検知クラスは、前記物体が分類された第１の検知クラスと、検知された前記物体の属性又は状態を示す第２の検知クラスとを含み、
前記第２の正解クラスが前記特定クラスである場合、前記評価値の算出では、前記第１の正解クラスと前記第１の検知クラスとの差に対する重みを前記第４の重みとし、前記第２の正解クラスと前記第２の検知クラスとの差に対する重みを前記第３の重みとする
請求項２～６のいずれか１項に記載の学習方法。
物体を含む学習用画像と、前記物体のクラスを示す正解クラス及び前記物体の前記学習用画像上での領域を示す正解枠を含む正解情報とを取得する取得部と、
画像を入力として物体検知結果を出力する学習モデルに前記学習用画像を入力することにより得られる前記物体のクラスを示す検知クラス及び前記物体の前記学習用画像上での領域を示す検知枠を含む物体検知結果を取得し、取得した前記物体検知結果と前記正解情報との差に基づいて、前記学習モデルに対する評価値を算出する評価部と、
算出された前記評価値に基づいて、前記学習モデルのパラメータを調整する調整部とを備え、
前記評価部は、前記評価値の算出において、前記正解枠及び前記検知枠における２以上の位置又は長さの差のそれぞれに対する重みを互いに異ならせる、及び、前記正解クラスが特定クラスであるか否かに応じて前記正解クラス及び前記検知クラスの差に対する重みを互いに異ならせることの少なくとも１つを行うことで、前記評価値を算出する
学習装置。
請求項１～７のいずれか１項に記載の学習方法をコンピュータに実行させるためのプログラム。