JP6897335B2

JP6897335B2 - 学習プログラム、学習方法および物体検知装置

Info

Publication number: JP6897335B2
Application number: JP2017108456A
Authority: JP
Inventors: 優安富; 遠藤　利生; 利生遠藤; 孝河東; 健人上村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2021-06-30
Anticipated expiration: 2037-05-31
Also published as: US10803357B2; EP3410351A1; EP3410351B1; US20180349741A1; JP2018205920A

Description

本発明は、学習プログラム、学習方法および物体検知装置に関する。

入力画像に存在する複数の物体を個別に認識して、入力画像のどこに何が写っているか検知する物体検知技術が利用されており、自動運転のための自動車や歩行者などの検知、文字認識などに用いられている。物体検知技術では、教師ありデータによる機械学習が知られおり、深層学習（ディープラーニング）によって性能が上昇している。

機械学習では教師ありデータが少ない場合に過学習が発生するが、教師ありデータを作成するには人為的なコストがかかる。このため、近年では、少ない教師ありデータと多数の教師なしデータとを用いて汎化性能を向上させる半教師あり学習が知られており、深層学習を用いたクラス分類問題の半教師あり学習としては自己符号化器が知られている。

自己符号化器は、教師あり学習を実行して、入力に対して通常のクラス分類問題を解くニューラルネットワーク（以下では、ＮＮと記載する場合がある）と、教師なし学習を実行して、このＮＮの出力から入力を復元するＮＮとを有する。

この半教師あり学習を用いる自己符号化器に物体検知を適用した検知装置では、物体検知用のＮＮの前に、クラス分類問題向けのモデルと同様の特徴抽出層を設け、特徴抽出層に対して、自己符号化器による半教師あり学習を適用する。

具体的には、検知装置は、物体検知器と自己符号化器とを有する。そして、物体検知器は、入力画像から特徴を抽出する特徴抽出用ＮＮと、特徴抽出用ＮＮから出力された特徴量から物体検知結果を出力する物体検知用ＮＮとを有して、物体検知の深層学習を実行する。自己符号化器は、特徴量から元画像を復元する復元用ＮＮを用いて、画像復元の深層学習を実行する。

特表２００９−５１４１１０号公報特開２０１０−２５７１４０号公報特開２０１１−２２１８４０号公報

しかしながら、上記検知装置では、全体として過学習になるので、汎化性能が低下する。例えば、検知装置における物体検知器の特徴抽出用ＮＮについては、教師ありデータと教師なしデータの両方で学習するので、過学習が抑制できるが、物体検知用ＮＮについては、教師ありデータのみを用いた学習になるので、過学習が発生する。

一つの側面では、過学習による汎化性能の低下を抑制することができる学習プログラム、学習方法および物体検知装置を提供することを目的とする。

第１の案では、学習プログラムは、ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いた特徴量抽出処理をコンピュータに実行させる。学習プログラムは、前記特徴量抽出処理の結果に対する、物体検知器を用いた物体検知処理をコンピュータに実行させる。学習プログラムは、前記物体検知処理の結果および前記入力データに関するメタ情報から生成された領域データに対する、復号化器を用いて復元データを生成する復元データ生成処理をコンピュータに実行させる。学習プログラムは、前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第１の学習処理をコンピュータに実行させる。学習プログラムは、前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第２の学習処理をコンピュータに実行させる。

一実施形態によれば、過学習による汎化性能の低下を抑制することができる。

図１は、半教師あり学習を適用した物体検知を説明する図である。図２は、物体検知手法を半教師あり学習に拡張する例を説明する図である。図３は、実施例１にかかる物体検知装置を説明する図である。図４は、実施例１にかかる物体検知装置の機能構成を説明する図である。図５は、実施例１にかかる物体検知装置の検知部の機能構成を示す機能ブロック図である。図６は、教師ありデータＤＢに記憶される教師ありデータの例を示す図である。図７は、メタ情報ＤＢに記憶される情報の例を示す図である。図８は、物体検知結果の例を示す図である。図９は、物体の対応付けを説明する図である。図１０は、確率マップによる物体の対応付けを説明する図である。図１１は、処理の流れを示すフローチャートである。図１２は、検知結果を分割して対応付ける例を説明する図である。図１３は、特徴量を用いた画像復元を説明する図である。図１４は、中間画像を復元する例を説明する図である。図１５は、ハードウェア構成例を説明する図である。

以下に、本願の開示する学習プログラム、学習方法および物体検知装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［物体検知装置の説明］
実施例１にかかる物体検知装置は、複数の学習器を有するコンピュータ装置の一例であり、深層学習を用いた物体検知手法において、入力画像から特徴量を抽出する部分について、自己符号化器により半教師あり学習を行う。この際、物体検知装置は、半教師あり学習により、入手コストの高い教師ありデータが少ない場合にも、教師なしデータを用いることで高い汎化性能を達成する、深層学習に基づく物体検知を実現する。

まず、一般的な半教師あり学習を適用した物体検知を説明する。図１は、半教師あり学習を適用した物体検知を説明する図である。図１に示すように、従来の物体検知装置は、入力画像（以下では、単に元画像と記載する場合がある）の物体検知を学習する物体検知器と、入力画像を復元する自己符号化器とを有する。物体検知器は、入力画像から特徴量を抽出する特徴抽出用ＮＮと、特徴抽出用ＮＮによって抽出された特徴量から入力画像内の物体を検知する物体検知用ＮＮとを有する。また、自己符号化器は、特徴量から元の入力画像を復元する元画像復元用ＮＮを有する。

ここで、特徴抽出用ＮＮは、元画像と元画像復元用ＮＮが復元した復元画像との差である誤差１、および、物体検知用ＮＮによる物体検知結果と元画像における既知の物体情報との誤差である誤差２を用いて学習する。すなわち、特徴抽出用ＮＮは、誤差１について教師なしデータによる学習を実行し、誤差２について教師ありデータによる学習を行うので、過学習とはならない。

また、物体検知用ＮＮは、物体検知用ＮＮによる物体検知結果と元画像における既知の物体情報との誤差である誤差２を用いて学習する。すなわち、物体検知用ＮＮは、教師ありデータによる学習のみを行うので、過学習となる。また、元画像復元用ＮＮは、元画像と元画像復元用ＮＮが復元した復元画像との差である誤差１を用いて学習する。すなわち、元画像復元用ＮＮは、教師なしデータによる学習のみを行うので、過学習とはならない。

このように、図１に示した一般的な半教師あり学習を適用した物体検知では、全体として過学習状態となるので、推定対象であるテストデータを適用して物体検知を行ったときの汎化性能が低下する。

この過学習を改善するために、物体検知手法を半教師あり学習に拡張する手法が考えられる。具体的には、物体検知結果を入力として、入力画像を復元するＮＮを構成する。図２は、物体検知手法を半教師あり学習に拡張する例を説明する図である。図２に示す物体検知手法は、図１と同様の構成を有するが、元画像復元用ＮＮが特徴量ではなく物体検知結果を用いて元画像を復元する点が異なる。

ここで、特徴抽出用ＮＮは、図１と同様、誤差１について教師なしデータによる学習を実行し、誤差２について教師ありデータによる学習を行うので、過学習とはならない。また、物体検知用ＮＮは、図１とは異なり、誤差１について教師なしデータによる学習を実行し、誤差２について教師ありデータによる学習を行うので、過学習とはならない。また、元画像復元用ＮＮは、誤差１について教師なしデータによる学習のみを行うので、過学習とはならない。

しかし、この手法では、物体検知結果と復元したい画像との形式が大きく異なるので、元画像復元用ＮＮで元の入力画像を復元できない。具体的には、物体検知結果は各物体の座標値であり、復元対象は画像であることから、元画像復元用ＮＮによる画像復元が難しい。この結果、全体として、半教師あり学習を実行できない。

そこで、実施例１では、座標値である物体検知の結果を、入力画像における領域と対応付ける処理により、物体検知の結果を自己符号化器に組み込んだ物体検知装置を実現する。図３は、実施例１にかかる物体検知装置を説明する図である。図３に示す物体検知手法は、図２と異なり、物体検知結果の座標値を、入力画像の領域へと対応付ける処理を実行する。すなわち、実施例１にかかる物体検知装置は、入力画像の幅や高さなどのメタ情報を用いて、物体検知結果を入力画像の領域へ対応付けた後、この対応付けた結果を用いて、元画像復元用ＮＮによる画像復元を実行する。

この結果、物体検知装置は、画像に形式が近い対応付け結果を用いて、画像復元を実行するので、元画像復元用ＮＮによる復元が実行しやすくなり、半教師あり学習を実行できる。したがって、物体検知装置は、過学習の発生を抑制し、汎化性能を向上することができる。

［機能構成］
次に、実施例１にかかる物体検知装置の機能構成について説明する。図４は、実施例１にかかる物体検知装置の機能構成を説明する図である。図４に示すように、物体検知装置１０は、記憶部１１、撮影部１２、検知部１３、集計部１４、表示部１５を有する。なお、ここで示した機能は例示であり、例えば通信制御を実行する通信処理部などを有することもできる。また、撮影部１２、検知部１３、集計部１４、表示部１５は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

記憶部１１は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。撮影部１２は、カメラなどを用いて画像を撮影する処理部であり、例えば車が走行する道路などを撮影する。

検知部１３は、訓練データを用いて物体検知を学習し、撮影部１２が撮影した画像から物体を検知する処理部である。集計部１４は、検知部１３による物体検知の結果を集計する処理部である。表示部１５は、集計部１４による集計結果をディスプレイ等に表示する処理部である。

ここで、検知部１３の詳細について説明する。図５は、実施例１にかかる物体検知装置１０の検知部１３の機能構成を示す機能ブロック図である。図５に示すように、物体検知装置１０は、教師ありデータＤＢ２０、教師なしデータＤＢ２１、メタ情報ＤＢ２２、特徴量用パラメータＤＢ２３、物体検知用パラメータＤＢ２４、復元用パラメータＤＢ２５を有する。物体検知装置１０は、特徴抽出部２６、物体検知部２７、物体検知評価部２８、検知用最適化部２９、対応付け部３０、画像復元部３１、復元評価部３２、復元用最適化部３３、特徴量用最適化部３４を有する。なお、各ＤＢは、記憶部１１に記憶されるデータベースである。

また、各処理部は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。なお、特徴量用パラメータＤＢ２３と特徴抽出部２６と特徴量用最適化部３４は、特徴抽出用ＮＮの一例であり、符号化器の一例である。物体検知用パラメータＤＢ２４と物体検知部２７と物体検知評価部２８と検知用最適化部２９は、物体検知用ＮＮの一例であり、物体検知器の一例である。また、復元用パラメータＤＢ２５と画像復元部３１と復元評価部３２と復元用最適化部３３は、元画像復元用ＮＮの一例であり、符号化器の一例である。また、各ＮＮは、それぞれ畳み込み層、プーリング層、全結合層からなるＮＮを用いることができる。

教師ありデータＤＢ２０は、教師ありの訓練データを記憶するデータベースである。具体的には、教師ありデータＤＢ２０は、入力対象の画像と、当該画像に写っている物体に関する物体情報とが対応付けられた教師ありデータを記憶する。図６は、教師ありデータＤＢ２０に記憶される教師ありデータの例を示す図である。

図６に示すように、教師ありデータＤＢ２０は、「画像、種類、ｘ座標、ｙ座標、幅、高さ」を対応付けて記憶する。「画像」は、入力画像を特定する情報であり、画像そのものであってもよく、画像の格納先を示す情報であってもよい。「種類」は、入力画像に写っている物体のクラス分けに関する情報である。「ｘ座標」は、物体の中心に該当するｘ座標であり、「ｙ座標」は、物体の中心のｙ座標である。「幅」は、物体の幅であり、「高さ」は、物体の高さである。図６の例では、画像Ａには、（ｘ、ｙ）＝（４８、１１０）を中心に、幅３３、高さ１９の乗用車が写っていることを示す。なお、幅や高さの単位は、任意に設定することができ、例えば画素数などである。

教師なしデータＤＢ２１は、教師なしの訓練データを記憶するデータベースである。具体的には、教師なしデータＤＢ２１は、入力対象の画像を記憶する。

メタ情報ＤＢ２２は、各入力画像の付加的な情報であるメタ情報を記憶するデータベースである。図７は、メタ情報ＤＢ２２に記憶される情報の例を示す図である。図７に示すように、メタ情報ＤＢ２２は、「画像、幅、高さ」を対応付けて記憶する。ここで記憶される「画像」は、入力画像を特定する情報であり、「幅」は、入力画像の幅を示す情報であり、「高さ」は、入力画像の高さを示す情報である。図７の例では、画像Ａの大きさが、幅「ＸＸ」ｃｍ、高さ「ＹＹ」ｃｍであることを示す。

特徴量用パラメータＤＢ２３は、特徴抽出用ＮＮに適用する各種パラメータを記憶するデータベースである。すなわち、特徴量用パラメータＤＢ２３は、特徴量の抽出に使用するニューラルネットワークのパラメータを記憶する。ここで記憶されるパラメータは、特徴量用最適化部３４によって学習され、特徴抽出部２６によって使用される。

物体検知用パラメータＤＢ２４は、物体検知用ＮＮに適用する各種パラメータを記憶するデータベースである。すなわち、物体検知用パラメータＤＢ２４は、物体検知に使用するニューラルネットワークのパラメータを記憶する。ここで記憶されるパラメータは、検知用最適化部２９によって学習され、物体検知部２７によって使用される。

復元用パラメータＤＢ２５は、元画像復元用ＮＮに適用する各種パラメータを記憶するデータベースである。すなわち、復元用パラメータＤＢ２５は、画像復元に使用するニューラルネットワークのパラメータを記憶する。ここで記憶されるパラメータは、復元用最適化部３３によって学習され、画像復元部３１によって使用される。

特徴抽出部２６は、特徴量用パラメータＤＢ２３に記憶されるパラメータを適用したＮＮを実行して、入力画像から特徴量を抽出する処理部である。具体的には、特徴抽出部２６は、教師ありデータの入力画像または教師なしデータの入力画像を各ＤＢから読み込み、当該入力画像から画像内のエッジ、コントラストなどを特徴量として抽出する。そして、特徴抽出部２６は、抽出した特徴量を物体検知部２７に出力する。このとき、特徴抽出部２６は、読み込んだ訓練データが教師ありデータか否かを示す情報も出力する。また、学習後の物体検知時では、特徴抽出部２６は、推定対象のテストデータである入力画像を読み込んで特徴量を抽出する。

物体検知部２７は、物体検知用パラメータＤＢ２４に記憶されるパラメータを適用したＮＮを実行して、特徴量から物体を検知する処理部である。例えば、物体検知部２７は、特徴抽出部２６によって抽出された特徴量から、入力画像に写っている各物体の位置情報を抽出して各物体を検知する。図８は、物体検知結果の例を示す図である。図８に示すように、物体検知結果は、「種類、ｘ座標、ｙ座標、幅、高さ」を対応付けた情報である。「種類」は、物体の種類を示す情報であり、「ｘ座標」は、物体の中心に該当するｘ座標であり、「ｙ座標」は、物体の中心のｙ座標である。「幅」は、物体の幅であり、「高さ」は、物体の高さである。

図８の例では、（ｘ、ｙ）＝（５０、１００）を中心に、幅３３、高さ２０の乗用車を検出し、（ｘ、ｙ）＝（１０、５０）を中心に、幅４０、高さ３０のトラックを検出したことを示す。なお、種類ごとの大きさ（幅や高さ）を予め登録しておくことで、検出された幅や高さから種類を特定できる。そして、物体検知部２７は、図８に示す物体検知結果を物体検知評価部２８と対応付け部３０に出力する。このとき、物体検知部２７は、特徴抽出部２６から通知された教師ありデータか否かを示す情報も出力する。

物体検知評価部２８は、物体検知部２７による物体検知の結果を評価する処理部である。例えば、物体検知評価部２８は、訓練データが教師ありデータの場合、入力画像に対応する物体情報を教師ありデータＤＢ２０から取得する。そして、物体検知評価部２８は、教師ありデータである既知の物体情報と、物体検知部２７によって推定された検知結果とを比較する。例えば、物体検知評価部２８は、一致度や類似度によって上記誤差２を算出して、検知用最適化部２９および特徴量用最適化部３４に出力する。なお、一致度や類似度の算出は、公知の様々な手法を採用することができる。

検知用最適化部２９は、物体検知用パラメータＤＢ２４の各種パラメータを最適化する処理部である。具体的には、検知用最適化部２９は、訓練データが教師ありデータのときは、物体検知評価部２８から入力された誤差２および後述する誤差１が小さくなるように、物体検知用ＮＮのパラメータを更新する。一方、検知用最適化部２９は、訓練データが教師なしデータのときは、後述する誤差１が小さくなるように、物体検知用ＮＮのパラメータを更新する。すなわち、検知用最適化部２９は、訓練データから特徴量が抽出されるたびに、教師あり学習によって誤差２が小さくなるように学習し、教師なし学習によって誤差１が小さくなるように学習して、パラメータを最適化する。

対応付け部３０は、物体検知結果の座標値を、画像の領域へと対応付ける処理部である。具体的には、対応付け部３０は、物体検知部２７による物体検知結果を受け付けると、当該物体検知に使用された訓練データに対応するメタ情報をメタ情報ＤＢ２２から取得し、メタ情報と物体検知結果とを用いて、検知された物体を画像の領域に対応付ける。そして、対応付け部３０は、対応付け結果を画像復元部３１に出力する。

図９は、物体の対応付けを説明する図である。図９に示すように、対応付け部３０は、画像のメタ情報を用いて、画像の全体像を特定する。続いて、対応付け部３０は、画像の全体像に対して左隅を原点にして横方向をｘ軸、縦方向をｙ軸に設定する。その後、対応付け部３０は、画像の全体像に対して、物体検知結果のｘ座標（５０）とｙ座標（１００）を中心に幅３３と高さ２０の領域を特定して、乗用車に対応する領域を対応付ける。同様に、対応付け部３０は、画像の全体像に対して、物体検知結果のｘ座標（１０）とｙ座標（５０）を中心に幅４０と高さ３０の領域を特定して、トラックに対応する領域を対応付ける。このようにして、対応付け部３０は、物体検知結果を画像に対応付ける。

また、別の手法として、確率マップによる対応付けを行うこともできる。具体的には、対応付け部３０は、ガウス分布などの微分可能な分布を用いて、各物体がどこに存在しているかを示す確率マップを計算する。なお、微分可能な形で表現することで、ＮＮの学習に用いられる誤差逆伝播法に組み込むことができる。

図１０は、確率マップによる物体の対応付けを説明する図である。図１０に示すように、対応付け部３０は、物体検知結果を式（１）に代入して、クラスごとの確率マップを算出する。すなわち、対応付け部３０は、画像のメタ情報を用いて特定した画像の全体像に対して、各クラス（種類）が画像のどのあたりに写っていそうかを求める。ここで、式（１）のＰ_ｃ（ｉ，ｊ）はクラスｃの確率マップであり、Ｋはある物体検知結果の物体検出数であり、Ｐ（Ｃ_ｋ＝ｃ）はｋ番目の物体候補がクラスｃである確率である。ｑはガウス分布などの微分可能な分布であり、ｘ，ｙ，ｗ，ｈは物体の座標値であり、それぞれｘ座標、ｙ座標、幅、高さである。したがって、Ｐ（Ｃ_ｋ＝ｃ）、Ｋ、（ｘ，ｙ，ｗ，ｈ）は、物体検知結果から取得でき、それ以外は予め設定しておく。

画像復元部３１は、復元用パラメータＤＢ２５に記憶されるパラメータを適用したＮＮを実行して、対応付け結果から画像を復元する処理部である。具体的には、画像復元部３１は、公知の自己符号化器と同様の手法を用いて、対応付け結果から画像を復元し、復元評価部３２に出力する。なお、復元手法は、公知の様々な手法を採用することができる。

復元評価部３２は、画像復元部３１による復元結果を評価する処理部である。具体的には、復元評価部３２は、画像復元部３１による復元結果と、入力画像とを比較して、復元度合いを評価する。例えば、復元評価部３２は、復元結果と入力画像の類似度や一致度によって、上記誤差１を算出して、復元用最適化部３３と検知用最適化部２９と特徴量用最適化部３４のそれぞれに出力する。

復元用最適化部３３は、復元用パラメータＤＢ２５の各種パラメータを最適化する処理部である。具体的には、復元用最適化部３３は、復元評価部３２から入力された誤差１が小さくなるように、復元用パラメータＤＢ２５の各種パラメータを更新する。すなわち、復元用最適化部３３は、訓練データから特徴量が抽出されるたびに、教師なし学習によって誤差１が小さくなるように学習して、パラメータを最適化する。

特徴量用最適化部３４は、特徴量用パラメータＤＢ２３の各種パラメータを最適化する処理部である。具体的には、特徴量用最適化部３４は、訓練データが教師ありデータのときは、復元評価部３２から入力された誤差１かつ物体検知評価部２８から入力された誤差２が小さくなるように、特徴量用パラメータＤＢ２３の各種パラメータを更新する。また、特徴量用最適化部３４は、訓練データが教師なしデータのときは、復元評価部３２から入力された誤差１が小さくなるように、特徴量用パラメータＤＢ２３の各種パラメータを更新する。すなわち、特徴量用最適化部３４は、訓練データから特徴量が抽出されるたびに、教師あり学習によって誤差２が小さくなるように学習し、教師なし学習によって誤差１が小さくなるように学習して、パラメータを最適化する。

［処理の流れ］
図１１は、処理の流れを示すフローチャートである。図１１に示すように、学習処理が開始されると（Ｓ１０１：Ｙｅｓ）、特徴抽出部２６は、訓練データを読み込み（Ｓ１０２）、特徴量を抽出する（Ｓ１０３）。

続いて、物体検知部２７は、特徴量から物体を検知し（Ｓ１０４）、対応付け部３０は、物体の検知結果とメタ情報とから対応付けを実行する（Ｓ１０５）。そして、画像復元部３１は、対応付けの結果を用いて元の入力画像を復元する（Ｓ１０６）。

その後、復元評価部３２が、入力画像と復元画像との差分である誤差１を算出し（Ｓ１０７）、物体検知評価部２８が、入力画像の物体情報と検知結果との差分である誤差２を算出する（Ｓ１０８）。なお、誤差２は、訓練データが教師ありデータのときに算出される。また、誤差１の算出と誤差２の算出は、順不同である。

そして、検知用最適化部２９が、誤差１と誤差２を用いて、各誤差が小さくなるようにＮＮのパラメータを学習し、特徴量用最適化部３４が、誤差１と誤差２を用いて、各誤差が小さくなるようにＮＮのパラメータを学習する（Ｓ１０９）。また、復元用最適化部３３は、誤差１を用いて、誤差１が小さくなるようにＮＮのパラメータを学習する（Ｓ１１０）。なお、学習の順番は、順不同である。

そして、学習を継続する場合は（Ｓ１１１：Ｎｏ）、次の訓練データについて、Ｓ１０２以降を繰り返す。一方、学習を終了した場合は（Ｓ１１１：Ｙｅｓ）、物体検知装置１０は、カメラを用いて道路を撮影する（Ｓ１１２）。

続いて、物体検知装置１０は、学習結果を用いて、特徴量の抽出や物体検知などを実行し、撮影された画像内の車両の場所と種類を検知する（Ｓ１１３）。そして、物体検知装置１０は、物体の検知結果を集計し（Ｓ１１４）、集計結果を表示する（Ｓ１１５）。そして、物体検知装置１０は、撮影を継続する場合は（Ｓ１１６：Ｎｏ）、Ｓ１１２以降を繰り返し、撮影を終了する場合は（Ｓ１１６：Ｙｅｓ）、処理を終了する。

なお、図１１では、学習処理と実際の検知処理とを連続して実行する例を説明したが、これに限定されるものではなく、別々のタイミングで実行することもできる。

［効果］
実施例１にかかる物体検知装置１０は、訓練データを用いて過学習を抑制しつつ、深層学習を用いた半教師あり学習による物体検知を行うことができる。また、物体検知装置１０は、半教師あり学習の導入により、少ない教師ありデータと、多数の教師なしデータとを用いることで汎化性能の高い物体検知器を構成することができる。この結果、物体検知装置１０は、過学習による汎化性能の低下を抑制することができる。

また、物体検知装置１０は、汎化性能の高い物体検知器を構成することができるので、道路をカメラで撮影し、撮影した画像内の車両とその種類を検知することで、車線ごとの混雑度と車種の内訳を計算し、表示するシステムを実現できる。例えば、物体検知装置１０は、車線１の混雑度９０％、トラック３３％、乗用車６６％のように、各車線の混雑度および走行車両などを検知することができる。

［検知結果の分割］
上記実施例１では、物体検知結果をそのまま用いて確率マップによる対応付けを行う例を説明したが、これに限定されるものではない。例えば、対応付け部３０は、物体検知結果を分割してから対応付けを行うこともできる。図１２は、検知結果を分割して対応付ける例を説明する図である。図１２に示すように、対応付け部３０は、物体検知結果を種類ごとに分類し、分類された種類ごとに確率マップを生成して対応付けを実行する。

なお、分類手法としては、検知された物体について、幅、高さ、面積などの大きさや乗用車かトラックかなどの物体のクラスによって物体検知の結果を分割し、個別に確率マップを作成することもできる。

例えば、検知の対象が乗用車やトラックなどであり、クラス間で大きく特徴が変化しないが、画像内における大きさで特徴が変化する場合は、物体の大きさで分割する手法が有効である。また、文書を撮影して文字を検知する場合、文字の大きさはどれも似通っており、また文字が違えば特徴も大きく異なるため、物体（ここでは文字）のクラスによって分割することが有効である。分割の閾値は、訓練データの統計量から事前に決めることができる。また、１つの訓練データが読み込まれるたびに、対応付けの処理を実行することもでき、複数の訓練データをまとめて対応付けの処理を実行することもできる。

［画像復元］
上記実施例１では、画像復元部３１は、対応付け結果とメタ情報とを用いて元の入力画像を復元する例を説明したが、これに限定されるものではない。例えば、画像復元部３１は、特徴量をさらに加えて、元の入力画像を復元することもできる。図１３は、特徴量を用いた画像復元を説明する図である。図１３に示すように、画像復元部３１は、メタ情報と対応付け処理による対応付け結果と特徴抽出用ＮＮが抽出した特徴量とを元画像復元用ＮＮに入力して、復元画像を生成する。

同じクラスでも見た目の大きく異なる物体がデータに含まれる場合など、元画像の復元を助けるために、元画像復元用ＮＮの入力に中間画像（特徴量）を加えることで、復元画像の精度を向上させることができる。例えば、自動車と人を検知する場合、様々な見た目の自動車や人が存在することが考えられる。この場合、「ここに自動車がある」あるいは「ここに人がいる」という情報のみでは、元画像を復元するための情報（どんな自動車か、どんな人か）が不足するので、中間画像を利用することが効果的である。

［中間画像の復元］
上記実施例１では、元の入力画像を復元する例を説明したが、これに限定されるものではなく、中間画像を復元することもできる。図１４は、中間画像を復元する例を説明する図である。図１４に示すように、画像復元部３１は、元画像復元用ＮＮのパラメータや構成を変更することで、復元の目標を入力画像から中間画像に変更する。そして、画像復元部３１は、対応付け結果とメタ情報とを用いて、中間画像を復元する。

例えば、固定された単一のカメラの画像のみが入力となる場合は多様ではないが、様々なカメラで撮影された画像が入力となる場合は、より多様な画像が入力となる。この場合、元画像復元用ＮＮは、多様な画像を復元しなくてはならないが、表現力が不足する場合がある。つまり、入力される画像が多様である場合、入力画像の復元が難しくなることが考えられる。この場合に、入力画像よりも抽象度の高い情報で構成される、中間画像や特徴抽出用ＮＮの中間出力を、入力の代わりに元画像復元用ＮＮにより復元することで、復元画像の精度を向上させることができる。また、図１２から図１４の手法を組み合わせることができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。

［学習器］
上記実施例では、各学習器にＮＮを用いて、バックプロパゲーションによる学習を実行する例を説明したが、これに限定されるものではなく、例えば勾配法などの他の学習手法を採用することもできる。

［処理対象］
上記実施例では、車線などの画像を例にして説明したが、これに限定されるものではなく、例えば文字や文字を含む画像を処理対象とすることができる。この場合、上記物体として文字の検出および復元を実行する。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、特徴抽出部２６は抽出部の一例であり、物体検知部２７は検知部の一例であり、対応付け部３０と画像復元部３１は復元部の一例であり、検知用最適化部２９と特徴量用最適化部３４は第１の学習部の一例であり、検知用最適化部２９と特徴量用最適化部３４と復元用最適化部３３は第２の学習部の一例である。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア構成］
図１５は、ハードウェア構成例を説明する図である。図１５に示すように、物体検知装置１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。

通信インタフェース１０ａは、他の装置の通信を制御するネットワークインタフェースカードなどである。ＨＤＤ１０ｂは、プログラムやデータなどを記憶する記憶装置の一例である。

メモリ１０ｃの一例としては、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等のＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等が挙げられる。プロセッサ１０ｄの一例としては、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等が挙げられる。

また、物体検知装置１０は、プログラムを読み出して実行することで物体検知方法を実行する情報処理装置として動作する。つまり、物体検知装置１０は、特徴抽出部２６、物体検知部２７、物体検知評価部２８、検知用最適化部２９、対応付け部３０、画像復元部３１、復元評価部３２、復元用最適化部３３、特徴量用最適化部３４と同様の機能を実行するプログラムを実行する。この結果、物体検知装置１０は、特徴抽出部２６、物体検知部２７、物体検知評価部２８、検知用最適化部２９、対応付け部３０、画像復元部３１、復元評価部３２、復元用最適化部３３、特徴量用最適化部３４と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、物体検知装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ（Magneto−Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０物体検知装置
１１記憶部
１２撮影部
１３検知部
１４集計部
１５表示部
２０教師ありデータＤＢ
２１教師なしデータＤＢ
２２メタ情報ＤＢ
２３特徴量用パラメータＤＢ
２４物体検知用パラメータＤＢ
２５復元用パラメータＤＢ
２６特徴抽出部
２７物体検知部
２８物体検知評価部
２９検知用最適化部
３０対応付け部
３１画像復元部
３２復元評価部
３３復元用最適化部
３４特徴量用最適化部

Claims

ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いた特徴量抽出処理と、
前記入力データに対する、物体検知器を用いた物体検知処理と、
前記入力データそれぞれについて、前記物体検知処理により検知された物体に対応した当該入力データの領域データ、および、前記検知された物体に対応したメタ情報から、前記符号化器に対応した復号化器を用いて復元データを生成する復元データ生成処理と、
前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第１の学習処理と、
前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第２の学習処理と
をコンピュータに実行させる学習プログラム。
前記復元データ生成処理は、前記物体検知処理の結果と前記メタ情報とを微分可能な分布に適用して、前記領域データに対して物体が存在する領域を推定する確率マップを生成し、前記物体検知処理の結果と前記メタ情報とを対応付ける前記領域データを生成する請求項１に記載の学習プログラム。
前記復元データ生成処理は、前記物体検知処理の結果に含まれる、前記検知された物体の大きさに関するスケール情報に基づき、前記物体検知処理の結果と前記メタ情報とを対応付ける前記領域データを生成する請求項１に記載の学習プログラム。
前記復元データ生成処理は、前記物体検知処理の結果に含まれる、前記検知された物体の種類に関するクラス情報に基づき、前記物体検知処理の結果と前記メタ情報とを対応付ける前記領域データを生成する請求項１に記載の学習プログラム。
ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いた特徴量抽出処理と、
前記入力データに対する、物体検知器を用いた物体検知処理と、
前記入力データそれぞれについて、前記物体検知処理により検知された物体に対応した当該入力データの領域データ、および、前記検知された物体に対応したメタ情報から、前記符号化器に対応した復号化器を用いて復元データを生成する復元データ生成処理と、
前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第１の学習処理と、
前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第２の学習処理と
をコンピュータが実行する学習方法。
ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いて特徴量抽出処理を実行する抽出部と、
前記入力データに対する、物体検知器を用いた物体検知処理を実行する検知部と、
前記入力データそれぞれについて、前記物体検知処理により検知された物体に対応した当該入力データの領域データ、および、前記検知された物体に対応したメタ情報から、前記符号化器に対応した復号化器を用いて復元データを生成する復元データ生成処理を実行する復元部と、
前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第１の学習部と、
前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第２の学習部と
を有する物体検知装置。