JP6897335B2 - 学習プログラム、学習方法および物体検知装置 - Google Patents

学習プログラム、学習方法および物体検知装置 Download PDF

Info

Publication number
JP6897335B2
JP6897335B2 JP2017108456A JP2017108456A JP6897335B2 JP 6897335 B2 JP6897335 B2 JP 6897335B2 JP 2017108456 A JP2017108456 A JP 2017108456A JP 2017108456 A JP2017108456 A JP 2017108456A JP 6897335 B2 JP6897335 B2 JP 6897335B2
Authority
JP
Japan
Prior art keywords
data
object detection
learning
unit
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017108456A
Other languages
English (en)
Other versions
JP2018205920A (ja
Inventor
優 安富
優 安富
遠藤 利生
利生 遠藤
孝 河東
孝 河東
健人 上村
健人 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017108456A priority Critical patent/JP6897335B2/ja
Priority to EP18175076.1A priority patent/EP3410351B1/en
Priority to US15/992,754 priority patent/US10803357B2/en
Publication of JP2018205920A publication Critical patent/JP2018205920A/ja
Application granted granted Critical
Publication of JP6897335B2 publication Critical patent/JP6897335B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、学習プログラム、学習方法および物体検知装置に関する。
入力画像に存在する複数の物体を個別に認識して、入力画像のどこに何が写っているか検知する物体検知技術が利用されており、自動運転のための自動車や歩行者などの検知、文字認識などに用いられている。物体検知技術では、教師ありデータによる機械学習が知られおり、深層学習(ディープラーニング)によって性能が上昇している。
機械学習では教師ありデータが少ない場合に過学習が発生するが、教師ありデータを作成するには人為的なコストがかかる。このため、近年では、少ない教師ありデータと多数の教師なしデータとを用いて汎化性能を向上させる半教師あり学習が知られており、深層学習を用いたクラス分類問題の半教師あり学習としては自己符号化器が知られている。
自己符号化器は、教師あり学習を実行して、入力に対して通常のクラス分類問題を解くニューラルネットワーク(以下では、NNと記載する場合がある)と、教師なし学習を実行して、このNNの出力から入力を復元するNNとを有する。
この半教師あり学習を用いる自己符号化器に物体検知を適用した検知装置では、物体検知用のNNの前に、クラス分類問題向けのモデルと同様の特徴抽出層を設け、特徴抽出層に対して、自己符号化器による半教師あり学習を適用する。
具体的には、検知装置は、物体検知器と自己符号化器とを有する。そして、物体検知器は、入力画像から特徴を抽出する特徴抽出用NNと、特徴抽出用NNから出力された特徴量から物体検知結果を出力する物体検知用NNとを有して、物体検知の深層学習を実行する。自己符号化器は、特徴量から元画像を復元する復元用NNを用いて、画像復元の深層学習を実行する。
特表2009−514110号公報 特開2010−257140号公報 特開2011−221840号公報
しかしながら、上記検知装置では、全体として過学習になるので、汎化性能が低下する。例えば、検知装置における物体検知器の特徴抽出用NNについては、教師ありデータと教師なしデータの両方で学習するので、過学習が抑制できるが、物体検知用NNについては、教師ありデータのみを用いた学習になるので、過学習が発生する。
一つの側面では、過学習による汎化性能の低下を抑制することができる学習プログラム、学習方法および物体検知装置を提供することを目的とする。
第1の案では、学習プログラムは、ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いた特徴量抽出処理をコンピュータに実行させる。学習プログラムは、前記特徴量抽出処理の結果に対する、物体検知器を用いた物体検知処理をコンピュータに実行させる。学習プログラムは、前記物体検知処理の結果および前記入力データに関するメタ情報から生成された領域データに対する、復号化器を用いて復元データを生成する復元データ生成処理をコンピュータに実行させる。学習プログラムは、前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第1の学習処理をコンピュータに実行させる。学習プログラムは、前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第2の学習処理をコンピュータに実行させる。
一実施形態によれば、過学習による汎化性能の低下を抑制することができる。
図1は、半教師あり学習を適用した物体検知を説明する図である。 図2は、物体検知手法を半教師あり学習に拡張する例を説明する図である。 図3は、実施例1にかかる物体検知装置を説明する図である。 図4は、実施例1にかかる物体検知装置の機能構成を説明する図である。 図5は、実施例1にかかる物体検知装置の検知部の機能構成を示す機能ブロック図である。 図6は、教師ありデータDBに記憶される教師ありデータの例を示す図である。 図7は、メタ情報DBに記憶される情報の例を示す図である。 図8は、物体検知結果の例を示す図である。 図9は、物体の対応付けを説明する図である。 図10は、確率マップによる物体の対応付けを説明する図である。 図11は、処理の流れを示すフローチャートである。 図12は、検知結果を分割して対応付ける例を説明する図である。 図13は、特徴量を用いた画像復元を説明する図である。 図14は、中間画像を復元する例を説明する図である。 図15は、ハードウェア構成例を説明する図である。
以下に、本願の開示する学習プログラム、学習方法および物体検知装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[物体検知装置の説明]
実施例1にかかる物体検知装置は、複数の学習器を有するコンピュータ装置の一例であり、深層学習を用いた物体検知手法において、入力画像から特徴量を抽出する部分について、自己符号化器により半教師あり学習を行う。この際、物体検知装置は、半教師あり学習により、入手コストの高い教師ありデータが少ない場合にも、教師なしデータを用いることで高い汎化性能を達成する、深層学習に基づく物体検知を実現する。
まず、一般的な半教師あり学習を適用した物体検知を説明する。図1は、半教師あり学習を適用した物体検知を説明する図である。図1に示すように、従来の物体検知装置は、入力画像(以下では、単に元画像と記載する場合がある)の物体検知を学習する物体検知器と、入力画像を復元する自己符号化器とを有する。物体検知器は、入力画像から特徴量を抽出する特徴抽出用NNと、特徴抽出用NNによって抽出された特徴量から入力画像内の物体を検知する物体検知用NNとを有する。また、自己符号化器は、特徴量から元の入力画像を復元する元画像復元用NNを有する。
ここで、特徴抽出用NNは、元画像と元画像復元用NNが復元した復元画像との差である誤差1、および、物体検知用NNによる物体検知結果と元画像における既知の物体情報との誤差である誤差2を用いて学習する。すなわち、特徴抽出用NNは、誤差1について教師なしデータによる学習を実行し、誤差2について教師ありデータによる学習を行うので、過学習とはならない。
また、物体検知用NNは、物体検知用NNによる物体検知結果と元画像における既知の物体情報との誤差である誤差2を用いて学習する。すなわち、物体検知用NNは、教師ありデータによる学習のみを行うので、過学習となる。また、元画像復元用NNは、元画像と元画像復元用NNが復元した復元画像との差である誤差1を用いて学習する。すなわち、元画像復元用NNは、教師なしデータによる学習のみを行うので、過学習とはならない。
このように、図1に示した一般的な半教師あり学習を適用した物体検知では、全体として過学習状態となるので、推定対象であるテストデータを適用して物体検知を行ったときの汎化性能が低下する。
この過学習を改善するために、物体検知手法を半教師あり学習に拡張する手法が考えられる。具体的には、物体検知結果を入力として、入力画像を復元するNNを構成する。図2は、物体検知手法を半教師あり学習に拡張する例を説明する図である。図2に示す物体検知手法は、図1と同様の構成を有するが、元画像復元用NNが特徴量ではなく物体検知結果を用いて元画像を復元する点が異なる。
ここで、特徴抽出用NNは、図1と同様、誤差1について教師なしデータによる学習を実行し、誤差2について教師ありデータによる学習を行うので、過学習とはならない。また、物体検知用NNは、図1とは異なり、誤差1について教師なしデータによる学習を実行し、誤差2について教師ありデータによる学習を行うので、過学習とはならない。また、元画像復元用NNは、誤差1について教師なしデータによる学習のみを行うので、過学習とはならない。
しかし、この手法では、物体検知結果と復元したい画像との形式が大きく異なるので、元画像復元用NNで元の入力画像を復元できない。具体的には、物体検知結果は各物体の座標値であり、復元対象は画像であることから、元画像復元用NNによる画像復元が難しい。この結果、全体として、半教師あり学習を実行できない。
そこで、実施例1では、座標値である物体検知の結果を、入力画像における領域と対応付ける処理により、物体検知の結果を自己符号化器に組み込んだ物体検知装置を実現する。図3は、実施例1にかかる物体検知装置を説明する図である。図3に示す物体検知手法は、図2と異なり、物体検知結果の座標値を、入力画像の領域へと対応付ける処理を実行する。すなわち、実施例1にかかる物体検知装置は、入力画像の幅や高さなどのメタ情報を用いて、物体検知結果を入力画像の領域へ対応付けた後、この対応付けた結果を用いて、元画像復元用NNによる画像復元を実行する。
この結果、物体検知装置は、画像に形式が近い対応付け結果を用いて、画像復元を実行するので、元画像復元用NNによる復元が実行しやすくなり、半教師あり学習を実行できる。したがって、物体検知装置は、過学習の発生を抑制し、汎化性能を向上することができる。
[機能構成]
次に、実施例1にかかる物体検知装置の機能構成について説明する。図4は、実施例1にかかる物体検知装置の機能構成を説明する図である。図4に示すように、物体検知装置10は、記憶部11、撮影部12、検知部13、集計部14、表示部15を有する。なお、ここで示した機能は例示であり、例えば通信制御を実行する通信処理部などを有することもできる。また、撮影部12、検知部13、集計部14、表示部15は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
記憶部11は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。撮影部12は、カメラなどを用いて画像を撮影する処理部であり、例えば車が走行する道路などを撮影する。
検知部13は、訓練データを用いて物体検知を学習し、撮影部12が撮影した画像から物体を検知する処理部である。集計部14は、検知部13による物体検知の結果を集計する処理部である。表示部15は、集計部14による集計結果をディスプレイ等に表示する処理部である。
ここで、検知部13の詳細について説明する。図5は、実施例1にかかる物体検知装置10の検知部13の機能構成を示す機能ブロック図である。図5に示すように、物体検知装置10は、教師ありデータDB20、教師なしデータDB21、メタ情報DB22、特徴量用パラメータDB23、物体検知用パラメータDB24、復元用パラメータDB25を有する。物体検知装置10は、特徴抽出部26、物体検知部27、物体検知評価部28、検知用最適化部29、対応付け部30、画像復元部31、復元評価部32、復元用最適化部33、特徴量用最適化部34を有する。なお、各DBは、記憶部11に記憶されるデータベースである。
また、各処理部は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。なお、特徴量用パラメータDB23と特徴抽出部26と特徴量用最適化部34は、特徴抽出用NNの一例であり、符号化器の一例である。物体検知用パラメータDB24と物体検知部27と物体検知評価部28と検知用最適化部29は、物体検知用NNの一例であり、物体検知器の一例である。また、復元用パラメータDB25と画像復元部31と復元評価部32と復元用最適化部33は、元画像復元用NNの一例であり、符号化器の一例である。また、各NNは、それぞれ畳み込み層、プーリング層、全結合層からなるNNを用いることができる。
教師ありデータDB20は、教師ありの訓練データを記憶するデータベースである。具体的には、教師ありデータDB20は、入力対象の画像と、当該画像に写っている物体に関する物体情報とが対応付けられた教師ありデータを記憶する。図6は、教師ありデータDB20に記憶される教師ありデータの例を示す図である。
図6に示すように、教師ありデータDB20は、「画像、種類、x座標、y座標、幅、高さ」を対応付けて記憶する。「画像」は、入力画像を特定する情報であり、画像そのものであってもよく、画像の格納先を示す情報であってもよい。「種類」は、入力画像に写っている物体のクラス分けに関する情報である。「x座標」は、物体の中心に該当するx座標であり、「y座標」は、物体の中心のy座標である。「幅」は、物体の幅であり、「高さ」は、物体の高さである。図6の例では、画像Aには、(x、y)=(48、110)を中心に、幅33、高さ19の乗用車が写っていることを示す。なお、幅や高さの単位は、任意に設定することができ、例えば画素数などである。
教師なしデータDB21は、教師なしの訓練データを記憶するデータベースである。具体的には、教師なしデータDB21は、入力対象の画像を記憶する。
メタ情報DB22は、各入力画像の付加的な情報であるメタ情報を記憶するデータベースである。図7は、メタ情報DB22に記憶される情報の例を示す図である。図7に示すように、メタ情報DB22は、「画像、幅、高さ」を対応付けて記憶する。ここで記憶される「画像」は、入力画像を特定する情報であり、「幅」は、入力画像の幅を示す情報であり、「高さ」は、入力画像の高さを示す情報である。図7の例では、画像Aの大きさが、幅「XX」cm、高さ「YY」cmであることを示す。
特徴量用パラメータDB23は、特徴抽出用NNに適用する各種パラメータを記憶するデータベースである。すなわち、特徴量用パラメータDB23は、特徴量の抽出に使用するニューラルネットワークのパラメータを記憶する。ここで記憶されるパラメータは、特徴量用最適化部34によって学習され、特徴抽出部26によって使用される。
物体検知用パラメータDB24は、物体検知用NNに適用する各種パラメータを記憶するデータベースである。すなわち、物体検知用パラメータDB24は、物体検知に使用するニューラルネットワークのパラメータを記憶する。ここで記憶されるパラメータは、検知用最適化部29によって学習され、物体検知部27によって使用される。
復元用パラメータDB25は、元画像復元用NNに適用する各種パラメータを記憶するデータベースである。すなわち、復元用パラメータDB25は、画像復元に使用するニューラルネットワークのパラメータを記憶する。ここで記憶されるパラメータは、復元用最適化部33によって学習され、画像復元部31によって使用される。
特徴抽出部26は、特徴量用パラメータDB23に記憶されるパラメータを適用したNNを実行して、入力画像から特徴量を抽出する処理部である。具体的には、特徴抽出部26は、教師ありデータの入力画像または教師なしデータの入力画像を各DBから読み込み、当該入力画像から画像内のエッジ、コントラストなどを特徴量として抽出する。そして、特徴抽出部26は、抽出した特徴量を物体検知部27に出力する。このとき、特徴抽出部26は、読み込んだ訓練データが教師ありデータか否かを示す情報も出力する。また、学習後の物体検知時では、特徴抽出部26は、推定対象のテストデータである入力画像を読み込んで特徴量を抽出する。
物体検知部27は、物体検知用パラメータDB24に記憶されるパラメータを適用したNNを実行して、特徴量から物体を検知する処理部である。例えば、物体検知部27は、特徴抽出部26によって抽出された特徴量から、入力画像に写っている各物体の位置情報を抽出して各物体を検知する。図8は、物体検知結果の例を示す図である。図8に示すように、物体検知結果は、「種類、x座標、y座標、幅、高さ」を対応付けた情報である。「種類」は、物体の種類を示す情報であり、「x座標」は、物体の中心に該当するx座標であり、「y座標」は、物体の中心のy座標である。「幅」は、物体の幅であり、「高さ」は、物体の高さである。
図8の例では、(x、y)=(50、100)を中心に、幅33、高さ20の乗用車を検出し、(x、y)=(10、50)を中心に、幅40、高さ30のトラックを検出したことを示す。なお、種類ごとの大きさ(幅や高さ)を予め登録しておくことで、検出された幅や高さから種類を特定できる。そして、物体検知部27は、図8に示す物体検知結果を物体検知評価部28と対応付け部30に出力する。このとき、物体検知部27は、特徴抽出部26から通知された教師ありデータか否かを示す情報も出力する。
物体検知評価部28は、物体検知部27による物体検知の結果を評価する処理部である。例えば、物体検知評価部28は、訓練データが教師ありデータの場合、入力画像に対応する物体情報を教師ありデータDB20から取得する。そして、物体検知評価部28は、教師ありデータである既知の物体情報と、物体検知部27によって推定された検知結果とを比較する。例えば、物体検知評価部28は、一致度や類似度によって上記誤差2を算出して、検知用最適化部29および特徴量用最適化部34に出力する。なお、一致度や類似度の算出は、公知の様々な手法を採用することができる。
検知用最適化部29は、物体検知用パラメータDB24の各種パラメータを最適化する処理部である。具体的には、検知用最適化部29は、訓練データが教師ありデータのときは、物体検知評価部28から入力された誤差2および後述する誤差1が小さくなるように、物体検知用NNのパラメータを更新する。一方、検知用最適化部29は、訓練データが教師なしデータのときは、後述する誤差1が小さくなるように、物体検知用NNのパラメータを更新する。すなわち、検知用最適化部29は、訓練データから特徴量が抽出されるたびに、教師あり学習によって誤差2が小さくなるように学習し、教師なし学習によって誤差1が小さくなるように学習して、パラメータを最適化する。
対応付け部30は、物体検知結果の座標値を、画像の領域へと対応付ける処理部である。具体的には、対応付け部30は、物体検知部27による物体検知結果を受け付けると、当該物体検知に使用された訓練データに対応するメタ情報をメタ情報DB22から取得し、メタ情報と物体検知結果とを用いて、検知された物体を画像の領域に対応付ける。そして、対応付け部30は、対応付け結果を画像復元部31に出力する。
図9は、物体の対応付けを説明する図である。図9に示すように、対応付け部30は、画像のメタ情報を用いて、画像の全体像を特定する。続いて、対応付け部30は、画像の全体像に対して左隅を原点にして横方向をx軸、縦方向をy軸に設定する。その後、対応付け部30は、画像の全体像に対して、物体検知結果のx座標(50)とy座標(100)を中心に幅33と高さ20の領域を特定して、乗用車に対応する領域を対応付ける。同様に、対応付け部30は、画像の全体像に対して、物体検知結果のx座標(10)とy座標(50)を中心に幅40と高さ30の領域を特定して、トラックに対応する領域を対応付ける。このようにして、対応付け部30は、物体検知結果を画像に対応付ける。
また、別の手法として、確率マップによる対応付けを行うこともできる。具体的には、対応付け部30は、ガウス分布などの微分可能な分布を用いて、各物体がどこに存在しているかを示す確率マップを計算する。なお、微分可能な形で表現することで、NNの学習に用いられる誤差逆伝播法に組み込むことができる。
図10は、確率マップによる物体の対応付けを説明する図である。図10に示すように、対応付け部30は、物体検知結果を式(1)に代入して、クラスごとの確率マップを算出する。すなわち、対応付け部30は、画像のメタ情報を用いて特定した画像の全体像に対して、各クラス(種類)が画像のどのあたりに写っていそうかを求める。ここで、式(1)のP(i,j)はクラスcの確率マップであり、Kはある物体検知結果の物体検出数であり、P(C=c)はk番目の物体候補がクラスcである確率である。qはガウス分布などの微分可能な分布であり、x,y,w,hは物体の座標値であり、それぞれx座標、y座標、幅、高さである。したがって、P(C=c)、K、(x,y,w,h)は、物体検知結果から取得でき、それ以外は予め設定しておく。
Figure 0006897335
画像復元部31は、復元用パラメータDB25に記憶されるパラメータを適用したNNを実行して、対応付け結果から画像を復元する処理部である。具体的には、画像復元部31は、公知の自己符号化器と同様の手法を用いて、対応付け結果から画像を復元し、復元評価部32に出力する。なお、復元手法は、公知の様々な手法を採用することができる。
復元評価部32は、画像復元部31による復元結果を評価する処理部である。具体的には、復元評価部32は、画像復元部31による復元結果と、入力画像とを比較して、復元度合いを評価する。例えば、復元評価部32は、復元結果と入力画像の類似度や一致度によって、上記誤差1を算出して、復元用最適化部33と検知用最適化部29と特徴量用最適化部34のそれぞれに出力する。
復元用最適化部33は、復元用パラメータDB25の各種パラメータを最適化する処理部である。具体的には、復元用最適化部33は、復元評価部32から入力された誤差1が小さくなるように、復元用パラメータDB25の各種パラメータを更新する。すなわち、復元用最適化部33は、訓練データから特徴量が抽出されるたびに、教師なし学習によって誤差1が小さくなるように学習して、パラメータを最適化する。
特徴量用最適化部34は、特徴量用パラメータDB23の各種パラメータを最適化する処理部である。具体的には、特徴量用最適化部34は、訓練データが教師ありデータのときは、復元評価部32から入力された誤差1かつ物体検知評価部28から入力された誤差2が小さくなるように、特徴量用パラメータDB23の各種パラメータを更新する。また、特徴量用最適化部34は、訓練データが教師なしデータのときは、復元評価部32から入力された誤差1が小さくなるように、特徴量用パラメータDB23の各種パラメータを更新する。すなわち、特徴量用最適化部34は、訓練データから特徴量が抽出されるたびに、教師あり学習によって誤差2が小さくなるように学習し、教師なし学習によって誤差1が小さくなるように学習して、パラメータを最適化する。
[処理の流れ]
図11は、処理の流れを示すフローチャートである。図11に示すように、学習処理が開始されると(S101:Yes)、特徴抽出部26は、訓練データを読み込み(S102)、特徴量を抽出する(S103)。
続いて、物体検知部27は、特徴量から物体を検知し(S104)、対応付け部30は、物体の検知結果とメタ情報とから対応付けを実行する(S105)。そして、画像復元部31は、対応付けの結果を用いて元の入力画像を復元する(S106)。
その後、復元評価部32が、入力画像と復元画像との差分である誤差1を算出し(S107)、物体検知評価部28が、入力画像の物体情報と検知結果との差分である誤差2を算出する(S108)。なお、誤差2は、訓練データが教師ありデータのときに算出される。また、誤差1の算出と誤差2の算出は、順不同である。
そして、検知用最適化部29が、誤差1と誤差2を用いて、各誤差が小さくなるようにNNのパラメータを学習し、特徴量用最適化部34が、誤差1と誤差2を用いて、各誤差が小さくなるようにNNのパラメータを学習する(S109)。また、復元用最適化部33は、誤差1を用いて、誤差1が小さくなるようにNNのパラメータを学習する(S110)。なお、学習の順番は、順不同である。
そして、学習を継続する場合は(S111:No)、次の訓練データについて、S102以降を繰り返す。一方、学習を終了した場合は(S111:Yes)、物体検知装置10は、カメラを用いて道路を撮影する(S112)。
続いて、物体検知装置10は、学習結果を用いて、特徴量の抽出や物体検知などを実行し、撮影された画像内の車両の場所と種類を検知する(S113)。そして、物体検知装置10は、物体の検知結果を集計し(S114)、集計結果を表示する(S115)。そして、物体検知装置10は、撮影を継続する場合は(S116:No)、S112以降を繰り返し、撮影を終了する場合は(S116:Yes)、処理を終了する。
なお、図11では、学習処理と実際の検知処理とを連続して実行する例を説明したが、これに限定されるものではなく、別々のタイミングで実行することもできる。
[効果]
実施例1にかかる物体検知装置10は、訓練データを用いて過学習を抑制しつつ、深層学習を用いた半教師あり学習による物体検知を行うことができる。また、物体検知装置10は、半教師あり学習の導入により、少ない教師ありデータと、多数の教師なしデータとを用いることで汎化性能の高い物体検知器を構成することができる。この結果、物体検知装置10は、過学習による汎化性能の低下を抑制することができる。
また、物体検知装置10は、汎化性能の高い物体検知器を構成することができるので、道路をカメラで撮影し、撮影した画像内の車両とその種類を検知することで、車線ごとの混雑度と車種の内訳を計算し、表示するシステムを実現できる。例えば、物体検知装置10は、車線1の混雑度90%、トラック33%、乗用車66%のように、各車線の混雑度および走行車両などを検知することができる。
[検知結果の分割]
上記実施例1では、物体検知結果をそのまま用いて確率マップによる対応付けを行う例を説明したが、これに限定されるものではない。例えば、対応付け部30は、物体検知結果を分割してから対応付けを行うこともできる。図12は、検知結果を分割して対応付ける例を説明する図である。図12に示すように、対応付け部30は、物体検知結果を種類ごとに分類し、分類された種類ごとに確率マップを生成して対応付けを実行する。
なお、分類手法としては、検知された物体について、幅、高さ、面積などの大きさや乗用車かトラックかなどの物体のクラスによって物体検知の結果を分割し、個別に確率マップを作成することもできる。
例えば、検知の対象が乗用車やトラックなどであり、クラス間で大きく特徴が変化しないが、画像内における大きさで特徴が変化する場合は、物体の大きさで分割する手法が有効である。また、文書を撮影して文字を検知する場合、文字の大きさはどれも似通っており、また文字が違えば特徴も大きく異なるため、物体(ここでは文字)のクラスによって分割することが有効である。分割の閾値は、訓練データの統計量から事前に決めることができる。また、1つの訓練データが読み込まれるたびに、対応付けの処理を実行することもでき、複数の訓練データをまとめて対応付けの処理を実行することもできる。
[画像復元]
上記実施例1では、画像復元部31は、対応付け結果とメタ情報とを用いて元の入力画像を復元する例を説明したが、これに限定されるものではない。例えば、画像復元部31は、特徴量をさらに加えて、元の入力画像を復元することもできる。図13は、特徴量を用いた画像復元を説明する図である。図13に示すように、画像復元部31は、メタ情報と対応付け処理による対応付け結果と特徴抽出用NNが抽出した特徴量とを元画像復元用NNに入力して、復元画像を生成する。
同じクラスでも見た目の大きく異なる物体がデータに含まれる場合など、元画像の復元を助けるために、元画像復元用NNの入力に中間画像(特徴量)を加えることで、復元画像の精度を向上させることができる。例えば、自動車と人を検知する場合、様々な見た目の自動車や人が存在することが考えられる。この場合、「ここに自動車がある」あるいは「ここに人がいる」という情報のみでは、元画像を復元するための情報(どんな自動車か、どんな人か)が不足するので、中間画像を利用することが効果的である。
[中間画像の復元]
上記実施例1では、元の入力画像を復元する例を説明したが、これに限定されるものではなく、中間画像を復元することもできる。図14は、中間画像を復元する例を説明する図である。図14に示すように、画像復元部31は、元画像復元用NNのパラメータや構成を変更することで、復元の目標を入力画像から中間画像に変更する。そして、画像復元部31は、対応付け結果とメタ情報とを用いて、中間画像を復元する。
例えば、固定された単一のカメラの画像のみが入力となる場合は多様ではないが、様々なカメラで撮影された画像が入力となる場合は、より多様な画像が入力となる。この場合、元画像復元用NNは、多様な画像を復元しなくてはならないが、表現力が不足する場合がある。つまり、入力される画像が多様である場合、入力画像の復元が難しくなることが考えられる。この場合に、入力画像よりも抽象度の高い情報で構成される、中間画像や特徴抽出用NNの中間出力を、入力の代わりに元画像復元用NNにより復元することで、復元画像の精度を向上させることができる。また、図12から図14の手法を組み合わせることができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
[学習器]
上記実施例では、各学習器にNNを用いて、バックプロパゲーションによる学習を実行する例を説明したが、これに限定されるものではなく、例えば勾配法などの他の学習手法を採用することもできる。
[処理対象]
上記実施例では、車線などの画像を例にして説明したが、これに限定されるものではなく、例えば文字や文字を含む画像を処理対象とすることができる。この場合、上記物体として文字の検出および復元を実行する。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、特徴抽出部26は抽出部の一例であり、物体検知部27は検知部の一例であり、対応付け部30と画像復元部31は復元部の一例であり、検知用最適化部29と特徴量用最適化部34は第1の学習部の一例であり、検知用最適化部29と特徴量用最適化部34と復元用最適化部33は第2の学習部の一例である。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア構成]
図15は、ハードウェア構成例を説明する図である。図15に示すように、物体検知装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。
通信インタフェース10aは、他の装置の通信を制御するネットワークインタフェースカードなどである。HDD10bは、プログラムやデータなどを記憶する記憶装置の一例である。
メモリ10cの一例としては、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。プロセッサ10dの一例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等が挙げられる。
また、物体検知装置10は、プログラムを読み出して実行することで物体検知方法を実行する情報処理装置として動作する。つまり、物体検知装置10は、特徴抽出部26、物体検知部27、物体検知評価部28、検知用最適化部29、対応付け部30、画像復元部31、復元評価部32、復元用最適化部33、特徴量用最適化部34と同様の機能を実行するプログラムを実行する。この結果、物体検知装置10は、特徴抽出部26、物体検知部27、物体検知評価部28、検知用最適化部29、対応付け部30、画像復元部31、復元評価部32、復元用最適化部33、特徴量用最適化部34と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、物体検知装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO(Magneto−Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 物体検知装置
11 記憶部
12 撮影部
13 検知部
14 集計部
15 表示部
20 教師ありデータDB
21 教師なしデータDB
22 メタ情報DB
23 特徴量用パラメータDB
24 物体検知用パラメータDB
25 復元用パラメータDB
26 特徴抽出部
27 物体検知部
28 物体検知評価部
29 検知用最適化部
30 対応付け部
31 画像復元部
32 復元評価部
33 復元用最適化部
34 特徴量用最適化部

Claims (6)

  1. ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いた特徴量抽出処理と、
    前記入力データに対する、物体検知器を用いた物体検知処理と、
    前記入力データそれぞれについて、前記物体検知処理により検知された物体に対応した当該入力データの領域データ、および、前記検知された物体に対応したメタ情報から、前記符号化器に対応した復号化器を用いて復元データを生成する復元データ生成処理と、
    前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第1の学習処理と、
    前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第2の学習処理と
    をコンピュータに実行させる学習プログラム。
  2. 前記復元データ生成処理は、前記物体検知処理の結果と前記メタ情報とを微分可能な分布に適用して、前記領域データに対して物体が存在する領域を推定する確率マップを生成し、前記物体検知処理の結果と前記メタ情報とを対応付ける前記領域データを生成する請求項1に記載の学習プログラム。
  3. 前記復元データ生成処理は、前記物体検知処理の結果に含まれる、前記検知された物体の大きさに関するスケール情報に基づき、前記物体検知処理の結果と前記メタ情報とを対応付ける前記領域データを生成する請求項1に記載の学習プログラム。
  4. 前記復元データ生成処理は、前記物体検知処理の結果に含まれる、前記検知された物体の種類に関するクラス情報に基づき、前記物体検知処理の結果と前記メタ情報とを対応付ける前記領域データを生成する請求項1に記載の学習プログラム。
  5. ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いた特徴量抽出処理と、
    前記入力データに対する、物体検知器を用いた物体検知処理と、
    前記入力データそれぞれについて、前記物体検知処理により検知された物体に対応した当該入力データの領域データ、および、前記検知された物体に対応したメタ情報から、前記符号化器に対応した復号化器を用いて復元データを生成する復元データ生成処理と、
    前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第1の学習処理と、
    前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第2の学習処理と
    をコンピュータが実行する学習方法。
  6. ラベルありデータ、および、ラベル無しデータの双方を含む入力データに対する、符号化器を用いて特徴量抽出処理を実行する抽出部と、
    前記入力データに対する、物体検知器を用いた物体検知処理を実行する検知部と、
    前記入力データそれぞれについて、前記物体検知処理により検知された物体に対応した当該入力データの領域データ、および、前記検知された物体に対応したメタ情報から、前記符号化器に対応した復号化器を用いて復元データを生成する復元データ生成処理を実行する復元部と、
    前記入力データがラベルありデータである場合、前記物体検知処理の結果、および、前記入力データに対応づけられたラベルに基づき、前記符号化器および前記物体検知器の学習を実行させる第1の学習部と、
    前記入力データおよび前記復元データから、前記符号化器、前記物体検知器、および、前記復号化器の学習を実行させる第2の学習部と
    を有する物体検知装置。
JP2017108456A 2017-05-31 2017-05-31 学習プログラム、学習方法および物体検知装置 Active JP6897335B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017108456A JP6897335B2 (ja) 2017-05-31 2017-05-31 学習プログラム、学習方法および物体検知装置
EP18175076.1A EP3410351B1 (en) 2017-05-31 2018-05-30 Learning program, learning method, and object detection device
US15/992,754 US10803357B2 (en) 2017-05-31 2018-05-30 Computer-readable recording medium, training method, and object detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017108456A JP6897335B2 (ja) 2017-05-31 2017-05-31 学習プログラム、学習方法および物体検知装置

Publications (2)

Publication Number Publication Date
JP2018205920A JP2018205920A (ja) 2018-12-27
JP6897335B2 true JP6897335B2 (ja) 2021-06-30

Family

ID=62492455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017108456A Active JP6897335B2 (ja) 2017-05-31 2017-05-31 学習プログラム、学習方法および物体検知装置

Country Status (3)

Country Link
US (1) US10803357B2 (ja)
EP (1) EP3410351B1 (ja)
JP (1) JP6897335B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7163786B2 (ja) * 2019-01-17 2022-11-01 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7279368B2 (ja) * 2019-01-17 2023-05-23 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7156049B2 (ja) * 2019-01-17 2022-10-19 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7151501B2 (ja) * 2019-01-18 2022-10-12 富士通株式会社 Dnn選択プログラム、dnn選択方法および情報処理装置
CN109784323B (zh) * 2019-01-21 2020-11-27 北京旷视科技有限公司 图像识别的方法、装置、电子设备和计算机存储介质
CN109887276B (zh) * 2019-01-30 2020-11-03 北京同方软件有限公司 基于前景提取与深度学习融合的夜间交通拥堵检测方法
JP2020140346A (ja) * 2019-02-27 2020-09-03 富士ゼロックス株式会社 画像処理装置及びプログラム
WO2020219971A1 (en) 2019-04-25 2020-10-29 Google Llc Training machine learning models using unsupervised data augmentation
US11132826B2 (en) 2019-05-16 2021-09-28 Caterpillar Inc. Artificial image generation for training an object detection system
WO2021009986A1 (ja) * 2019-07-12 2021-01-21 村田機械株式会社 画像認識方法及び画像認識装置
JP2021026550A (ja) * 2019-08-06 2021-02-22 Fringe81株式会社 投稿管理サーバ、及び投稿管理システム
JP7490359B2 (ja) * 2019-12-24 2024-05-27 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP7441312B2 (ja) * 2020-06-11 2024-02-29 富士フイルム株式会社 学習装置、学習方法、及びプログラム
WO2022201276A1 (ja) * 2021-03-23 2022-09-29 三菱電機株式会社 信頼度判定装置および信頼度判定方法
US20240161445A1 (en) * 2021-04-07 2024-05-16 Nec Corporation Object detection apparatus, object detection system, object detection method, and recording medium
KR20220148011A (ko) * 2021-04-28 2022-11-04 주식회사 에이치엘클레무브 차량의 주행을 보조하는 장치 및 그 방법
US11893346B2 (en) 2021-05-05 2024-02-06 International Business Machines Corporation Transformer-based encoding incorporating metadata

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519201B2 (en) 2005-10-28 2009-04-14 Honda Motor Co., Ltd. Detecting humans via their pose
US7603330B2 (en) * 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
JP5335536B2 (ja) 2009-04-23 2013-11-06 キヤノン株式会社 情報処理装置及び情報処理方法
JP5513960B2 (ja) 2010-04-12 2014-06-04 株式会社メガチップス 画像処理装置
US11144889B2 (en) * 2016-04-06 2021-10-12 American International Group, Inc. Automatic assessment of damage and repair costs in vehicles
GB201615051D0 (en) * 2016-09-05 2016-10-19 Kheiron Medical Tech Ltd Multi-modal medical image procesing
US10074038B2 (en) * 2016-11-23 2018-09-11 General Electric Company Deep learning medical systems and methods for image reconstruction and quality evaluation
US10719780B2 (en) * 2017-03-31 2020-07-21 Drvision Technologies Llc Efficient machine learning method

Also Published As

Publication number Publication date
US10803357B2 (en) 2020-10-13
EP3410351A1 (en) 2018-12-05
EP3410351B1 (en) 2023-12-27
US20180349741A1 (en) 2018-12-06
JP2018205920A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
JP6897335B2 (ja) 学習プログラム、学習方法および物体検知装置
Kim et al. End-to-end ego lane estimation based on sequential transfer learning for self-driving cars
US10580164B2 (en) Automatic camera calibration
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
US20200117937A1 (en) Convolutional neural network for object detection
US20200012865A1 (en) Adapting to appearance variations when tracking a target object in video sequence
KR101848019B1 (ko) 차량 영역 검출을 통한 차량 번호판 검출 방법 및 장치
US10964033B2 (en) Decoupled motion models for object tracking
CN106651774B (zh) 一种车牌超分辨率模型重建方法及装置
US20210232851A1 (en) Image segmentation
WO2013012091A1 (ja) 情報処理装置、物体追跡方法およびプログラム記憶媒体
JP2016062610A (ja) 特徴モデル生成方法及び特徴モデル生成装置
CN105989334A (zh) 基于单目视觉的道路检测方法
JP2017538196A (ja) 商品画像のセグメンテーション方法および装置
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Srividhya et al. [Retracted] A Machine Learning Algorithm to Automate Vehicle Classification and License Plate Detection
CN112699711B (zh) 车道线检测方法、装置、存储介质及电子设备
Murugan et al. Automatic moving vehicle detection and classification based on artificial neural fuzzy inference system
Bao et al. Unpaved road detection based on spatial fuzzy clustering algorithm
JP2017076394A (ja) 移動物体の計数装置及び方法
CN115223123A (zh) 基于计算机视觉识别的路面目标检测方法
Lee Neural network approach to identify model of vehicles
Al Mamun et al. Efficient lane marking detection using deep learning technique with differential and cross-entropy loss.
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210524

R150 Certificate of patent or registration of utility model

Ref document number: 6897335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150