JP2023069083A - 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム - Google Patents

学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム Download PDF

Info

Publication number
JP2023069083A
JP2023069083A JP2021180689A JP2021180689A JP2023069083A JP 2023069083 A JP2023069083 A JP 2023069083A JP 2021180689 A JP2021180689 A JP 2021180689A JP 2021180689 A JP2021180689 A JP 2021180689A JP 2023069083 A JP2023069083 A JP 2023069083A
Authority
JP
Japan
Prior art keywords
learning
loss
domain
detection
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021180689A
Other languages
English (en)
Inventor
ケユア ラニパ
Ranipa Keyur
ジテンダー マウリャ
Maurya Jitender
修 山口
Osamu Yamaguchi
大祐 小林
Daisuke Kobayashi
智行 柴田
Satoyuki Shibata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2021180689A priority Critical patent/JP2023069083A/ja
Priority to US17/899,122 priority patent/US20230132770A1/en
Publication of JP2023069083A publication Critical patent/JP2023069083A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ドメイン適応で得られる検出ネットワークによる物体検出の性能の向上を実現すること。【解決手段】 実施形態に係る学習装置は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部を有する。学習部は、ターゲットドメイン画像に基づく検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する。学習部は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習により、ターゲットドメインとソースドメインとの識別に関する損失であるドメイン識別損失を計算する。学習部は、ターゲットドメイン画像に基づく検出ネットワークの自己学習により、自己学習によるクラス識別に関する損失である自己学習損失を計算する。学習部は、ドメイン識別損失と検出タスク損失及び/又は自己学習損失との重み付け加算に基づいて全体損失を計算する。学習部は、全体損失を最小化するように検出ネットワークの学習パラメータを更新する。【選択図】 図4

Description

本発明の実施形態は、学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラムに関する。
近年、CNN(Convolutional Neural Network)を用いた数多くの物体検出手法が提案されている。そのような中で、既存ドメイン(ソースドメイン)に属するデータに基づき学習済みの検出ネットワークに対して、新規ドメイン(ターゲットドメイン)に属するデータを利用して効率的に学習を行うドメイン適応が提案されている。特に弱教師学習を利用したドメイン適応では、物体検出位置等の教示ラベル(アノテーション)が与えられない新規ドメインに属するデータに基づいて検出ネットワークが訓練される。
特開2018-200685号公報
Kuniaki Saito, et al. "Strong-Weak Distribution Alignment for Adaptive Object Detection", arXiv:1812.04798v3 [cs.CV] 5 Apr 2019 Seunghyeon Kim, et al. "Self-Training and Adversarial Background Regularization for Unsupervised Domain Adaptive One-Stage Object Detection", arXiv:1909.00597v1 [cs.CV] 2 Sep 2019 Vikas Verma, et al. "Manifold Mixup: Better Representations by Interpolating Hidden States" , arXiv:1806.05236v7 [stat.ML] 11 May 2019
特許文献1では、位置情報なしで画像レベルのカテゴリラベルのみで物体検出器を訓練している。クラスがわからない場合や、ドメインギャップが大きい場合でのドメイン適応に関しては触れられていない。非特許文献1では、敵対的学習を用いてソースドメインとターゲットドメインの特徴表現を近づける機能が提案されている。非特許文献2は、弱自己教師学習と敵対的背景スコア正則化を導入して、ターゲットドメインのデータを用いた学習を行っている。非特許文献3では、学習データの増強を目的としたデータオーギュメンテーションに関して、画像の線形結合を行って画像のデータ数を増加させるMixUpに関して、ネットワークの中間層の出力の線形結合を利用するManifold Mixupにより、境界面をうまく学習するという方法が提案されている。非特許文献1及び3については、いずれの機能についても、2ステージ型の物体検出や別のタスクでの導入がなされている。しかし、1ステージ型の物体検出器に導入し、これらを組み合わせて検証された例はない。また、非特許文献2では、自己教師学習を取り入れ不正確な疑似ラベルによる悪影響の軽減を目指しているが、疑似ラベルの生成法に改善の余地が残されている。
本発明が解決しようとする課題は、ドメイン適応で得られる検出ネットワークによる物体検出の性能の向上を実現することが可能な学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援装置、学習支援方法及び学習支援プログラムを提供することである。
実施形態に係る学習装置は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部を具備し、前記学習部は、前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する検出タスク損失計算部と、前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算するドメイン識別損失計算部と、前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算する自己学習損失計算部と、前記ドメイン識別損失と、前記検出タスク損失及び/又は前記自己学習損失との重み付け加算に基づいて全体損失を計算する全体損失計算部と、前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する更新部と、を有する。
第1実施形態に係る学習装置の構成例を示す図 検出ネットワークの入出力例を示す図 ドメイン適応による検出ネットワークの訓練過程を示す図 学習装置によるドメイン適応学習のフローチャートを示す図 ドメイン適応学習において使用する検出ネットワークのネットワーク構成例を示す図 ドメイン識別損失のための検出ネットワークのネットワーク構成例を示す図 統合疑似ラベルの生成過程を示す図 ステップS304におけるフィルタリングのアルゴリズムの疑似コードを示す図 1画像に対する検出位置の予測結果を示す図 複数画像に対する複数検出位置の予測結果の重ね合わせを示す図 統合疑似ラベルを示す図 多様体合成自己学習損失の計算過程を示す図 第2実施形態に係る物体検出装置の構成例を示す図 物体検出装置による物体検出のフローチャートを示す図 第3実施形態に係る学習支援システムの構成例を示す図 学習支援システムによる学習支援のフローチャートを示す図 評価結果と学習状況との表示画面の一例を示す図 9個の評価結果の表示画面の一例を示す図 図18に示す9個の評価結果の集約結果を示す図 図19の集約結果を表すベン図 ドメイン適応学習の性能の比較結果を示す図
以下、図面を参照しながら本実施形態に係わる学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援装置、学習支援方法及び学習支援プログラムを説明する。
(第1実施形態)
第1実施形態は、学習装置、学習方法及び学習プログラムに関する。
図1は、第1実施形態に係る学習装置1の構成例を示す図である。第1実施形態に係る学習装置1、物体検出を行うための深層学習ネットワークの学習を行うコンピュータである。物体検出を行うための深層学習ネットワークを検出ネットワークと呼ぶことにする。
図2は、検出ネットワークN20の入出力例を示す図である。検出ネットワークN20は、画像I1を入力して画像I1に含まれる特定物体のクラス名I11と検出位置I12とを出力するように学習パラメータが訓練される深層学習ネットワークである。学習パラメータは、検出ネットワークN20に割り当てられたパラメータのうち、訓練過程において最適化されたパラメータを意味する。学習パラメータとしては、例えば、重みパラメータやバイアス等が含まれる。図2は、自転車が特定物体に設定された例を示している。この場合、クラス名I11として自転車を意味する「bike」のテキスト情報が出力され、検出位置I12として自転車を囲む矩形(バウンディングボックス)が出力される。なお特定物体は1種類に限定されず、複数種類設定されてもよい。
検出ネットワークは、任意の撮影機器で撮影された画像から特定の物体を検出することに利用される。撮影機器や特定の物体については特に限定されない。例えば、検出ネットワークは、防犯カメラで撮影された画像に対する人物検出や車載カメラで撮影された映像に対する車両検出などで用いられることを想定する。
図1に示すように、学習装置1は、処理回路101、記憶装置102、入力機器103、通信機器104及び表示機器105を有するコンピュータである。処理回路101、記憶装置102、入力機器103、通信機器104及び表示機器105間のデータ通信はバスを介して行われる。
処理回路101は、CPU(Central Processing Unit)等のプロセッサとRAM(Random Access Memory)等のメモリとを有する。処理回路101は、学習部110、取得部120及び出力部130を有する。処理回路101は、本実施形態に係る機械学習に関する学習プログラムを実行することにより、上記各部110~130の各機能を実現する。学習プログラムは、記憶装置102等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。学習プログラムは、上記各部110~130の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部110~130は特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。
学習部110は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する。具体的には、学習部110は、ターゲットドメインに属する画像とソースドメインに属する画像とに基づくドメイン適応により、ソースドメインで学習された検出ネットワークから、ターゲットドメインに適応した検出ネットワークを生成する。ターゲットドメインは、当該ドメインに属する全ての画像に教示ラベルが存在しない又は存在しても個数が少ないドメインを意味する。教示ラベルは、教師有り学習等における教師データとして使用されるラベル、本実施形態に係る検出タスクにおいては、クラス名及び検出位置を意味する。ソースドメインは、当該ドメインに属する略全ての画像について教示ラベルが存在するドメインを意味する。ターゲットドメインに属する画像をターゲットドメイン画像と呼び、ソースドメインに属する画像をソースドメイン画像と呼ぶことにする。
図3は、ドメイン適応による検出ネットワークの訓練過程を示す図である。図3に示すように、まず、学習部110は、教示ラベル付きのソースドメイン画像に基づく教師有り学習により、ソースドメイン用の検出ネットワークN31を生成する(S101)。検出ネットワークN31は、ソースドメイン画像から特定物体を検出することに最適化された検出ネットワークである。次に学習部110は、教示ラベル無しのターゲットドメイン画像と教示ラベル付きのソースドメイン画像とに基づくドメイン適応学習により、ターゲットドメイン用の検出ネットワークN32を生成する(S102)。ターゲットドメイン用の検出ネットワークN32は、ターゲットドメイン画像から特定物体を検出することに最適化された検出ネットワークである。第1実施形態はターゲットドメイン用の検出ネットワークN32の生成を主要な目的にしている。特に言及しない限り、「検出ネットワーク」はターゲットドメイン用の検出ネットワークを意味することとする。なお、ターゲットドメイン画像に教示ラベルが無い場合、ターゲットドメイン画像に疑似ラベルが付されてもよい。
図1に示すように、学習部110は、検出タスク損失計算部111、ドメイン識別損失計算部112、自己学習損失計算部113、全体損失計算部114、更新部115、疑似ラベル生成部116及び学習制御部117を有する。
検出タスク損失計算部111は、ターゲットドメイン画像に基づく検出ネットワークの教師有り学習により検出タスク損失を計算する。検出タスク損失は、検出位置及びクラス識別に関する損失である。ターゲットドメイン画像に教示ラベルが存在する場合、当該教示ラベルが教師データとして使用される。すなわち、当該教示ラベルとターゲットドメイン画像とに基づく教師有り学習が行われる。ターゲットドメイン画像に教示が存在しない場合、疑似ラベルが教師データとして使用される。すなわち、疑似ラベルとターゲットドメイン画像とに基づく教師有り学習が行われる。なお、疑似ラベルとは、人手により付与されることにより信頼性が保証された教示ラベルとは異なり、疑似ラベル生成部116による計算により得られることに起因して信頼性が保証されていないラベルを意味する。
ドメイン識別損失計算部112は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習によりドメイン識別損失を計算する。ドメイン識別損失は、ターゲットドメインとソースドメインとの識別に関する損失である。
自己学習損失計算部113は、ターゲットドメイン画像に基づく検出ネットワークの自己学習により自己学習損失を計算する。自己学習損失は、自己学習によるクラス識別に関する損失である。
図1に示すように、自己学習損失計算部113は、第1の自己学習損失計算部118と第2の自己学習損失計算部119とを有する。第1の自己学習損失計算部118は、自己学習損失として、統合疑似ラベル自己学習損失を計算する。統合疑似ラベル自己学習損失は、統合疑似ラベルを利用した自己学習によるクラス識別に関する損失である。統合疑似ラベルは、疑似ラベル生成部116により生成される疑似ラベルの一種である。第2の自己学習損失計算部119は、自己学習損失として多様体合成自己学習損失を計算する。多様体合成自己学習損失は、多様体合成疑似ラベルを利用した自己学習によるクラス識別に関する損失である。多様体合成疑似ラベルは、疑似ラベル生成部116により生成される疑似ラベルの一種である。
全体損失計算部114は、ドメイン識別損失と、検出タスク損失及び/又は自己学習損失との重み付け加算に基づいて全体損失を計算する。具体的には、ドメイン識別損失と検出タスク損失とに基づいて全体損失を計算する場合、ドメイン識別損失と統合疑似ラベル自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と検出タスク損失と統合疑似ラベル自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と検出タスク損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と統合疑似ラベル自己学習損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と検出タスク損失と統合疑似ラベル自己学習損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合がある。
更新部115は、全体損失を最小化するように検出ネットワークの学習パラメータを更新する。学習パラメータの更新は、所定の最適化法に従い行われる。
疑似ラベル生成部116は、ターゲットドメイン画像に基づいて当該ターゲットドメイン画像に関する疑似ラベルを生成する。一例として、疑似ラベル生成部116は、現在の反復単位における検出ネットワークにターゲットドメイン画像を順伝播することにより、疑似ラベルとして、クラス名及び/又は検出位置を出力する。また、疑似ラベル生成部116は、統合疑似ラベルと多様体合成疑似ラベルとを生成する。統合疑似ラベルは、ターゲットドメイン画像に複数種類の画像変換を施して生成された複数の変換後画像に基づく複数の疑似ラベルを統合した疑似ラベルである。多様体合成疑似ラベルは、検出ネットワークの特徴抽出層から出力された中間特徴量の線形結合に基づく疑似ラベルである。
学習制御部117は、第1実施形態に係るドメイン適応学習を統括的に制御する。ドメイン適応学習においては全体損失に基づく学習パラメータの更新が反復的に行われる。所定の反復単位(以下、ステージと呼ぶ)毎に学習制御部117は、現在のステージが自己学習を行うステージが否かを判定する。現在のステージが自己学習を行うステージであると判定した場合、学習制御部117は、自己学習損失計算部113に自己学習損失の計算を行う旨を指令する。現在の反復単位が自己学習を行うステージでないと判定した場合、学習制御部117は、自己学習損失計算部113に自己学習損失の計算を行わない旨を指令する。各ステージにおいて学習制御部117は、学習停止条件を満たすか否かを判定し、学習停止条件が満たされるまで更新部115による学習パラメータの更新を反復する。
取得部120は、種々のデータを取得する。例えば、取得部120は、検出ネットワークの学習データ、すなわち、ターゲットドメイン画像のデータセットとソースドメイン画像のデータセットとを取得する。取得部120は、各種データを、通信機器104を介して外部装置から取得してもよいし、記憶装置102から取得してもよい。
出力部130は、種々のデータを出力する。例えば、出力部130は、学習部110により学習された検出ネットワークを記憶装置102に出力したり、通信機器104を介して外部装置に出力する。また、出力部130は、ターゲットドメイン画像やクラス名、検出位置等を表示機器105に表示する。
記憶装置102は、ROM(Read Only Memory)やHDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等により構成される。記憶装置102は、学習データや学習プログラム等の種々のデータを記憶する。
入力機器103は、ユーザからの各種指令を入力する。入力機器103としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器103からの出力信号は処理回路101に供給される。なお、入力機器103としては、処理回路101に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。
通信機器104は、学習装置1にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。
表示機器105は、種々のデータを表示する。表示機器105としては、CRT(Cathode-Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、LED(Light-Emitting Diode)ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器105は、プロジェクタでもよい。
以下、学習装置1によるドメイン適応学習の詳細について説明する。本実施形態は、既存ドメインに対して教示済みのデータが存在し、新規ドメインのデータに対して物体検出の性能を向上することが目的である。しかし、新規ドメインのデータに対するアノテーションコストを低減する必要がある。そこで、クロスドメインの物体検出のための教師無しドメイン適応(UDA:Unsupervised Domain Adaptation)の問題を扱う。教師無しドメイン適応のシナリオでは、ソースドメインデータセットの完全なアノテーションが利用可能である。教師無しドメイン適応のシナリオにおいて、ソースドメインのデータセットには完全なアノテーションがあり、ターゲットドメインのデータセットにはアノテーションがない状態で、検出ネットワークが訓練される。また、ターゲットデータに対して信頼性の高い疑似ラベルを付与する手法を導入し、自己学習に役立てる。従来のUDA法がターゲットデータセットにおいて大幅な性能向上を達成したのに対し、自己学習を伴うUDA法は、ドメインギャップを更に減らすことにより、検出ネットワークの精度を向上させることを目的とする。
図4は、学習装置1によるドメイン適応学習のフローチャートを示す図である。処理回路101は、記憶装置102から学習プログラムを読み出して実行することにより、図4に示すドメイン適応学習を開始する。なお、ステップS201の開始前において、学習データであるターゲットドメイン画像のデータセットとソースドメイン画像のデータセットとが記憶装置102又は外部のデータベース等に用意されているものとする。
図4に示すように、学習制御部117は、1個のミニバッチに対応するデータ数分の学習データを検出ネットワークに入力する(S201)。1個のミニバッチは、学習データとして用意されたターゲットドメイン画像のデータセットの中から任意に選択された所定個数のターゲットドメイン画像により構成される。なお、学習データとして用意されたターゲットドメイン画像の一部には教示ラベルが付与されている場合もあるが、本実施例においてはターゲットドメイン画像には教示ラベルが付与されていないものとする。
第1実施形態に係る検出ネットワーク10には、ベースネットワーク層(バックボーン)として、VGG(参考文献1<Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014)>)やResNet(参考文献2<He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.>)などのCNNを用い、物体の検出位置およびクラス名の推定には、1ステージ型の物体検出器であるSSD(Single Shot Multibox Detector)(参考文献3<Liu Wei, et al. "SSD: Single shot multibox detector." European conference on computer vision. Springer, Cham, 2016.>)やCenterNet(参考文献4<Xingyi Zhou, Dequan Wang, Philipp Krahenbuhl. “Objects as Points.”, arXiv 1904.07850 (2019)>)のように特徴マップの画素毎に対象物体のクラス分類と検出位置の回帰とを直接的に行う。また、Faster R-CNN(参考文献5<Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.>)のように物体候補領域を抽出した後に対象物体のクラス分類と検出位置の回帰とを行う2ステージ型の物体検出器が用いられてもよい。
以下では、一例として、第1実施形態に係る検出ネットワークはSSDがベースであるとする。SSDは、リアルタイムに特定物体を検出するために設計された1ステージ型の物体検出器である。
図5は、図4に示すドメイン適応学習において使用する、SSD型の検出ネットワークN50のネットワーク構成例を示す図である。検出ネットワークN50は、ターゲットドメイン画像を入力して当該ターゲットドメイン画像から特定物体のクラス名及び検出位置を出力するためのネットワーク構成を有する。
図5に示すように、検出ネットワークN50は、ベースネットワーク層N51、補助ネットワーク層N52、NMSモジュールN53、クラス特定モジュールN54及び検出位置回帰モジュールN55を有する。ベースネットワーク層N51は、入力画像の画像特徴を表す特徴マップを生成する特徴抽出層(畳み込み層)を有する。ベースネットワーク層N51としては、一例として、VGG16等をベースとしてネットワーク層が用いられる。ベースネットワーク層N51は、VGG16の全結合層が複数の畳み込み層に置き換えられている。補助ネットワーク層のN52は、複数のスケールの特徴マップを抽出する多重の特徴抽出層(畳み込み層)の連鎖構造を有する。補助ネットワーク層N52により様々なサイズの物体を検出することが可能である。
各特徴マップには、アンカーと呼ばれる複数スケールで等間隔に目標点が設定される。アンカー毎にサイズ及びアスペクト比の異なる複数の基準矩形(デフォルトボックス)がクラス毎に設定される。SSDにおいては、クラス毎に8732個の基準矩形が設定される。各特徴マップについて基準矩形毎にクラス特徴量と位置特徴量とが抽出される。
NMSモジュールN53は、ベースネットワーク層N51から出力された特徴マップと補助ネットワーク層N52から出力された特徴マップとに非最大値抑制(NMS:non-maximum suppression)を実行し、1アンカーについて複数の矩形が検出されることを排除するため、信頼度の低い矩形を抑制する。NMSモジュールN53からは矩形毎にクラス特徴量と位置特徴量とが出力される。本実施形態においてNMSモジュールN53は、図5に示すように、検出ネットワークN50に含まれるネットワークモジュールであるとする。
クラス特定モジュールN54は、NMSモジュールN53からの出力に基づいてクラス毎の分類確率値を出力し、閾値に比して高い分類確率値に対応するクラス名を出力する。本実施形態においてクラス特定モジュールN54は、図5に示すように、検出ネットワークN50に含まれるネットワークモジュールであるとする。
検出位置回帰モジュールN55はからの出力に基づいてクラス毎の検出位置を出力する。検出位置は、矩形の基準点の座標、縦幅及び横幅等のパラメータにより規定される。本実施形態において検出位置回帰モジュールN55は、図5に示すように、検出ネットワークN50に含まれるネットワークモジュールであるとする。
上述の通り、検出ネットワークN50は、ベースネットワーク層N51、補助ネットワーク層N52、NMSモジュールN53、クラス特定モジュールN54及び検出位置回帰モジュールN55を有するものとした。しかしながら、本実施形態はこれに限定されず、
しかしながら、NMSモジュールN53、クラス特定モジュールN54及び検出位置回帰モジュールN55は、検出ネットワークN50とは独立のプログラムモジュールでもよい。すなわち、検出ネットワークN50の最小構成は、ベースネットワーク層N51及び補助ネットワーク層N52であるとする。
ステップS201が行われると検出タスク損失計算部111は検出タスク損失を計算し、ドメイン識別損失計算部112はドメイン識別損失を計算する(S202)。
まず、検出タスク損失計算部111による検出タスク損失の計算について説明する。検出タスク損失計算部111は、疑似ラベル付きのターゲットドメイン画像に基づいて、検出位置及びクラス識別に関する検出タスク損失を計算する。検出タスク損失LSSDは、下記(1)式で表される。正例は検出対象の物体が描画された画像領域を意味し、負例は検出対象の物体が描画されていない画像領域を意味する。
Figure 2023069083000002
上記(1)は、正例の集合Pos及び負例の集合Negに対して、それぞれのクラスや背景に対する確率値P(・)を用いて定義する。Llossは位置の特定誤差に対する損失を表す。
次に、ドメイン識別損失計算部112によるドメイン識別損失の計算について説明する。ドメイン識別損失計算部112は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習により、ターゲットドメインとソースドメインとの識別に関するドメイン識別損失を計算する。
図6は、ドメイン識別損失のための検出ネットワークのネットワーク構成例を示す図である。図6に示すように、敵対的学習のために検出ネットワークのベースネットワーク層N51には、勾配反転層(GRL:Gradient Reversal Layer)を介して識別ネットワークN61が接続される。
上記の通り、ベースネットワーク層N51は、入力画像に含まれる画像特徴を抽出するネットワーク層である。ベースネットワーク層N51は、概略的に、第1局所特徴抽出層N511、第2局所特徴抽出層N512及び大域特徴抽出層N513を有している。第1局所特徴抽出層N511は、一例として、ベースネットワーク層N51のconv3_2に対応する。第1局所特徴抽出層N511は、入力画像の局所的な特徴量である局所特徴量F1を抽出する。第2局所特徴抽出層N512は、一例として、ベースネットワーク層N51のconv3_3に対応する。第2局所特徴抽出層N512は、入力画像の局所的な特徴量である局所特徴量F2を抽出する。局所特徴量F2は、局所的ではあるが、局所特徴量F1に比して大域的な特徴量を表している。大域特徴抽出層N513は、ベースネットワーク層N51のconv4_3、すなわち、最初の検出ヘッドに対応する。大域特徴抽出層N513は、入力画像の大域的な特徴量である大域特徴量F3を抽出する。
図6に示すように、識別ネットワークN61は、畳み込み層N611、畳み込み層N612及びドメイン識別層N613を有する。第1局所特徴抽出層N511には勾配反転層N621を介して畳み込み層N611が接続されている。局所特徴量F1は、勾配反転層N621を介して畳み込み層N611に供給される。畳み込み層N611は局所特徴量F1に畳み込み演算を施してドメイン予測マップを生成する。第2局所特徴抽出層N512には勾配反転層N622を介して畳み込み層N612が接続されている。局所特徴量F2は、勾配反転層N622を介して畳み込み層N612に供給される。畳み込み層N612は局所特徴量F2に畳み込み演算を施してドメイン予測マップを生成する。大域特徴抽出層N513には勾配反転層N623を介してドメイン識別層N613が接続されている。大域特徴量F3は勾配反転層N623を介してドメイン識別層N613に供給される。ドメイン識別層N613は大域特徴量F3に基づいてドメイン識別値を算出する。
ドメイン識別損失計算部112は、ターゲットドメイン画像又はソースドメイン画像を検出ネットワークN51に入力して畳み込み層N611,N612各々からドメイン予測マップを出力し、ドメイン識別層N613からドメイン識別値を出力し、畳み込み層N611,N612から出力されたドメイン予測マップに関する第1のドメイン識別損失と、ドメイン識別層N613から出力されたドメイン識別値に関する第2のドメイン識別損失とに基づいてドメイン識別損失を計算する。
以下、より詳細にドメイン識別損失について説明する。このモデルでは、大域レベルの特徴合わせのために、識別ネットワークN61を用いてターゲット画像の画像特徴をソースドメイン画像に合わせる。識別しやすいターゲット画像は、特徴空間においてソースドメイン画像から遠くにあり、識別しにくいターゲット画像はソースドメイン画像の近くにある。大域的な画像特徴にハード・アライメントを強制的に適用すると、シーンのレイアウト(例えば、オブジェクトの数とその共起)に影響する、より大きなシフトがあるかもしれないので、モデルの性能が低下する可能性がある。したがって、大域特徴に対して弱いアライメントを適用する。そのためには、識別ネットワークN61は識別しやすい画像にはあまり集中せず、識別しにくい画像に集中する必要がある。これは、参考文献6<T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Doll´ar. Focal loss for dense object detection. In ICCV, 2017.>に示される、下記の(2)式に示す、FL(Focal Loss)関数を使用することで実現する。ここで、γは識別しにくい画像に対する重みを制御し、f(p)はクロスエントロピー損失の変調係数である。
Figure 2023069083000003
ドメイン分布を揃えるためには、モデルはドメイン識別損失を最小化すると同時に、この損失を最大化するようにベースネットワーク層N51のパラメータを最適化する必要がある。これは,通常の勾配降下法が識別ネットワークN61の学習に適用されるのに対し、勾配反転層N621,N622,N623を用いることで達成できる。勾配反転層N621,N622,N623を通過する際には、勾配の符号を逆にして、ベースネットワーク層N51を最適化する。
大域的な特徴への弱いアライメントは、ドメインシフトが大きい場合に適しているが、局所的な特徴への強いアライメントは、ドメインの質感や色にマッチし、性能が向上するはずである。大域的なドメイン識別に関する損失LDgは、下記(3)式に示す損失関数により計算される。損失LDgは、ドメイン識別層N613の出力Dに対して、ソースドメイン画像の集合Sとターゲットドメイン画像の集合Tのそれぞれに対して計算する。
Figure 2023069083000004
図6に示すように、畳み込み層N611,N612のネットワーク構成は、局所的な画像特徴に着目して設計する。畳み込み層N611,N612は、カーネルサイズが1の完全畳み込み型ネットワークである。畳み込み層N611,N612は、入力された特徴量と同じ幅と高さを持つドメイン予測マップを出力する。局所ドメイン識別に関する損失LDlの損失関数は、下記(4)式のように定義される。(4)式では、損失LDlは、幅W及び高さHを有する特徴量を出力する。畳み込み層N611,N612は、最小二乗誤差による損失に基づき訓練される。
Figure 2023069083000005
ドメイン適応損失のための損失Ladv(F,D)の損失関数は、(4)式に示す、特徴量F1とそれに基づくドメイン予測マップDとに基づく損失LDl(F1,D)と、特徴量F2とそれに基づくドメイン予測マップDとに基づく損失LDl(F2,D)と、(3)式に示す、特徴量F3とそれに基づくドメイン識別値Dとに基づく損失LDg(F3,D)とを用いて、下記(5)式のように定義される。損失Ladv(F,D)は、損失LDl(F1,D),損失LDl(F2,D)及び損失LDg(F3,D)の重み付け加算により定義されてもよい。
Figure 2023069083000006
ドメインギャップを減らすためには、画像レベル(画像のスケール、画像のスタイル、照明など)だけでなく、ローカルスケール(オブジェクトのテクスチャ、形状、色の特徴など)でも画像特徴のアライメントを行う必要がある。しかし、非特許文献1で述べられているように、大域的な画像特徴に強制的に不変であることは、性能を低下させる。上記の通り、本実施形態では,画像レベルのドメインシフトに対応するために、弱い大域特徴のアライメントを適用している。逆に、局所的な特徴の強いアライメントは、そのような特徴に対してモデルがより良い不変性を達成するのに役立ち、ドメインギャップを減少させる可能性がある。このような強い特徴と弱い特徴の調整は、検出ネットワークの様々な段階で識別ネットワークを採用し、それらを敵対的に学習させることで実現している。
ステップS202が行われると学習制御部117は、現在ステージが自己学習を行うステージであるか否かを判定する(S203)。一例として、ステージ毎に自己学習を行うか否かがLUT(Look Up Table)等で対応付けられているものとする。自己学習を行うステージと自己学習を行わないステージとは予め実験的又は経験的に決定されればよい。この場合、学習制御部117は、現在ステージをLUTに照合して現在ステージが自己学習を行うステージであるか否かを判定すればよい。
現在ステージが自己学習を行うステージであると判定された場合(S203:YES)、自己学習損失計算部113は、自己学習損失を計算する(S204)。前述の通り、自己学習損失は、第1の自己学習損失計算部118により計算される統合疑似ラベル自己学習損失と第2の自己学習損失計算部119により計算される多様体合成自己学習損失とがある。本実施例では、統合疑似ラベル自己学習損失と多様体合成自己学習損失との双方が計算されるものとする。自己学習においては疑似ラベルが使用される。疑似ラベルの品質が良ければ、より良い検出ネットワークを生成することができる。そのため、疑似ラベル生成部116は、統合疑似ラベル自己学習損失の計算のため、統合疑似ラベルを生成し、多様体合成自己学習損失の計算のため、多様体合成疑似ラベルを生成する。
第1の自己学習損失計算部118による統合疑似ラベル自己学習損失の計算について説明する。統合疑似ラベル自己学習損失の計算にあたり、まず、疑似ラベル生成部116により統合疑似ラベルが生成される。疑似ラベル生成部116は、ターゲットドメイン画像に複数種類の画像変換を施して複数の変換後画像を生成し、複数の変換後画像を検出ネットワークに適用して複数の予測ラベルを算出し、複数の予測ラベルのアンサンブルに基づいて統合疑似ラベルを生成する。
図7は、統合疑似ラベルの生成過程を示す図である。図7に示すように、疑似ラベル生成部116は、まず、ターゲットドメイン画像に複数種類の画像変換を施して複数の変換後画像を生成する(S301)。画像変換は、データオーギュメンテーション(data augmentation)に利用するものと同様である。すなわち、画像変換としては、画像のスライドや色値反転、拡大、縮小等の簡易な変換が行われればよい。図7においてはN種類の画像変換が行われるものとする。これによりN個の変換後画像TIn(nは変換後画像の添字、2≦n≦N)が生成される。
ステップS301が行われると疑似ラベル生成部116は、N個の変換後画像TIn各々に同一の位置検出器N70を適用して予測ラベルBoxn(2≦n≦N)を生成する(S302)。予測ラベルBoxnは、検出ネットワークにより出力される検出位置、換言すれば、バウンディングボックスに対応する。位置検出器N70は、現在ステージにおける検出ネットワークが用いられればよい。
ステップS302が行われると疑似ラベル生成部116は、N個の予測ラベルBoxnをアンサンブルして単一の検出ラベル(以下、統合検出ラベルと呼ぶ)を生成する(S303)。アンサンブルとしては、同一位置で得られた複数の検出ラベルの平均値を求めることに対応する。
ステップS303が行われると疑似ラベル生成部116は、統合検出ラベルをフィルタリングする(S304)。フィルタリングにより信頼性の低い統合検出ラベルが除去され、信頼性の高い統合検出ラベルが抽出される。抽出された統合検出ラベルが統合疑似ラベルとして使用される。
図8は、ステップS304におけるフィルタリングのアルゴリズムの疑似コードを示す図である。図8に示すように、O、O、ε及びδが入力される。行1に示すように、各BoxnのNMSを行った後の矩形の集合Oから任意の領域(矩形)r が読み出され、行2に示すように、Boxnから出力された全ての予測結果の集合Oから任意の領域(矩形)rが読み出される。行3に示すように、領域r と領域rとのIoU値であるIoU(r ,r)が算出され、IoU(r ,r)が閾値δに対して比較される。行4に示すように、IoU(r ,r)が閾値δ以上である場合、Oからrが収集される。領域rを変更しながら行2~行6の処理が繰り返される。Oに属する全ての領域rについて行2~行6の処理が繰り返されると、行7に示すように、下記(6)式に従いSRRSが計算される。行8に示すように、SRRSが閾値εに対して比較され、SRRSが閾値ε以上である場合、疑似ラベルの集合Yに領域r が追加される。SRRSが閾値ε未満である場合、領域r が棄却される。行11に示すように、行1~行11の処理が集合Oに属する全ての領域r について実行される。全ての領域r について実行されると集合Yが出力される。集合Yに属する領域r が統合疑似ラベルを意味する。
Figure 2023069083000007
図9は、1画像に対する検出位置の予測結果を示す図であり、図10は複数画像に対する複数検出位置の予測結果の重ね合わせを示す図であり、図11は統合疑似ラベルを示す図である。図9に示すように、全ての予測ラベルは元の画像のスケールで累積される。図10に示すように、もしある物体が多くの変換後画像で検出されたならば、その物体の周りには複数のバウンディングボックスが存在するはずである。これにより、検出の信頼性が高まる。そこで、物体の周りのバウンディングボックスを平均化して、バウンディングボックス(統合検出ラベル)を求める。この処理がアンサンブルに対応する。全てのバウンディングボックスが検出されると、図8に示すアルゴリズムが適用され、信頼性の低いバウンディングボックスが棄却され、最終的なバウンディングボックス(統合疑似ラベル)が得られる。図11は最終的なバウンディングボックス(統合疑似ラベル)を示す。図8に示すアルゴリズムの適用により、統合疑似ラベルが信頼性の高いものであることが保証される。統合疑似ラベルは、弱自己学習において信頼性の高い擬似ラベルとして有用である。弱自己学習は、半教師付きの学習環境において、より優れたドメイン不変モデルを学習するために、検出物のカテゴリ情報を学習するのに役立つ。
統合疑似ラベルが生成されると第1の自己学習損失計算部118は、統合疑似ラベル付きのターゲットドメイン画像に基づいて統合疑似ラベル自己学習損失を計算する。
大規模なアノテーション付きデータセットで学習されたモデルは、最良の結果が得られる。一方、ドメイン適応のシナリオでは、ターゲットデータセットはアノテーションされていない。もし対象データセットのアノテーションがあれば、モデルが基礎的なデータ分布を学習するのに役立ったはずである。そのため、正しいラベルを生成することは、モデルの性能を向上させるために不可欠である。ソースデータのみで学習したモデルからターゲットデータ用に生成したラベルは、ドメインシフトが大きいため、信頼度スコアが高くても誤った出力になることが多い。疑似ラベルが生成されると、それらは学習時に正例として扱われる。学習用の負例(Neg)は、一般的にハードネガティブマイニングによって得られる。しかし、ハードネガティブマイニングによって偽のネガティブが選択されてしまうと、学習に支障をきたす。本実施形態では、前景となる可能性のある負例を無視するために、負例の中で信頼性損失が最も小さい||Neg||/3個のサンプルを選択する。このプロセスは弱ネガティブマイニングと呼ばれ、Negを得ることができる。(7)式に、統合疑似ラベル自己学習損失Lwstの損失関数を示す。損失関数Lwstでは,検出タスク損失の損失関数(式1)と比較すると位置特定損失が無視されている。
Figure 2023069083000008
教師無しドメイン適応学習が安定した後、弱自己学習を適用して擬似ラベルを生成する。疑似ラベルが正しくない場合、自己学習がモデルのパラメータに悪影響を及ぼす可能性があるため、弱自己学習は数ステージのみに適用する。
次に、第2の自己学習損失計算部119による多様体合成自己学習損失の計算について説明する。多様体合成自己学習損失は、疑似ラベルを用いた自己学習の精度を向上するために使用される。
参考文献7<H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz, "mixup: Beyond Empirical Risk Minimization," in arXiv:1710.09412, 2017>には、ミックスアップ(Mixup)と呼ばれる2つの学習サンプルのペアを混合して新たな学習サンプルを作成するデータオーギュメンテーション手法が開示されている。これに対して、非特許文献3では、隠れ層における特徴量に対しての線形補間、および対応するラベルに対しても線形結合を行い、学習に用いる多様体ミックスアップ法が提案されている。この方法は、正則化法として機能し、敵対的なサンプルや破損したラベルに対するロバスト性を提供し、ディープニューラルネットワークの汎化能力を向上させる。隠れ層の線形補間によって追加の入力信号を提供し、クラス表現をフラットにすることで、より滑らかな決定境界の生成につながる。
図12は、多様体合成自己学習損失Lmixupの計算過程を示す図である。図12に示すように、疑似ラベル生成部116は、j番目のターゲットドメイン画像Iとk番目のターゲットドメイン画像Iとを取得する。ターゲットドメイン画像I及びターゲットドメイン画像Iは、同一ミニバッチに含まれているものとする。疑似ラベル生成部116は、ターゲットドメイン画像Iに特徴抽出処理Fθを施して特徴量Fθ(I)を抽出し、ターゲットドメイン画像Iに特徴抽出処理Fθを施して特徴量Fθ(I)を抽出する(S401)。特徴抽出処理Fθは、現在ステージにおける検出ネットワークに含まれるベースネットワーク層N51あるいは補助ネットワーク層N52に含まれる特徴抽出層にターゲットドメイン画像I及びターゲットドメイン画像Iを適用することにより実行さればよい。
ステップS401が行われると疑似ラベル生成部116は、特徴量Fθ(I)と特徴量Fθ(I)とを合成して合成特徴量を算出する(S402)。合成特徴量は、下記(8)式に従い算出される。(8)式は、a及びbの2つのベクトルに対して、ベータ分布からサンプリングしたλによって線形結合を行うことを表している。ステップS402においては、例えば、ベクトルaにFθ(I)を代入し、ベクトルbにFθ(I)を代入することにより、合成特徴量MIX(Fθ(I),Fθ(I))が得られる。
Figure 2023069083000009
ステップS402が行われると疑似ラベル生成部116は、合成特徴量MIX(Fθ(I),Fθ(I))に位置検出処理を施して多様体合成疑似ラベルy を生成する(S403)。位置検出処理は、現在ステージにおける検出ネットワークに合成特徴量MIX(Fθ(I),Fθ(I))を順伝播することにより実行されればよい。
一方、疑似ラベル生成部116は、1回前のステージにおける検出ネットワークから生成されたj番目の画像に対する疑似ラベルyθ とk番目の画像に対する疑似ラベルyθ とを合成して多様体合成疑似ラベルy t-1を生成する(S404)。多様体合成疑似ラベルy t-1は、上記(8)式に従い算出することが可能である。例えば、ベクトルaにyθ を代入し、ベクトルbにyθ を代入してMIX(yθ ,yθ )を演算することにより、多様体合成疑似ラベルy t-1が得られる。
ステップS403及びS404が行われると第2の自己学習損失計算部119は、多様体合成疑似ラベルy と多様体合成疑似ラベルy t-1とに基づいて多様体合成自己学習損失Lmixupを計算する(S405)。多様体合成自己学習損失Lmixupは、下記(9)式に従い計算される。xは混合された特徴量、yは、対応する混合されたクラスラベルを表す。モデルパラメータについては、中間特徴量F1、F2、F3を用いる。Lmixupは、バイナリクロスエントロピーロスをそれぞれの正例と負例の集合に対して求めてそれぞれの総和されたものを用いている。
Figure 2023069083000010
ステップS204が行われた場合又はステップS203において現在ステージが自己学習を行うステージでないと判定された場合(S203:NO)、全体損失計算部114は、検出タスク損失LSSDとドメイン識別損失Ladvと自己学習損失とを重み付け加算した全体損失を計算する(S205)。具体的には、全体損失計算部114は、まず、下記(10)式に従い損失Ldetを計算する。損失Ldetは、現在ステージが自己学習ステージの場合、検出タスク損失LSSDと統合疑似ラベル自己学習損失Lwstと多様体合成自己学習損失Lmixupとの加算により計算される。現在ステージが自己学習ステージ以外のステージの場合、損失Ldetは、検出タスク損失LSSDに一致する。
Figure 2023069083000011
損失Ldetを計算すると全体損失計算部114は、下記(11)式に従い、損失Ldetとドメイン識別損失Ladvとの重み付け加算に基づいて全体損失LTOTALを計算する。重み付け係数λは任意の値に設定可能である。
Figure 2023069083000012
ステップS205が行われると更新部115は、全体損失LTOTALに基づいて検出ネットワークの学習パラメータを更新する(S206)。具体的には、更新部115は、下記(12)式に規定されるような、全体損失に基づく目的関数を最適化するように学習パラメータを更新する。より詳細には、損失Ldetを最小化しつつドメイン識別損失Ladvを最大化するように学習パラメータが更新される。これにより全体損失が最小化される。最適化手法としては、確率的勾配降下法(SGD)やADAM等の任意の方法が用いられればよい。
Figure 2023069083000013
ステップS206が行われると学習制御部117は、学習終了条件を満たすか否かを判定する(S207)。学習終了条件は、例えば、所定の総反復回数に到達する事等に設定される。学習終了条件を満たさないと判定された場合(S207:NO)、学習制御部117は、新たなミニバッチ分の学習データを検出ネットワークに入力する。そして新たなミニバッチについてステップS202~S207が実行される。このようにして学習終了条件を満たすと判定されるまで、ミニバッチを変更しながら、ステップS201~S207が反復される。
そして学習終了条件を満たすと判定された場合(S207:YES)、学習制御部117は、ドメイン適応学習を終了する。
なお、図4に示すドメイン適応学習の流れは一例であり、本実施形態はこれに限定されない。以下、種々の変形例・応用例について説明する。
前述したように、検出タスク損失計算部111は、教示ラベル付きのターゲットドメイン画像に基づいて検出タスク損失を計算してもよい。この場合、疑似ラベルの代わりに、ターゲットドメイン画像に付与された教示ラベルを用いることにより、検出タスク損失を計算することが可能である。
上記の実施例に係る自己学習ステージにおける損失Ldetは、検出タスク損失LSSDと統合疑似ラベル自己学習損失Lwstと多様体合成自己学習損失Lmixupとの重み付け加算により計算されるものとした。しかしながら、ソースドメイン画像を使用しないドメイン適応においては、下記の(13)式に示すように、自己学習ステージにおける損失Ldetは、統合疑似ラベル自己学習損失Lwstを使用せず、検出タスク損失LSSDと多様体合成自己学習損失Lmixupとの重み付け加算により計算されるとよい。
Figure 2023069083000014
また、ソースドメイン画像を利用するか否かや検出ネットワークのネットワーク構成等に応じて、自己学習ステージにおける損失Ldetは、種々の変更が可能である。例えば、損失Ldetは、統合疑似ラベル自己学習損失Lwstのみに基づいて計算されてもよいし、検出タスク損失LSSDと統合疑似ラベル自己学習損失Lwstとの重み付け加算でもよい。
上記の実施例において検出タスク損失計算部111は、ターゲットドメイン画像のみに基づいて検出タスク損失を計算するとしたが、ターゲットドメイン画像だけでなく教示ラベル付きのソースドメイン画像を利用して検出タスク損失を計算してもよい。これにより、ソースドメイン画像を有効活用したり、検出ネットワークの性能の向上を図ることが可能になる。
上記の説明の通り、第1実施形に係る学習装置1は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部110を有する。学習部110は、検出タスク損失計算部111、ドメイン識別損失計算部112、自己学習損失計算部113、全体損失計算部114及び更新部115を有する。検出タスク損失計算部111は、ターゲットドメイン画像に基づく検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する。ドメイン識別損失計算部112は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習により、ターゲットドメインとソースドメインとの識別に関する損失であるドメイン識別損失を計算する。自己学習損失計算部113は、ターゲットドメイン画像に基づく検出ネットワークの自己学習により、自己学習によるクラス識別に関する損失である自己学習損失を計算する。全体損失計算部114は、ドメイン識別損失と、検出タスク損失及び/又は自己学習損失との重み付け加算に基づいて全体損失を計算する。更新部115は、全体損失を最小化するように検出ネットワークの学習パラメータを更新する。
上記第1実施形態に係る構成によれば、ドメイン適応学習にあたり、ドメイン識別損失と、検出タスク損失及び/又は自己学習損失との重み付け加算に基づく全体損失を最小化するように検出ネットワークの学習パラメータが更新される。ドメイン識別損失を考慮することにより、敵対的学習によるソースドメインとターゲットドメインの特徴表現を近づけることが可能になる。また、自己学習を行うステージにおいては自己学習損失を考慮し、自己学習を行わないステージにおいては自己学習損失を考慮せず検出タスク損失を考慮することが可能になる。これにより、教示ラベルの無い又は少ないターゲットドメインへのドメイン適応学習の学習性能を向上させることが可能になり、また、当該ドメイン適応学習により生成された学習済み検出ネットワークを利用することにより、物体検出の性能を向上させることが可能になる。自己学習損失として統合疑似ラベル自己学習損失を考慮することにより、アンサンブル法により生成された信頼性の高い疑似ラベル(統合疑似ラベル)を使用して自己学習が行われるので、自己学習の精度を向上させることが可能になる。自己学習損失として多様体合成自己学習損失を考慮することにより、多様体ミックスアップ法により生成された信頼性の高い疑似ラベル(多様体合成疑似ラベル)を使用して自己学習が行われるので、自己学習の精度を向上させることが可能になる。
(第2実施形態)
第2実施形態は、物体検出装置、物体検出方法及び物体検出プログラムに関する。
図13は、第2実施形態に係る物体検出装置2の構成例を示す図である。物体検出装置2は、第1実施形態に係る学習装置1により生成された学習済みの検出ネットワークを利用して特定物体を検出するコンピュータである。物体検出装置2は、例えば、防犯カメラで撮影された画像に対する人物検出や車載カメラで撮影された画像に対する車両検出等で用いられる。
図13に示すように、物体検出装置2は、処理回路201、記憶装置202、入力機器203、通信機器204及び表示機器205を有するコンピュータである。処理回路201、記憶装置202、入力機器203、通信機器204及び表示機器205間のデータ通信はバスを介して行われる。
処理回路201は、CPU等のプロセッサとRAM等のメモリとを有する。処理回路201は、取得部210、処理部220及び出力部230を有する。処理回路201は、本実施形態に係る物体検出に関する物体検出プログラムを実行することにより、上記各部210~230の各機能を実現する。物体検出プログラムは、記憶装置202等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。物体検出プログラムは、上記各部210~230の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部210~230はASIC等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。
取得部210は、種々のデータを取得する。例えば、取得部210は、物体検出の処理対象画像を取得する。取得部210は、各種データを、通信機器204を介して外部装置から取得してもよいし、記憶装置202から取得してもよい。
処理部220は、処理対象画像と、第1実施形態に係る学習装置1により生成された学習済みの検出ネットワークとに基づいて、処理対象画像に含まれる物体の検出位置及びクラス名を出力する。
出力部230は、種々のデータを出力する。例えば、出力部230は、処理部220により出力された、処理対象画像に含まれる物体の検出位置及びクラス名を表示機器205に表示する。
記憶装置202は、ROMやHDD、SSD、集積回路記憶装置等により構成される。記憶装置202は、検出ネットワークや処理対象画像、物体検出プログラム等の種々のデータを記憶する。
入力機器203は、ユーザからの各種指令を入力する。入力機器203としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器203からの出力信号は処理回路201に供給される。なお、入力機器203としては、処理回路201に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。
通信機器204は、物体検出装置2にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。
表示機器205は、種々のデータを表示する。表示機器205としては、CRTディスプレイや液晶ディスプレイ、有機ELディスプレイ、LEDディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器205は、プロジェクタでもよい。
以下、物体検出装置2による物体検出の詳細について説明する。
図14は、物体検出装置2による物体検出のフローチャートを示す図である。処理回路201は、記憶装置202から物体検出プログラムを読み出して実行することにより、図14に示す物体検出を開始する。検出ネットワークは、予め記憶装置202等に記憶されているものとする。検出ネットワークは、ターゲットドメインにドメイン適応された如何なる物体検出器でもよいが、第1実施形態と同様、1ステージ型のSSDであるとする。
図14に示すように、まず、取得部210は、処理対象画像を取得する(S201)。処理対象画像は、ドメイン適応により新たに適応先になったドメイン、すなわち、ターゲットドメインに属する画像である。
ステップS201が行われると処理部220は、処理対象画像を検出ネットワークの入力サイズに成形する(S202)。
ステップS202が行われると処理部220は、成形後の処理対象画像を検出ネットワークに適用してクラス名と検出位置とを予測する(S203)。具体的には、まず、処理部220は、成形後の処理対象画像を、図5に示すベースネットワーク層N51及び補助ネットワーク層N52に順伝播してクラス毎に特徴マップを生成する。次に処理部220は、NMSモジュールN53を実行して、各クラスの特徴マップに非最大値抑制を施して、重複する矩形を取り除き、各矩形についてクラス毎にクラス特徴量と位置特徴量とを出力する。そして処理部220は、クラス特定モジュールN54を実行して、クラス特徴量からクラス毎の分類確率値を出力し、設定閾値を超える分類確率値を有するクラスのクラス名を出力する。また、処理部220は、検出位置回帰モジュールN55を実行して、位置特徴量からクラス毎の検出位置を出力し、設定閾値を超える分類確率値を有するクラスの検出位置を出力する。
ステップS203が行われると出力部230は、クラス名と検出位置とを出力する(S204)。一例として、クラス名を表すテキストと検出位置を表す矩形とが重ね合わされた処理対象画像が表示機器205に表示される。
第2実施形態によれば、第1実施形態により生成された学習済みの検出ネットワークを使用して物体検出を行うことが可能である。よって性能の良い物体検出を行うことが可能である。
(第3実施形態)
第3実施形態は、学習支援システム、学習支援方法及び学習支援プログラム
図15は、第3実施形態に係る学習支援システム3の構成例を示す図である。学習支援システム3は、学習済みの深層学習ネットワークの学習を支援するコンピュータネットワークシステムである。第3実施形態に係る深層学習ネットワークは、第1及び第2実施形態に係る検出ネットワークに限定されず、如何なるタスクを実行するネットワークでもよい。しかしながら、以下の説明を具体的に行うため第3実施形態に係る深層学習ネットワークは、第1及び第2実施形態に係る検出ネットワークであるとする。
学習支援システム3は、例えば、防犯カメラで撮影された画像に対する人物検出や車載カメラで撮影された画像に対する車両検出などでカメラの設置場所でとられたデータを用いで学習データをドメイン適応することや、様々な場所で撮影された学習データを用いて認識性能の向上を目指す際に、学習データと認識性能の対応関係を視認できる情報をユーザに提供する。
図15に示すように、学習支援システム3は、学習装置1、物体検出装置2、既存ドメインデータ格納装置4、新規ドメインデータ格納装置5、履歴格納装置6及び評価装置7を有する。学習装置1、物体検出装置2、既存ドメインデータ格納装置4、新規ドメインデータ格納装置5、履歴格納装置6及び評価装置7は、互いにLAN等の通信ネットワークを介して互いにデータ通信可能に接続されている。
既存ドメインデータ格納装置4は、教示ラベル付きの既存ドメインデータのデータセットを格納する記憶装置である。既存ドメインデータは、検出対象になり得る物体の位置及びクラス名等の教示ラベルを有する画像データである。
新規ドメインデータ格納装置5は、教示ラベル無しの新規ドメインデータのデータセットを格納する記憶装置である。新規ドメインデータは、異なる状況や場所等で新たに収集された、物体の位置及びクラス名等の教示ラベルを有さない画像データである。
学習装置1は、第1実施形態に係る学習装置1同様の機能を有する。学習装置1は、様々な学習データ及び学習条件パラメータを有する複数の学習状況に基づいて、複数の検出ネットワークを訓練する。より詳細には、学習装置1は、既存ドメインデータについては、当該既存ドメインデータに基づく教師有り学習により、当該既存ドメインに関する検出ネットワークを訓練する。また、学習装置1は、新規ドメインデータについては、当該新規ドメインデータ及び既存ドメインデータに基づくドメイン適応学習により、当該新規ドメインに関する検出ネットワークを訓練する。
物体検出装置2は、学習装置1により訓練された複数の検出ネットワークを搭載する。物体検出装置2は、評価装置7からの指令により、評価用データを複数の検出ネットワークにそれぞれ適用して複数のクラス名及び検出位置を予測する。評価用データに基づき予測されたクラス名及び検出位置を評価結果と呼ぶ。評価用データは、既存ドメインデータでもよいし新規ドメインデータでもよいし、その他の画像データでもよい。
履歴格納装置6は、履歴情報を格納する記憶装置である。履歴情報として、履歴格納装置6は、学習データ及び/又は学習パラメータが互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを複数の学習状況に関連付けて記憶する。具体的には、履歴格納装置6は、学習装置1により訓練された複数の検出ネットワークと、当該複数の検出ネットワークにそれぞれ対応する複数の学習状況情報とを関連付けて記憶する。また、履歴格納装置6は、履歴情報として、複数の検出ネットワークと当該複数の検出ネットワークにそれぞれ対応する複数の評価結果とを関連付けて格納してもよい。
評価装置7は、物体検出装置2を利用して評価用データを複数の検出ネットワークに適用して複数の評価結果を生成し、複数の評価結果と複数の学習状況とを並べて表示機器に表示するコンピュータである。
図15に示すように、評価装置7は、処理回路701、記憶装置702、入力機器703、通信機器704及び表示機器705を有するコンピュータである。処理回路701、記憶装置702、入力機器703、通信機器704及び表示機器705間のデータ通信はバスを介して行われる。
処理回路701は、CPU等のプロセッサとRAM等のメモリとを有する。処理回路701は、取得部710、評価部720、選択部730及び出力部740を有する。処理回路701は、本実施形態に係る学習支援に関する学習支援プログラムを実行することにより、上記各部710~740の各機能を実現する。学習支援プログラムは、記憶装置702等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。学習支援プログラムは、上記各部710~740の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部710~740はASIC等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。
取得部710は、種々のデータを取得する。例えば、取得部710は、評価用データや評価結果を物体検出装置2から取得する。
評価部720は、物体検出装置2を利用して、評価用データを、複数の検出ネットワークに適用して複数の評価結果を生成する。
選択部730は、複数の評価結果に基づいて、検出ネットワークの訓練に有用な学習状況を、複数の学習状況の中から選択する。
出力部740は、種々のデータを出力する。例えば、出力部740は、評価部720により出力された複数の評価結果を表示機器705に表示する。また、出力部740は、選択部730により選択された学習状況を表示機器705に表示する。
記憶装置702は、ROMやHDD、SSD、集積回路記憶装置等により構成される。記憶装置702は、検出ネットワークや学習支援プログラム等の種々のデータを記憶する。
入力機器703は、ユーザからの各種指令を入力する。入力機器703としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器703からの出力信号は処理回路701に供給される。なお、入力機器703としては、処理回路701に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。
通信機器704は、評価装置7にネットワークを介して接続された学習装置1、物体検出装置2、既存ドメインデータ格納装置4、新規ドメインデータ格納装置5及び履歴格納装置6等の外部機器との間でデータ通信を行うためのインタフェースである。
表示機器705は、種々のデータを表示する。表示機器705としては、CRTディスプレイや液晶ディスプレイ、有機ELディスプレイ、LEDディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器705は、プロジェクタでもよい。
以下、学習支援システム3による学習支援の詳細について説明する。
図16は、学習支援システム3による学習支援のフローチャートを示す図である。図16に示すように、学習装置1は、既存ドメインデータ及び学習条件に基づいて検出ネットワークを訓練する(S601)。
ステップS601が行われると学習装置1は、新規ドメインデータに基づいて検出ネットワークを訓練する(S602)。S602において学習装置1は、第1実施形態と同様、既存ドメインについて学習済みの検出ネットワークを、ドメイン適応学習により訓練する。
ステップS602が行われると履歴格納装置6は、ステップS601において使用した学習状況(既存ドメインデータ及び学習条件)と当該学習状況に従い訓練された検出ネットワークとを格納し、ステップS602において使用した学習状況と当該学習状況(新規ドメインデータ及び学習条件)に従い訓練された検出ネットワークとを格納する(S603)。
ステップS603が行われると評価装置7の評価部720は、評価用データを検出ネットワークに適用して評価結果を生成する(S604)。評価用データとしては、新規ドメインデータ又は既存ドメインデータの中から任意に選択された画像(以下、テスト画像)が用いられる。ステップS605について詳細に説明する。まず、評価装置7は、評価結果の生成指令と共にテスト画像を物体検出装置2に送信する。物体検出装置2は、テスト画像を、学習済みの複数の検出ネットワーク各々に適用して当該テスト画像に含まれる特定物体のクラス名及び検出位置を評価結果として出力する。物体検出装置2は、テスト画像を評価装置7と履歴格納装置6とに送信する。履歴格納装置6は、当該評価結果を複数の検出ネットワーク各々に関連付けて記憶する。
ステップS604が行われると評価装置7の出力部740は、評価結果と学習状況とを表示機器705に表示する(S605)。
図17は、評価結果と学習状況との表示画面I13の一例を示す図である。図17に示すように、表示画面I13には、3個のテスト画像I131,I132,I133が表示される。各テスト画像I131,I132,I133には、評価結果として「A」「B」「C」等のクラス名と検出矩形により表される検出位置とが重ね合わせて表示される。クラス名と検出位置とは評価結果に対応する。各評価結果には「D1」「D2」「D3」等の学習データの識別情報と、「P1」「P2」「P3」等の学習条件パラメータとが並べて表示されている。学習データと学習条件パラメータとは学習条件に対応する。
図17に示すように、評価結果と学習状況とを視覚的に対応付けて表示することにより、検出ネットワークの性能を評価することが可能になる。例えば、図17においてクラス「B」は、実際にテスト画像に存在しない過検出であるとする。この場合、クラス名「B」の物体を過検出している、テスト画像I131に使用した検出ネットワークの性能が悪く、過検出していないテスト画像I132及びI133に使用した検出ネットワークの性能が良いことを意味する。したがって、テスト画像I132に適用した検出ネットワークの訓練に使用した学習データD2や学習条件パラメータP2、あるいはテスト画像I133に適用した検出ネットワークの訓練に使用した学習データD3や学習条件パラメータP3が、テスト画像が属するドメイン用の検出ネットワークの訓練に有用であることが分かる。
なお、図17に示す表示例は一例であり、これに限定されない。以下、他の表示例について説明する。一般的に学習条件パラメータは複数種類のパラメータが存在する。そこで、互いに値が異なる学習条件パラメータのみが表示されるとよい。これにより、評価結果の差異に寄与する学習条件パラメータを簡易に知ることが可能になる。
ステップS604が行われると評価装置7は、別の新規ドメインデータによる学習を行うか否かを判定する(S605)。例えば、ユーザによる入力機器703を介した指示に従い更なる学習を行うか否かが判定されてもよい。あるいは、予め設定された全ての学習対象の新規ドメインデータの学習が行われたか否かに応じて更なる学習を行うか否かが判定されてもよい。別の新規ドメインデータによる学習を行うと判定された場合(S605:YES)、ステップS602~S605が繰り返される。
そして別の新規ドメインデータによる学習を行わないと判定された場合(S605:NO)、学習支援システム3による学習支援が終了する。
次に、選択部730による学習状況の選択処理について説明する。選択部730は、複数の評価結果に基づいて、検出ネットワークの訓練に有用な学習状況を、複数の学習状況の中から選択する。以下、具体的に選択部730による処理を説明する。
図18は、9個の評価結果の表示画面I18の一例を示す図である。図19は、図18に示す9個の評価結果の集約結果19を示す図である。図20は、図19の集約結果を表すベン図20である。表示画面I18は、例えば、図16のS605において表示される。各テスト画像には、図17と同様に、評価結果として、クラス名及び検出位置が重ねて表示されている。9個の評価結果は、同一のテスト画像に対して9個の検出ネットワークを適用することにより得られている。
図18及び図19に示すように、クラス「A」については7個の検出ネットワークで検出され、クラス「B」については2個の検出ネットワークで検出され、クラス「C」については9個の検出ネットワークで検出されている。クラス「A」及びクラス「C」の物体はテスト画像に存在しているが、クラス「B」の物体についてはテスト画像に存在しておらず、過検出であるとする。ベン図20に含まれる各クラスの楕円は、当該クラスを検出した検出ネットワークの訓練に使用した学習状況の集合を表す。例えば、クラス「A」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合がクラス「A」の楕円で表されている。
選択部730は、特定物体を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合の積集合と、過検出した検出ネットワークの訓練に使用した学習状況の集合との差集合を計算する。図20の例では、選択部730は、クラス「A」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合とクラス「C」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合との積集合を計算し、当該積集合から、クラス「C」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合を減じて差集合21を計算する。そして選択部730は、差集合21に属する学習状況を、検出ネットワークの訓練に有用な学習状況として選択する。選択された学習状況に含まれる学習データ及び学習条件パラメータを用いて検出ネットワークを訓練することにより、過検出の少ない検出ネットワークを生成することが期待される。
このとき、各検出矩形に対しては、正しく対象物が検出されているかどうかといった情報が必要である。既存の教示データが存在する場合はその判定は可能であるが、教示データが存在しない場合は、人手による教示が必要となる。例えば、表示機器705に入力インタフェースを追加し、いずれの検出矩形が正しい対象物であるかをインタラクティブに矩形をクリックするなどの操作により教示情報を与えても構わない。
図21は、ドメイン適応学習の性能の比較結果を示す図である。ソースドメインとしてPASCAL VOCのデータセット、ターゲットドメインとしてClipartデータセットが使用された。性能指標としてはmAP(mean Average Precision)が使用された。mAPは、クラス毎のPrecision-Recall curve下の面積を表すAP(mean Average Precision)値を全クラスに亘り平均した値である。mAPは、ターゲットドメイン画像に対するクラス識別の性能を表す。
図21(A)はソースドメインのみで訓練したSSDの結果である。(B)は教示ラベル付きのターゲットドメインのみで学習したSSDの結果である。(C1)(C2)(C3)は非特許文献1及び非特許文献2の従来手法の結果である。(P1)(P2)(P3)(P4)は本願手法の結果である。(P1)はドメイン識別損失計算部112によるドメイン識別損失のみの場合の結果を示す。(P2)は、比較手法(C2)に対して、第1の自己学習損失計算部118による統合疑似ラベル自己学習損失を加えた結果を示す。(P3)はドメイン識別損失計算部112によるドメイン識別損失を組み合わせたもの、(P4)はさらに第2の自己学習損失計算部119による多様体合成自己学習損失も加えた結果を示す。図21に示すように、本願手法の何れのも従来手法に比して性能が改善している。なお、図21の白丸は比較手法の実装を表し、黒丸は本願手法の実装を表す。図21のP2及びP3は、機能としては、同じ組み合わせであるが、Global・LocalについてP2は比較手法の実装であり、P3は本願手法の実装である。P2とP3とを比較すると、P3がP2に比してmAPが良好であることが分かる。
上記の実施例は例示であり、第3実施形態はこれに限定されない。例えば、評価装置7に検出ネットワークが搭載されていてもよい。あるいは,物体検出装置2に取得部710、評価部720、選択部730及び出力部740が搭載されてもよい。
上記の通り、評価対象の深層学習ネットワークは検出ネットワークに限定されず、画像生成や音声認識、異常検知、如何なるタスクを実行する深層学習ネットワークにも第3実施形態は対応可能である。これに伴い、新規ドメインデータ及び既存ドメインデータのコンテンツやデータ形式等も変更されればよい。
上記の説明の通り、第3実施形態に係る学習支援システム3は、履歴格納装置6及び評価装置7を有する。履歴格納装置6は、学習データ及び/又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを複数の学習状況に関連付けて記憶する。評価装置7は、評価用データを複数のネットワークに適用して複数の評価結果を生成し、複数の評価結果と複数の学習状況とを並べて表示機器705に表示する。
上記の構成によれば、異なる学習状況で訓練された同一タスクの複数のネットワークがある場合に、当該複数のネットワークを共通の評価用データに適用して得た複数の評価結果及び学習状況を比較検討することにより、当該タスクのネットワークの構築に適切な又は不適切な学習状況を把握することが可能になる。ひいては、当該タスクのネットワークの性能を向上させること、当該タスクの精度を向上させることが可能になる。
かくして、上記実施形態によれば、ドメイン適応で得られる検出ネットワークによる物体検出の性能の向上を実現することが可能になる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…学習装置、2…物体検出装置、3…学習支援システム、4…既存ドメインデータ格納装置、5…新規ドメインデータ格納装置、6…履歴格納装置、7…評価装置、101…処理回路、102…記憶装置、103…入力機器、104…通信機器、105…表示機器、110…学習部、111…検出タスク損失計算部、112…ドメイン識別損失計算部、113…自己学習損失計算部、114…全体損失計算部、115…更新部、116…疑似ラベル生成部、117…学習制御部、118…第1の自己学習損失計算部、119…第2の自己学習損失計算部、120…取得部、130…出力部、201…処理回路、202…記憶装置、203…入力機器、204…通信機器、205…表示機器、210…取得部、220…処理部、230…出力部、701…処理回路、702…記憶装置、703…入力機器、704…通信機器、705…表示機器、710…取得部、720…評価部、730…選択部、740…出力部。

Claims (25)

  1. ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部を具備し、
    前記学習部は、
    前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する検出タスク損失計算部と、
    前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算するドメイン識別損失計算部と、
    前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算する自己学習損失計算部と、
    前記ドメイン識別損失と、前記検出タスク損失及び/又は前記自己学習損失との重み付け加算に基づいて全体損失を計算する全体損失計算部と、
    前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する更新部と、を有する、
    学習装置。
  2. 前記学習部は、現在の反復単位が前記自己学習を行う反復単位が否かを判定する制御部を更に有し、
    前記自己学習損失計算部は、前記現在の反復単位が前記自己学習を行う反復単位であると判定された場合、前記自己学習損失を計算する、
    請求項1記載の学習装置。
  3. 前記自己学習損失計算部は、第1の自己学習損失計算部及び/又は第2の自己学習損失計算部を有し、
    前記第1の自己学習損失計算部は、前記自己学習損失として、前記ターゲットドメインに属する画像に基づく統合疑似ラベルを利用した自己学習によるクラス識別に関する第1の自己学習損失を計算し、
    前記第2の自己学習損失計算部は、前記自己学習損失として、前記ターゲットドメインに属する画像に基づく多様体合成疑似ラベルを利用した自己学習によるクラス識別に関する第2の自己学習損失を計算し、
    前記全体損失計算部は、前記自己学習損失として、前記第1の自己学習損失及び/又は前記第2の自己学習損失を使用する、
    請求項1又は2記載の学習装置。
  4. 前記ターゲットドメインに属する画像に複数種類の画像変換を施して複数の変換後画像を生成し、前記複数の変換後画像を前記検出ネットワークに適用して複数の検出ラベルを算出し、前記複数の検出ラベルのアンサンブルに基づいて前記統合疑似ラベルを生成する疑似ラベル生成部を更に備え、
    前記第1の自己学習損失計算部は、前記統合疑似ラベル付きの前記ターゲットドメインに属する画像に基づいて前記第1の自己学習損失を計算する、
    請求項3記載の学習装置。
  5. 各反復単位において、前記ターゲットドメインに属する第1の画像及び第2の画像を前記検出ネットワークにそれぞれ適用して第1の中間出力及び第2の中間出力を算出し、前記第1の中間出力及び第2の中間出力の線形結合に基づいて前記多様体合成疑似ラベルを算出する疑似ラベル生成部を更に備え、
    前記第2の自己学習損失計算部は、現在の反復単位における多様体合成疑似ラベルと過去の反復単位における多様体合成疑似ラベルとに基づいて前記現在の反復単位における前記第2の自己学習損失を計算する、
    請求項3記載の学習装置。
  6. 前記全体損失計算部は、
    前記現在の反復単位が前記自己学習を行う反復単位でないと判定された場合、前記ドメイン識別損失と前記検出タスク損失との重み付け加算に基づいて前記全体損失を計算し、
    前記現在の反復単位が前記自己学習を行う反復単位であると判定された場合、前記ドメイン識別損失と、前記検出タスク損失及び/又は前記自己学習損失との重み付け加算に基づいて前記全体損失を計算する、
    請求項2記載の学習装置。
  7. 前記検出ネットワークには、勾配の符号を反転する勾配反転層を介して、入力画像が属するドメインを識別するための識別ネットワークが接続され、
    前記ドメイン識別損失計算部は、前記識別ネットワークからの出力に基づいて前記ドメイン識別損失を計算する、
    請求項1記載の学習装置。
  8. 前記検出ネットワークは、局所的な画像特徴を表す特徴ベクトルを出力する局所特徴抽出層と、大域的な画像特徴を表す特徴ベクトルを出力する大域特徴抽出層とを有し、
    前記識別ネットワークは、前記局所特徴抽出層に第1の勾配反転層を介して接続された畳み込み層と前記大域特徴抽出層に第2の勾配反転層に接続されたドメイン識別層とを有し、
    前記ドメイン識別損失計算部は、前記畳み込み層から出力されたドメイン予測マップに関する第1のドメイン識別損失と前記ドメイン識別層から出力されたドメイン識別値に関する第2のドメイン識別損失とに基づいて前記ドメイン識別損失を計算する、
    請求項7記載の学習装置。
  9. 前記検出タスク損失計算部は、教示ラベル付き又は疑似ラベル付きの前記ターゲットドメインに属する画像に基づいて前記検出タスク損失を計算する、請求項1記載の学習装置。
  10. 前記検出ネットワークは、ワンステージ型の物体検出器である、請求項1記載の学習装置。
  11. 前記検出ネットワークは、前記ソースドメインに属する画像に基づいて学習済みの深層学習ネットワークである、請求項1記載の学習装置。
  12. ターゲットドメインに属する処理対象画像を取得する取得部と、
    前記処理対象画像と、請求項1乃至11の何れか一項に記載の検出ネットワークとに基づいて前記処理対象画像に含まれる物体の検出位置及びクラス名を出力する処理部と、
    を具備する物体検出装置。
  13. 学習データ及び/又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを前記複数の学習状況に関連付けて記憶する履歴格納装置と、
    評価用データを前記複数のネットワークに適用して複数の評価結果を生成し、前記複数の評価結果と前記複数の学習状況とを並べて表示機器に表示する評価装置と、
    を具備する学習支援システム。
  14. 前記複数のネットワーク各々は、画像から物体を検出する検出ネットワークであり、
    前記複数の評価結果各々は、前記物体の検出位置を表す矩形が描画された画像である、
    請求項13記載の学習支援システム。
  15. 前記検出ネットワークは、請求項1乃至11の何れか一項記載の学習装置により訓練された検出ネットワークである、請求項14記載の学習支援システム。
  16. 前記評価装置は、前記複数の評価結果に基づいて、前記所定のタスクを実行するネットワークの訓練に有用な学習状況を前記複数の学習状況の中から選択する、請求項13記載の学習支援システム。
  17. 前記複数のネットワークは、それぞれ、画像から物体を検出する複数の検出ネットワークであり、
    前記評価装置は、
    前記複数の評価結果として、前記物体の検出位置を表す矩形が描画された複数の評価画像を表示し、
    前記複数の評価画像の中から前記物体を正しく検出している評価画像を特定し、
    前記複数の検出ネットワークの中から前記特定された評価画像の生成に使用した検出ネットワークを特定し、
    前記複数の学習状況の中から前記特定された検出ネットワークに関連付けられた学習状況を前記有用な学習状況として選択する、
    請求項16記載の学習支援システム。
  18. 前記複数の検出ネットワーク各々は、請求項1乃至11の何れか一項記載の学習装置により訓練された検出ネットワークである、請求項17記載の学習支援システム。
  19. 前記複数の学習状況のうちの複数の学習データを格納する学習データ格納装置と、
    前記複数の学習状況に基づいて前記複数のネットワークを学習する学習装置と、を更に備え、
    前記履歴格納装置は、前記学習装置による前記複数のネットワークの結果として、前記複数の学習状況を記憶する、
    請求項13記載の学習支援システム。
  20. ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習工程を有し、
    前記学習工程は、
    前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算し、
    前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算し、
    前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算し、
    前記ドメイン識別損失と、前記検出タスク損失及び/又は前記自己学習損失との重み付け加算に基づいて全体損失を計算し、
    前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する、ことを含む、
    学習方法。
  21. ターゲットドメインに属する処理対象画像を取得し、
    前記処理対象画像と、請求項1乃至11の何れか一項に記載の検出ネットワークとに基づいて前記処理対象画像に含まれる物体の検出位置及びクラス名を出力すること、
    を具備する物体検出方法。
  22. 学習データ及び/又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを前記複数の学習状況に関連付けて記憶装置に格納し、
    評価用データを前記複数のネットワークに適用して複数の評価結果を生成し、前記複数の評価結果と前記複数の学習状況とを並べて表示機器に表示する、
    ことを具備する学習支援方法。
  23. コンピュータに、
    ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成させる学習機能を実現し、
    前記学習機能は、
    前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算し、
    前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算し、
    前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算し、
    前記ドメイン識別損失と、前記検出タスク損失及び/又は前記自己学習損失との重み付け加算に基づいて全体損失を計算し、
    前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する、ことを含む、
    学習プログラム。
  24. コンピュータに、
    ターゲットドメインに属する処理対象画像を取得させる機能と、
    前記処理対象画像と、請求項1乃至11の何れか一項に記載の検出ネットワークとに基づいて前記処理対象画像に含まれる物体の検出位置及びクラス名を出力させる機能と、
    を実現させる物体検出プログラム。
  25. コンピュータに、
    学習データ及び/又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを前記複数の学習状況に関連付けて記憶装置に格納させる機能と、
    評価用データを前記複数のネットワークに適用して複数の評価結果を生成し、前記複数の評価結果と前記複数の学習状況とを並べて表示機器に表示させる機能と、
    を実現させる学習支援プログラム。
JP2021180689A 2021-11-04 2021-11-04 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム Pending JP2023069083A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021180689A JP2023069083A (ja) 2021-11-04 2021-11-04 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム
US17/899,122 US20230132770A1 (en) 2021-11-04 2022-08-30 Learning apparatus, learning method, object detection apparatus, object detection method, learning support system and learning support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021180689A JP2023069083A (ja) 2021-11-04 2021-11-04 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム

Publications (1)

Publication Number Publication Date
JP2023069083A true JP2023069083A (ja) 2023-05-18

Family

ID=86146195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021180689A Pending JP2023069083A (ja) 2021-11-04 2021-11-04 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム

Country Status (2)

Country Link
US (1) US20230132770A1 (ja)
JP (1) JP2023069083A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690011B (zh) * 2024-02-04 2024-04-19 中国海洋大学 适用于嘈杂水下场景的目标检测方法及其模型搭建方法

Also Published As

Publication number Publication date
US20230132770A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
WO2022213879A1 (zh) 目标对象检测方法、装置、计算机设备和存储介质
US10936911B2 (en) Logo detection
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
US9965719B2 (en) Subcategory-aware convolutional neural networks for object detection
CN110879959B (zh) 生成数据集的方法及装置、利用其的测试方法及测试装置
CN110569700B (zh) 优化损伤识别结果的方法及装置
CN111695622B (zh) 变电作业场景的标识模型训练方法、标识方法及装置
CN110569696A (zh) 用于车辆部件识别的神经网络系统、方法和装置
WO2014174932A1 (ja) 画像処理装置、プログラム及び画像処理方法
TWI649698B (zh) 物件偵測裝置、物件偵測方法及電腦可讀取媒體
CN113673305A (zh) 使用最短连线特征的图像标记
JP6612486B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
US10991122B2 (en) Processing images to localize novel objects
CN107347125B (zh) 视频图像的处理方法、装置和终端设备
US11756288B2 (en) Image processing method and apparatus, electronic device and storage medium
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及系统
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
JP2023069083A (ja) 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム
CN114154563A (zh) 基于混合监督训练的目标检测方法
CN113223011A (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN116958113A (zh) 一种产品检测方法、装置、设备及存储介质
CN112287938A (zh) 一种文本分割方法、系统、设备以及介质
Kawano et al. TAG: Guidance-free Open-Vocabulary Semantic Segmentation

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105