JP2023069083A

JP2023069083A - 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム

Info

Publication number: JP2023069083A
Application number: JP2021180689A
Authority: JP
Inventors: ケユアラニパ; Ranipa Keyur; ジテンダーマウリャ; Maurya Jitender; 修山口; Osamu Yamaguchi; 大祐小林; Daisuke Kobayashi; 智行柴田; Satoyuki Shibata
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-05-18
Also published as: US20230132770A1

Abstract

【課題】ドメイン適応で得られる検出ネットワークによる物体検出の性能の向上を実現すること。【解決手段】実施形態に係る学習装置は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部を有する。学習部は、ターゲットドメイン画像に基づく検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する。学習部は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習により、ターゲットドメインとソースドメインとの識別に関する損失であるドメイン識別損失を計算する。学習部は、ターゲットドメイン画像に基づく検出ネットワークの自己学習により、自己学習によるクラス識別に関する損失である自己学習損失を計算する。学習部は、ドメイン識別損失と検出タスク損失及び／又は自己学習損失との重み付け加算に基づいて全体損失を計算する。学習部は、全体損失を最小化するように検出ネットワークの学習パラメータを更新する。【選択図】図４

Description

本発明の実施形態は、学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラムに関する。

近年、ＣＮＮ（Convolutional Neural Network）を用いた数多くの物体検出手法が提案されている。そのような中で、既存ドメイン（ソースドメイン）に属するデータに基づき学習済みの検出ネットワークに対して、新規ドメイン（ターゲットドメイン）に属するデータを利用して効率的に学習を行うドメイン適応が提案されている。特に弱教師学習を利用したドメイン適応では、物体検出位置等の教示ラベル（アノテーション）が与えられない新規ドメインに属するデータに基づいて検出ネットワークが訓練される。

特開2018-200685号公報

Kuniaki Saito, et al. "Strong-Weak Distribution Alignment for Adaptive Object Detection", arXiv:1812.04798v3 [cs.CV] 5 Apr 2019 Seunghyeon Kim, et al. "Self-Training and Adversarial Background Regularization for Unsupervised Domain Adaptive One-Stage Object Detection", arXiv:1909.00597v1 [cs.CV] 2 Sep 2019 Vikas Verma, et al. "Manifold Mixup: Better Representations by Interpolating Hidden States" , arXiv:1806.05236v7 [stat.ML] 11 May 2019

特許文献１では、位置情報なしで画像レベルのカテゴリラベルのみで物体検出器を訓練している。クラスがわからない場合や、ドメインギャップが大きい場合でのドメイン適応に関しては触れられていない。非特許文献１では、敵対的学習を用いてソースドメインとターゲットドメインの特徴表現を近づける機能が提案されている。非特許文献２は、弱自己教師学習と敵対的背景スコア正則化を導入して、ターゲットドメインのデータを用いた学習を行っている。非特許文献３では、学習データの増強を目的としたデータオーギュメンテーションに関して、画像の線形結合を行って画像のデータ数を増加させるMixUpに関して、ネットワークの中間層の出力の線形結合を利用するManifold Mixupにより、境界面をうまく学習するという方法が提案されている。非特許文献１及び３については、いずれの機能についても、２ステージ型の物体検出や別のタスクでの導入がなされている。しかし、１ステージ型の物体検出器に導入し、これらを組み合わせて検証された例はない。また、非特許文献２では、自己教師学習を取り入れ不正確な疑似ラベルによる悪影響の軽減を目指しているが、疑似ラベルの生成法に改善の余地が残されている。

本発明が解決しようとする課題は、ドメイン適応で得られる検出ネットワークによる物体検出の性能の向上を実現することが可能な学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援装置、学習支援方法及び学習支援プログラムを提供することである。

実施形態に係る学習装置は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部を具備し、前記学習部は、前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する検出タスク損失計算部と、前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算するドメイン識別損失計算部と、前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算する自己学習損失計算部と、前記ドメイン識別損失と、前記検出タスク損失及び／又は前記自己学習損失との重み付け加算に基づいて全体損失を計算する全体損失計算部と、前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する更新部と、を有する。

第１実施形態に係る学習装置の構成例を示す図検出ネットワークの入出力例を示す図ドメイン適応による検出ネットワークの訓練過程を示す図学習装置によるドメイン適応学習のフローチャートを示す図ドメイン適応学習において使用する検出ネットワークのネットワーク構成例を示す図ドメイン識別損失のための検出ネットワークのネットワーク構成例を示す図統合疑似ラベルの生成過程を示す図ステップＳ３０４におけるフィルタリングのアルゴリズムの疑似コードを示す図１画像に対する検出位置の予測結果を示す図複数画像に対する複数検出位置の予測結果の重ね合わせを示す図統合疑似ラベルを示す図多様体合成自己学習損失の計算過程を示す図第２実施形態に係る物体検出装置の構成例を示す図物体検出装置による物体検出のフローチャートを示す図第３実施形態に係る学習支援システムの構成例を示す図学習支援システムによる学習支援のフローチャートを示す図評価結果と学習状況との表示画面の一例を示す図９個の評価結果の表示画面の一例を示す図図１８に示す９個の評価結果の集約結果を示す図図１９の集約結果を表すベン図ドメイン適応学習の性能の比較結果を示す図

以下、図面を参照しながら本実施形態に係わる学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援装置、学習支援方法及び学習支援プログラムを説明する。

（第１実施形態）
第１実施形態は、学習装置、学習方法及び学習プログラムに関する。

図１は、第１実施形態に係る学習装置１の構成例を示す図である。第１実施形態に係る学習装置１、物体検出を行うための深層学習ネットワークの学習を行うコンピュータである。物体検出を行うための深層学習ネットワークを検出ネットワークと呼ぶことにする。

図２は、検出ネットワークＮ２０の入出力例を示す図である。検出ネットワークＮ２０は、画像Ｉ１を入力して画像Ｉ１に含まれる特定物体のクラス名Ｉ１１と検出位置Ｉ１２とを出力するように学習パラメータが訓練される深層学習ネットワークである。学習パラメータは、検出ネットワークＮ２０に割り当てられたパラメータのうち、訓練過程において最適化されたパラメータを意味する。学習パラメータとしては、例えば、重みパラメータやバイアス等が含まれる。図２は、自転車が特定物体に設定された例を示している。この場合、クラス名Ｉ１１として自転車を意味する「ｂｉｋｅ」のテキスト情報が出力され、検出位置Ｉ１２として自転車を囲む矩形（バウンディングボックス）が出力される。なお特定物体は１種類に限定されず、複数種類設定されてもよい。

検出ネットワークは、任意の撮影機器で撮影された画像から特定の物体を検出することに利用される。撮影機器や特定の物体については特に限定されない。例えば、検出ネットワークは、防犯カメラで撮影された画像に対する人物検出や車載カメラで撮影された映像に対する車両検出などで用いられることを想定する。

図１に示すように、学習装置１は、処理回路１０１、記憶装置１０２、入力機器１０３、通信機器１０４及び表示機器１０５を有するコンピュータである。処理回路１０１、記憶装置１０２、入力機器１０３、通信機器１０４及び表示機器１０５間のデータ通信はバスを介して行われる。

処理回路１０１は、ＣＰＵ（Central Processing Unit）等のプロセッサとＲＡＭ（Random Access Memory）等のメモリとを有する。処理回路１０１は、学習部１１０、取得部１２０及び出力部１３０を有する。処理回路１０１は、本実施形態に係る機械学習に関する学習プログラムを実行することにより、上記各部１１０～１３０の各機能を実現する。学習プログラムは、記憶装置１０２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。学習プログラムは、上記各部１１０～１３０の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部１１０～１３０は特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。

学習部１１０は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する。具体的には、学習部１１０は、ターゲットドメインに属する画像とソースドメインに属する画像とに基づくドメイン適応により、ソースドメインで学習された検出ネットワークから、ターゲットドメインに適応した検出ネットワークを生成する。ターゲットドメインは、当該ドメインに属する全ての画像に教示ラベルが存在しない又は存在しても個数が少ないドメインを意味する。教示ラベルは、教師有り学習等における教師データとして使用されるラベル、本実施形態に係る検出タスクにおいては、クラス名及び検出位置を意味する。ソースドメインは、当該ドメインに属する略全ての画像について教示ラベルが存在するドメインを意味する。ターゲットドメインに属する画像をターゲットドメイン画像と呼び、ソースドメインに属する画像をソースドメイン画像と呼ぶことにする。

図３は、ドメイン適応による検出ネットワークの訓練過程を示す図である。図３に示すように、まず、学習部１１０は、教示ラベル付きのソースドメイン画像に基づく教師有り学習により、ソースドメイン用の検出ネットワークＮ３１を生成する（Ｓ１０１）。検出ネットワークＮ３１は、ソースドメイン画像から特定物体を検出することに最適化された検出ネットワークである。次に学習部１１０は、教示ラベル無しのターゲットドメイン画像と教示ラベル付きのソースドメイン画像とに基づくドメイン適応学習により、ターゲットドメイン用の検出ネットワークＮ３２を生成する（Ｓ１０２）。ターゲットドメイン用の検出ネットワークＮ３２は、ターゲットドメイン画像から特定物体を検出することに最適化された検出ネットワークである。第１実施形態はターゲットドメイン用の検出ネットワークＮ３２の生成を主要な目的にしている。特に言及しない限り、「検出ネットワーク」はターゲットドメイン用の検出ネットワークを意味することとする。なお、ターゲットドメイン画像に教示ラベルが無い場合、ターゲットドメイン画像に疑似ラベルが付されてもよい。

図１に示すように、学習部１１０は、検出タスク損失計算部１１１、ドメイン識別損失計算部１１２、自己学習損失計算部１１３、全体損失計算部１１４、更新部１１５、疑似ラベル生成部１１６及び学習制御部１１７を有する。

検出タスク損失計算部１１１は、ターゲットドメイン画像に基づく検出ネットワークの教師有り学習により検出タスク損失を計算する。検出タスク損失は、検出位置及びクラス識別に関する損失である。ターゲットドメイン画像に教示ラベルが存在する場合、当該教示ラベルが教師データとして使用される。すなわち、当該教示ラベルとターゲットドメイン画像とに基づく教師有り学習が行われる。ターゲットドメイン画像に教示が存在しない場合、疑似ラベルが教師データとして使用される。すなわち、疑似ラベルとターゲットドメイン画像とに基づく教師有り学習が行われる。なお、疑似ラベルとは、人手により付与されることにより信頼性が保証された教示ラベルとは異なり、疑似ラベル生成部１１６による計算により得られることに起因して信頼性が保証されていないラベルを意味する。

ドメイン識別損失計算部１１２は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習によりドメイン識別損失を計算する。ドメイン識別損失は、ターゲットドメインとソースドメインとの識別に関する損失である。

自己学習損失計算部１１３は、ターゲットドメイン画像に基づく検出ネットワークの自己学習により自己学習損失を計算する。自己学習損失は、自己学習によるクラス識別に関する損失である。

図１に示すように、自己学習損失計算部１１３は、第１の自己学習損失計算部１１８と第２の自己学習損失計算部１１９とを有する。第１の自己学習損失計算部１１８は、自己学習損失として、統合疑似ラベル自己学習損失を計算する。統合疑似ラベル自己学習損失は、統合疑似ラベルを利用した自己学習によるクラス識別に関する損失である。統合疑似ラベルは、疑似ラベル生成部１１６により生成される疑似ラベルの一種である。第２の自己学習損失計算部１１９は、自己学習損失として多様体合成自己学習損失を計算する。多様体合成自己学習損失は、多様体合成疑似ラベルを利用した自己学習によるクラス識別に関する損失である。多様体合成疑似ラベルは、疑似ラベル生成部１１６により生成される疑似ラベルの一種である。

全体損失計算部１１４は、ドメイン識別損失と、検出タスク損失及び／又は自己学習損失との重み付け加算に基づいて全体損失を計算する。具体的には、ドメイン識別損失と検出タスク損失とに基づいて全体損失を計算する場合、ドメイン識別損失と統合疑似ラベル自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と検出タスク損失と統合疑似ラベル自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と検出タスク損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と統合疑似ラベル自己学習損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合、ドメイン識別損失と検出タスク損失と統合疑似ラベル自己学習損失と多様体合成自己学習損失とに基づいて全体損失を計算する場合がある。

更新部１１５は、全体損失を最小化するように検出ネットワークの学習パラメータを更新する。学習パラメータの更新は、所定の最適化法に従い行われる。

疑似ラベル生成部１１６は、ターゲットドメイン画像に基づいて当該ターゲットドメイン画像に関する疑似ラベルを生成する。一例として、疑似ラベル生成部１１６は、現在の反復単位における検出ネットワークにターゲットドメイン画像を順伝播することにより、疑似ラベルとして、クラス名及び／又は検出位置を出力する。また、疑似ラベル生成部１１６は、統合疑似ラベルと多様体合成疑似ラベルとを生成する。統合疑似ラベルは、ターゲットドメイン画像に複数種類の画像変換を施して生成された複数の変換後画像に基づく複数の疑似ラベルを統合した疑似ラベルである。多様体合成疑似ラベルは、検出ネットワークの特徴抽出層から出力された中間特徴量の線形結合に基づく疑似ラベルである。

学習制御部１１７は、第１実施形態に係るドメイン適応学習を統括的に制御する。ドメイン適応学習においては全体損失に基づく学習パラメータの更新が反復的に行われる。所定の反復単位（以下、ステージと呼ぶ）毎に学習制御部１１７は、現在のステージが自己学習を行うステージが否かを判定する。現在のステージが自己学習を行うステージであると判定した場合、学習制御部１１７は、自己学習損失計算部１１３に自己学習損失の計算を行う旨を指令する。現在の反復単位が自己学習を行うステージでないと判定した場合、学習制御部１１７は、自己学習損失計算部１１３に自己学習損失の計算を行わない旨を指令する。各ステージにおいて学習制御部１１７は、学習停止条件を満たすか否かを判定し、学習停止条件が満たされるまで更新部１１５による学習パラメータの更新を反復する。

取得部１２０は、種々のデータを取得する。例えば、取得部１２０は、検出ネットワークの学習データ、すなわち、ターゲットドメイン画像のデータセットとソースドメイン画像のデータセットとを取得する。取得部１２０は、各種データを、通信機器１０４を介して外部装置から取得してもよいし、記憶装置１０２から取得してもよい。

出力部１３０は、種々のデータを出力する。例えば、出力部１３０は、学習部１１０により学習された検出ネットワークを記憶装置１０２に出力したり、通信機器１０４を介して外部装置に出力する。また、出力部１３０は、ターゲットドメイン画像やクラス名、検出位置等を表示機器１０５に表示する。

記憶装置１０２は、ＲＯＭ（Read Only Memory）やＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、集積回路記憶装置等により構成される。記憶装置１０２は、学習データや学習プログラム等の種々のデータを記憶する。

入力機器１０３は、ユーザからの各種指令を入力する。入力機器１０３としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器１０３からの出力信号は処理回路１０１に供給される。なお、入力機器１０３としては、処理回路１０１に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。

通信機器１０４は、学習装置１にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。

表示機器１０５は、種々のデータを表示する。表示機器１０５としては、ＣＲＴ（Cathode-Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、ＬＥＤ（Light-Emitting Diode）ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器１０５は、プロジェクタでもよい。

以下、学習装置１によるドメイン適応学習の詳細について説明する。本実施形態は、既存ドメインに対して教示済みのデータが存在し、新規ドメインのデータに対して物体検出の性能を向上することが目的である。しかし、新規ドメインのデータに対するアノテーションコストを低減する必要がある。そこで、クロスドメインの物体検出のための教師無しドメイン適応（ＵＤＡ：Unsupervised Domain Adaptation）の問題を扱う。教師無しドメイン適応のシナリオでは、ソースドメインデータセットの完全なアノテーションが利用可能である。教師無しドメイン適応のシナリオにおいて、ソースドメインのデータセットには完全なアノテーションがあり、ターゲットドメインのデータセットにはアノテーションがない状態で、検出ネットワークが訓練される。また、ターゲットデータに対して信頼性の高い疑似ラベルを付与する手法を導入し、自己学習に役立てる。従来のＵＤＡ法がターゲットデータセットにおいて大幅な性能向上を達成したのに対し、自己学習を伴うＵＤＡ法は、ドメインギャップを更に減らすことにより、検出ネットワークの精度を向上させることを目的とする。

図４は、学習装置１によるドメイン適応学習のフローチャートを示す図である。処理回路１０１は、記憶装置１０２から学習プログラムを読み出して実行することにより、図４に示すドメイン適応学習を開始する。なお、ステップＳ２０１の開始前において、学習データであるターゲットドメイン画像のデータセットとソースドメイン画像のデータセットとが記憶装置１０２又は外部のデータベース等に用意されているものとする。

図４に示すように、学習制御部１１７は、１個のミニバッチに対応するデータ数分の学習データを検出ネットワークに入力する（Ｓ２０１）。１個のミニバッチは、学習データとして用意されたターゲットドメイン画像のデータセットの中から任意に選択された所定個数のターゲットドメイン画像により構成される。なお、学習データとして用意されたターゲットドメイン画像の一部には教示ラベルが付与されている場合もあるが、本実施例においてはターゲットドメイン画像には教示ラベルが付与されていないものとする。

第１実施形態に係る検出ネットワーク１０には、ベースネットワーク層（バックボーン）として、VGG（参考文献１＜Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014)＞）やResNet（参考文献２＜He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.＞）などのＣＮＮを用い、物体の検出位置およびクラス名の推定には、１ステージ型の物体検出器であるＳＳＤ（Single Shot Multibox Detector）（参考文献３＜Liu Wei, et al. "SSD: Single shot multibox detector." European conference on computer vision. Springer, Cham, 2016.＞）やCenterNet（参考文献４＜Xingyi Zhou, Dequan Wang, Philipp Krahenbuhl. “Objects as Points.”, arXiv 1904.07850 (2019)＞）のように特徴マップの画素毎に対象物体のクラス分類と検出位置の回帰とを直接的に行う。また、Faster R-CNN（参考文献５＜Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.＞）のように物体候補領域を抽出した後に対象物体のクラス分類と検出位置の回帰とを行う２ステージ型の物体検出器が用いられてもよい。

以下では、一例として、第１実施形態に係る検出ネットワークはＳＳＤがベースであるとする。ＳＳＤは、リアルタイムに特定物体を検出するために設計された１ステージ型の物体検出器である。

図５は、図４に示すドメイン適応学習において使用する、ＳＳＤ型の検出ネットワークＮ５０のネットワーク構成例を示す図である。検出ネットワークＮ５０は、ターゲットドメイン画像を入力して当該ターゲットドメイン画像から特定物体のクラス名及び検出位置を出力するためのネットワーク構成を有する。

図５に示すように、検出ネットワークＮ５０は、ベースネットワーク層Ｎ５１、補助ネットワーク層Ｎ５２、ＮＭＳモジュールＮ５３、クラス特定モジュールＮ５４及び検出位置回帰モジュールＮ５５を有する。ベースネットワーク層Ｎ５１は、入力画像の画像特徴を表す特徴マップを生成する特徴抽出層（畳み込み層）を有する。ベースネットワーク層Ｎ５１としては、一例として、ＶＧＧ１６等をベースとしてネットワーク層が用いられる。ベースネットワーク層Ｎ５１は、ＶＧＧ１６の全結合層が複数の畳み込み層に置き換えられている。補助ネットワーク層のＮ５２は、複数のスケールの特徴マップを抽出する多重の特徴抽出層（畳み込み層）の連鎖構造を有する。補助ネットワーク層Ｎ５２により様々なサイズの物体を検出することが可能である。

各特徴マップには、アンカーと呼ばれる複数スケールで等間隔に目標点が設定される。アンカー毎にサイズ及びアスペクト比の異なる複数の基準矩形（デフォルトボックス）がクラス毎に設定される。ＳＳＤにおいては、クラス毎に８７３２個の基準矩形が設定される。各特徴マップについて基準矩形毎にクラス特徴量と位置特徴量とが抽出される。

ＮＭＳモジュールＮ５３は、ベースネットワーク層Ｎ５１から出力された特徴マップと補助ネットワーク層Ｎ５２から出力された特徴マップとに非最大値抑制（ＮＭＳ：non-maximum suppression）を実行し、１アンカーについて複数の矩形が検出されることを排除するため、信頼度の低い矩形を抑制する。ＮＭＳモジュールＮ５３からは矩形毎にクラス特徴量と位置特徴量とが出力される。本実施形態においてＮＭＳモジュールＮ５３は、図５に示すように、検出ネットワークＮ５０に含まれるネットワークモジュールであるとする。

クラス特定モジュールＮ５４は、ＮＭＳモジュールＮ５３からの出力に基づいてクラス毎の分類確率値を出力し、閾値に比して高い分類確率値に対応するクラス名を出力する。本実施形態においてクラス特定モジュールＮ５４は、図５に示すように、検出ネットワークＮ５０に含まれるネットワークモジュールであるとする。

検出位置回帰モジュールＮ５５はからの出力に基づいてクラス毎の検出位置を出力する。検出位置は、矩形の基準点の座標、縦幅及び横幅等のパラメータにより規定される。本実施形態において検出位置回帰モジュールＮ５５は、図５に示すように、検出ネットワークＮ５０に含まれるネットワークモジュールであるとする。

上述の通り、検出ネットワークＮ５０は、ベースネットワーク層Ｎ５１、補助ネットワーク層Ｎ５２、ＮＭＳモジュールＮ５３、クラス特定モジュールＮ５４及び検出位置回帰モジュールＮ５５を有するものとした。しかしながら、本実施形態はこれに限定されず、
しかしながら、ＮＭＳモジュールＮ５３、クラス特定モジュールＮ５４及び検出位置回帰モジュールＮ５５は、検出ネットワークＮ５０とは独立のプログラムモジュールでもよい。すなわち、検出ネットワークＮ５０の最小構成は、ベースネットワーク層Ｎ５１及び補助ネットワーク層Ｎ５２であるとする。

ステップＳ２０１が行われると検出タスク損失計算部１１１は検出タスク損失を計算し、ドメイン識別損失計算部１１２はドメイン識別損失を計算する（Ｓ２０２）。

まず、検出タスク損失計算部１１１による検出タスク損失の計算について説明する。検出タスク損失計算部１１１は、疑似ラベル付きのターゲットドメイン画像に基づいて、検出位置及びクラス識別に関する検出タスク損失を計算する。検出タスク損失Ｌ_ＳＳＤは、下記（１）式で表される。正例は検出対象の物体が描画された画像領域を意味し、負例は検出対象の物体が描画されていない画像領域を意味する。

上記（１）は、正例の集合Ｐｏｓ及び負例の集合Ｎｅｇに対して、それぞれのクラスや背景に対する確率値Ｐ（・）を用いて定義する。Ｌ_ｌｏｓｓは位置の特定誤差に対する損失を表す。

次に、ドメイン識別損失計算部１１２によるドメイン識別損失の計算について説明する。ドメイン識別損失計算部１１２は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習により、ターゲットドメインとソースドメインとの識別に関するドメイン識別損失を計算する。

図６は、ドメイン識別損失のための検出ネットワークのネットワーク構成例を示す図である。図６に示すように、敵対的学習のために検出ネットワークのベースネットワーク層Ｎ５１には、勾配反転層（ＧＲＬ：Gradient Reversal Layer）を介して識別ネットワークＮ６１が接続される。

上記の通り、ベースネットワーク層Ｎ５１は、入力画像に含まれる画像特徴を抽出するネットワーク層である。ベースネットワーク層Ｎ５１は、概略的に、第１局所特徴抽出層Ｎ５１１、第２局所特徴抽出層Ｎ５１２及び大域特徴抽出層Ｎ５１３を有している。第１局所特徴抽出層Ｎ５１１は、一例として、ベースネットワーク層Ｎ５１のｃｏｎｖ３＿２に対応する。第１局所特徴抽出層Ｎ５１１は、入力画像の局所的な特徴量である局所特徴量Ｆ１を抽出する。第２局所特徴抽出層Ｎ５１２は、一例として、ベースネットワーク層Ｎ５１のｃｏｎｖ３＿３に対応する。第２局所特徴抽出層Ｎ５１２は、入力画像の局所的な特徴量である局所特徴量Ｆ２を抽出する。局所特徴量Ｆ２は、局所的ではあるが、局所特徴量Ｆ１に比して大域的な特徴量を表している。大域特徴抽出層Ｎ５１３は、ベースネットワーク層Ｎ５１のｃｏｎｖ４＿３、すなわち、最初の検出ヘッドに対応する。大域特徴抽出層Ｎ５１３は、入力画像の大域的な特徴量である大域特徴量Ｆ３を抽出する。

図６に示すように、識別ネットワークＮ６１は、畳み込み層Ｎ６１１、畳み込み層Ｎ６１２及びドメイン識別層Ｎ６１３を有する。第１局所特徴抽出層Ｎ５１１には勾配反転層Ｎ６２１を介して畳み込み層Ｎ６１１が接続されている。局所特徴量Ｆ１は、勾配反転層Ｎ６２１を介して畳み込み層Ｎ６１１に供給される。畳み込み層Ｎ６１１は局所特徴量Ｆ１に畳み込み演算を施してドメイン予測マップを生成する。第２局所特徴抽出層Ｎ５１２には勾配反転層Ｎ６２２を介して畳み込み層Ｎ６１２が接続されている。局所特徴量Ｆ２は、勾配反転層Ｎ６２２を介して畳み込み層Ｎ６１２に供給される。畳み込み層Ｎ６１２は局所特徴量Ｆ２に畳み込み演算を施してドメイン予測マップを生成する。大域特徴抽出層Ｎ５１３には勾配反転層Ｎ６２３を介してドメイン識別層Ｎ６１３が接続されている。大域特徴量Ｆ３は勾配反転層Ｎ６２３を介してドメイン識別層Ｎ６１３に供給される。ドメイン識別層Ｎ６１３は大域特徴量Ｆ３に基づいてドメイン識別値を算出する。

ドメイン識別損失計算部１１２は、ターゲットドメイン画像又はソースドメイン画像を検出ネットワークＮ５１に入力して畳み込み層Ｎ６１１，Ｎ６１２各々からドメイン予測マップを出力し、ドメイン識別層Ｎ６１３からドメイン識別値を出力し、畳み込み層Ｎ６１１，Ｎ６１２から出力されたドメイン予測マップに関する第１のドメイン識別損失と、ドメイン識別層Ｎ６１３から出力されたドメイン識別値に関する第２のドメイン識別損失とに基づいてドメイン識別損失を計算する。

以下、より詳細にドメイン識別損失について説明する。このモデルでは、大域レベルの特徴合わせのために、識別ネットワークＮ６１を用いてターゲット画像の画像特徴をソースドメイン画像に合わせる。識別しやすいターゲット画像は、特徴空間においてソースドメイン画像から遠くにあり、識別しにくいターゲット画像はソースドメイン画像の近くにある。大域的な画像特徴にハード・アライメントを強制的に適用すると、シーンのレイアウト（例えば、オブジェクトの数とその共起）に影響する、より大きなシフトがあるかもしれないので、モデルの性能が低下する可能性がある。したがって、大域特徴に対して弱いアライメントを適用する。そのためには、識別ネットワークＮ６１は識別しやすい画像にはあまり集中せず、識別しにくい画像に集中する必要がある。これは、参考文献６＜T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Doll´ar. Focal loss for dense object detection. In ICCV, 2017.＞に示される、下記の（２）式に示す、ＦＬ（Focal Loss）関数を使用することで実現する。ここで、γは識別しにくい画像に対する重みを制御し、ｆ（ｐ_ｔ）はクロスエントロピー損失の変調係数である。

ドメイン分布を揃えるためには、モデルはドメイン識別損失を最小化すると同時に、この損失を最大化するようにベースネットワーク層Ｎ５１のパラメータを最適化する必要がある。これは，通常の勾配降下法が識別ネットワークＮ６１の学習に適用されるのに対し、勾配反転層Ｎ６２１，Ｎ６２２，Ｎ６２３を用いることで達成できる。勾配反転層Ｎ６２１，Ｎ６２２，Ｎ６２３を通過する際には、勾配の符号を逆にして、ベースネットワーク層Ｎ５１を最適化する。

大域的な特徴への弱いアライメントは、ドメインシフトが大きい場合に適しているが、局所的な特徴への強いアライメントは、ドメインの質感や色にマッチし、性能が向上するはずである。大域的なドメイン識別に関する損失Ｌ_Ｄｇは、下記（３）式に示す損失関数により計算される。損失Ｌ_Ｄｇは、ドメイン識別層Ｎ６１３の出力Ｄ_ｇに対して、ソースドメイン画像の集合Ｓとターゲットドメイン画像の集合Ｔのそれぞれに対して計算する。

図６に示すように、畳み込み層Ｎ６１１，Ｎ６１２のネットワーク構成は、局所的な画像特徴に着目して設計する。畳み込み層Ｎ６１１，Ｎ６１２は、カーネルサイズが１の完全畳み込み型ネットワークである。畳み込み層Ｎ６１１，Ｎ６１２は、入力された特徴量と同じ幅と高さを持つドメイン予測マップを出力する。局所ドメイン識別に関する損失Ｌ_Ｄｌの損失関数は、下記（４）式のように定義される。（４）式では、損失Ｌ_Ｄｌは、幅Ｗ及び高さＨを有する特徴量を出力する。畳み込み層Ｎ６１１，Ｎ６１２は、最小二乗誤差による損失に基づき訓練される。

ドメイン適応損失のための損失Ｌ_ａｄｖ（Ｆ，Ｄ）の損失関数は、（４）式に示す、特徴量Ｆ１とそれに基づくドメイン予測マップＤ_ｌとに基づく損失Ｌ_Ｄｌ（Ｆ１，Ｄ_ｌ）と、特徴量Ｆ２とそれに基づくドメイン予測マップＤ_ｌとに基づく損失Ｌ_Ｄｌ（Ｆ２，Ｄ_ｌ）と、（３）式に示す、特徴量Ｆ３とそれに基づくドメイン識別値Ｄ_ｇとに基づく損失Ｌ_Ｄｇ（Ｆ３，Ｄ_ｇ）とを用いて、下記（５）式のように定義される。損失Ｌ_ａｄｖ（Ｆ，Ｄ）は、損失Ｌ_Ｄｌ（Ｆ１，Ｄ_ｌ），損失Ｌ_Ｄｌ（Ｆ２，Ｄ_ｌ）及び損失Ｌ_Ｄｇ（Ｆ３，Ｄ_ｇ）の重み付け加算により定義されてもよい。

ドメインギャップを減らすためには、画像レベル（画像のスケール、画像のスタイル、照明など）だけでなく、ローカルスケール（オブジェクトのテクスチャ、形状、色の特徴など）でも画像特徴のアライメントを行う必要がある。しかし、非特許文献１で述べられているように、大域的な画像特徴に強制的に不変であることは、性能を低下させる。上記の通り、本実施形態では，画像レベルのドメインシフトに対応するために、弱い大域特徴のアライメントを適用している。逆に、局所的な特徴の強いアライメントは、そのような特徴に対してモデルがより良い不変性を達成するのに役立ち、ドメインギャップを減少させる可能性がある。このような強い特徴と弱い特徴の調整は、検出ネットワークの様々な段階で識別ネットワークを採用し、それらを敵対的に学習させることで実現している。

ステップＳ２０２が行われると学習制御部１１７は、現在ステージが自己学習を行うステージであるか否かを判定する（Ｓ２０３）。一例として、ステージ毎に自己学習を行うか否かがＬＵＴ（Look Up Table）等で対応付けられているものとする。自己学習を行うステージと自己学習を行わないステージとは予め実験的又は経験的に決定されればよい。この場合、学習制御部１１７は、現在ステージをＬＵＴに照合して現在ステージが自己学習を行うステージであるか否かを判定すればよい。

現在ステージが自己学習を行うステージであると判定された場合（Ｓ２０３：ＹＥＳ）、自己学習損失計算部１１３は、自己学習損失を計算する（Ｓ２０４）。前述の通り、自己学習損失は、第１の自己学習損失計算部１１８により計算される統合疑似ラベル自己学習損失と第２の自己学習損失計算部１１９により計算される多様体合成自己学習損失とがある。本実施例では、統合疑似ラベル自己学習損失と多様体合成自己学習損失との双方が計算されるものとする。自己学習においては疑似ラベルが使用される。疑似ラベルの品質が良ければ、より良い検出ネットワークを生成することができる。そのため、疑似ラベル生成部１１６は、統合疑似ラベル自己学習損失の計算のため、統合疑似ラベルを生成し、多様体合成自己学習損失の計算のため、多様体合成疑似ラベルを生成する。

第１の自己学習損失計算部１１８による統合疑似ラベル自己学習損失の計算について説明する。統合疑似ラベル自己学習損失の計算にあたり、まず、疑似ラベル生成部１１６により統合疑似ラベルが生成される。疑似ラベル生成部１１６は、ターゲットドメイン画像に複数種類の画像変換を施して複数の変換後画像を生成し、複数の変換後画像を検出ネットワークに適用して複数の予測ラベルを算出し、複数の予測ラベルのアンサンブルに基づいて統合疑似ラベルを生成する。

図７は、統合疑似ラベルの生成過程を示す図である。図７に示すように、疑似ラベル生成部１１６は、まず、ターゲットドメイン画像に複数種類の画像変換を施して複数の変換後画像を生成する（Ｓ３０１）。画像変換は、データオーギュメンテーション（data augmentation）に利用するものと同様である。すなわち、画像変換としては、画像のスライドや色値反転、拡大、縮小等の簡易な変換が行われればよい。図７においてはＮ種類の画像変換が行われるものとする。これによりＮ個の変換後画像ＴＩｎ（ｎは変換後画像の添字、２≦ｎ≦Ｎ）が生成される。

ステップＳ３０１が行われると疑似ラベル生成部１１６は、Ｎ個の変換後画像ＴＩｎ各々に同一の位置検出器Ｎ７０を適用して予測ラベルＢｏｘｎ（２≦ｎ≦Ｎ）を生成する（Ｓ３０２）。予測ラベルＢｏｘｎは、検出ネットワークにより出力される検出位置、換言すれば、バウンディングボックスに対応する。位置検出器Ｎ７０は、現在ステージにおける検出ネットワークが用いられればよい。

ステップＳ３０２が行われると疑似ラベル生成部１１６は、Ｎ個の予測ラベルＢｏｘｎをアンサンブルして単一の検出ラベル（以下、統合検出ラベルと呼ぶ）を生成する（Ｓ３０３）。アンサンブルとしては、同一位置で得られた複数の検出ラベルの平均値を求めることに対応する。

ステップＳ３０３が行われると疑似ラベル生成部１１６は、統合検出ラベルをフィルタリングする（Ｓ３０４）。フィルタリングにより信頼性の低い統合検出ラベルが除去され、信頼性の高い統合検出ラベルが抽出される。抽出された統合検出ラベルが統合疑似ラベルとして使用される。

図８は、ステップＳ３０４におけるフィルタリングのアルゴリズムの疑似コードを示す図である。図８に示すように、Ｏ、Ｏ^＊、ε及びδが入力される。行１に示すように、各ＢｏｘｎのＮＭＳを行った後の矩形の集合Ｏ^＊から任意の領域（矩形）ｒ_ｌ ^＊が読み出され、行２に示すように、Ｂｏｘｎから出力された全ての予測結果の集合Ｏから任意の領域（矩形）ｒ_ｉが読み出される。行３に示すように、領域ｒ_ｌ ^＊と領域ｒ_ｉとのＩｏＵ値であるＩｏＵ（ｒ_ｌ ^＊，ｒ_ｉ）が算出され、ＩｏＵ（ｒ_ｌ ^＊，ｒ_ｉ）が閾値δに対して比較される。行４に示すように、ＩｏＵ（ｒ_ｌ ^＊，ｒ_ｉ）が閾値δ以上である場合、Ｏからｒ_ｉが収集される。領域ｒ_ｉを変更しながら行２～行６の処理が繰り返される。Ｏに属する全ての領域ｒ_ｉについて行２～行６の処理が繰り返されると、行７に示すように、下記（６）式に従いＳＲＲＳが計算される。行８に示すように、ＳＲＲＳが閾値εに対して比較され、ＳＲＲＳが閾値ε以上である場合、疑似ラベルの集合Ｙに領域ｒ_ｌ ^＊が追加される。ＳＲＲＳが閾値ε未満である場合、領域ｒ_ｌ ^＊が棄却される。行１１に示すように、行１～行１１の処理が集合Ｏ^＊に属する全ての領域ｒ_ｌ ^＊について実行される。全ての領域ｒ_ｌ ^＊について実行されると集合Ｙが出力される。集合Ｙに属する領域ｒ_ｌ ^＊が統合疑似ラベルを意味する。

図９は、１画像に対する検出位置の予測結果を示す図であり、図１０は複数画像に対する複数検出位置の予測結果の重ね合わせを示す図であり、図１１は統合疑似ラベルを示す図である。図９に示すように、全ての予測ラベルは元の画像のスケールで累積される。図１０に示すように、もしある物体が多くの変換後画像で検出されたならば、その物体の周りには複数のバウンディングボックスが存在するはずである。これにより、検出の信頼性が高まる。そこで、物体の周りのバウンディングボックスを平均化して、バウンディングボックス（統合検出ラベル）を求める。この処理がアンサンブルに対応する。全てのバウンディングボックスが検出されると、図８に示すアルゴリズムが適用され、信頼性の低いバウンディングボックスが棄却され、最終的なバウンディングボックス（統合疑似ラベル）が得られる。図１１は最終的なバウンディングボックス（統合疑似ラベル）を示す。図８に示すアルゴリズムの適用により、統合疑似ラベルが信頼性の高いものであることが保証される。統合疑似ラベルは、弱自己学習において信頼性の高い擬似ラベルとして有用である。弱自己学習は、半教師付きの学習環境において、より優れたドメイン不変モデルを学習するために、検出物のカテゴリ情報を学習するのに役立つ。

統合疑似ラベルが生成されると第１の自己学習損失計算部１１８は、統合疑似ラベル付きのターゲットドメイン画像に基づいて統合疑似ラベル自己学習損失を計算する。

大規模なアノテーション付きデータセットで学習されたモデルは、最良の結果が得られる。一方、ドメイン適応のシナリオでは、ターゲットデータセットはアノテーションされていない。もし対象データセットのアノテーションがあれば、モデルが基礎的なデータ分布を学習するのに役立ったはずである。そのため、正しいラベルを生成することは、モデルの性能を向上させるために不可欠である。ソースデータのみで学習したモデルからターゲットデータ用に生成したラベルは、ドメインシフトが大きいため、信頼度スコアが高くても誤った出力になることが多い。疑似ラベルが生成されると、それらは学習時に正例として扱われる。学習用の負例（Ｎｅｇ）は、一般的にハードネガティブマイニングによって得られる。しかし、ハードネガティブマイニングによって偽のネガティブが選択されてしまうと、学習に支障をきたす。本実施形態では、前景となる可能性のある負例を無視するために、負例の中で信頼性損失が最も小さい｜｜Ｎｅｇ^～｜｜／３個のサンプルを選択する。このプロセスは弱ネガティブマイニングと呼ばれ、Ｎｅｇ^～を得ることができる。（７）式に、統合疑似ラベル自己学習損失Ｌ_ｗｓｔの損失関数を示す。損失関数Ｌ_ｗｓｔでは，検出タスク損失の損失関数（式１）と比較すると位置特定損失が無視されている。

教師無しドメイン適応学習が安定した後、弱自己学習を適用して擬似ラベルを生成する。疑似ラベルが正しくない場合、自己学習がモデルのパラメータに悪影響を及ぼす可能性があるため、弱自己学習は数ステージのみに適用する。

次に、第２の自己学習損失計算部１１９による多様体合成自己学習損失の計算について説明する。多様体合成自己学習損失は、疑似ラベルを用いた自己学習の精度を向上するために使用される。

参考文献７＜H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz, "mixup: Beyond Empirical Risk Minimization," in arXiv:1710.09412, 2017＞には、ミックスアップ（Mixup）と呼ばれる２つの学習サンプルのペアを混合して新たな学習サンプルを作成するデータオーギュメンテーション手法が開示されている。これに対して、非特許文献３では、隠れ層における特徴量に対しての線形補間、および対応するラベルに対しても線形結合を行い、学習に用いる多様体ミックスアップ法が提案されている。この方法は、正則化法として機能し、敵対的なサンプルや破損したラベルに対するロバスト性を提供し、ディープニューラルネットワークの汎化能力を向上させる。隠れ層の線形補間によって追加の入力信号を提供し、クラス表現をフラットにすることで、より滑らかな決定境界の生成につながる。

図１２は、多様体合成自己学習損失Ｌ_{ｍｉｘｕｐ}の計算過程を示す図である。図１２に示すように、疑似ラベル生成部１１６は、ｊ番目のターゲットドメイン画像Ｉ^ｊとｋ番目のターゲットドメイン画像Ｉ^ｋとを取得する。ターゲットドメイン画像Ｉ^ｊ及びターゲットドメイン画像Ｉ^ｋは、同一ミニバッチに含まれているものとする。疑似ラベル生成部１１６は、ターゲットドメイン画像Ｉ^ｊに特徴抽出処理Ｆ_θを施して特徴量Ｆ_θ（Ｉ^ｊ）を抽出し、ターゲットドメイン画像Ｉ^ｋに特徴抽出処理Ｆ_θを施して特徴量Ｆ_θ（Ｉ^ｋ）を抽出する（Ｓ４０１）。特徴抽出処理Ｆ_θは、現在ステージにおける検出ネットワークに含まれるベースネットワーク層Ｎ５１あるいは補助ネットワーク層Ｎ５２に含まれる特徴抽出層にターゲットドメイン画像Ｉ^ｊ及びターゲットドメイン画像Ｉ^ｋを適用することにより実行さればよい。

ステップＳ４０１が行われると疑似ラベル生成部１１６は、特徴量Ｆ_θ（Ｉ^ｊ）と特徴量Ｆ_θ（Ｉ^ｋ）とを合成して合成特徴量を算出する（Ｓ４０２）。合成特徴量は、下記（８）式に従い算出される。（８）式は、ａ及びｂの２つのベクトルに対して、ベータ分布からサンプリングしたλによって線形結合を行うことを表している。ステップＳ４０２においては、例えば、ベクトルａにＦ_θ（Ｉ^ｊ）を代入し、ベクトルｂにＦ_θ（Ｉ^ｋ）を代入することにより、合成特徴量ＭＩＸ（Ｆ_θ（Ｉ^ｊ），Ｆ_θ（Ｉ^ｋ））が得られる。

ステップＳ４０２が行われると疑似ラベル生成部１１６は、合成特徴量ＭＩＸ（Ｆ_θ（Ｉ^ｊ），Ｆ_θ（Ｉ^ｋ））に位置検出処理を施して多様体合成疑似ラベルｙ^ｍ _ｔを生成する（Ｓ４０３）。位置検出処理は、現在ステージにおける検出ネットワークに合成特徴量ＭＩＸ（Ｆ_θ（Ｉ^ｊ），Ｆ_θ（Ｉ^ｋ））を順伝播することにより実行されればよい。

一方、疑似ラベル生成部１１６は、１回前のステージにおける検出ネットワークから生成されたｊ番目の画像に対する疑似ラベルｙ_θ ^ｊとｋ番目の画像に対する疑似ラベルｙ_θ ^ｋとを合成して多様体合成疑似ラベルｙ^ｍ _ｔ－１を生成する（Ｓ４０４）。多様体合成疑似ラベルｙ^ｍ _ｔ－１は、上記（８）式に従い算出することが可能である。例えば、ベクトルａにｙ_θ ^ｊを代入し、ベクトルｂにｙ_θ ^ｋを代入してＭＩＸ（ｙ_θ ^ｊ，ｙ_θ ^ｋ）を演算することにより、多様体合成疑似ラベルｙ^ｍ _ｔ－１が得られる。

ステップＳ４０３及びＳ４０４が行われると第２の自己学習損失計算部１１９は、多様体合成疑似ラベルｙ^ｍ _ｔと多様体合成疑似ラベルｙ^ｍ _ｔ－１とに基づいて多様体合成自己学習損失Ｌ_{ｍｉｘｕｐ}を計算する（Ｓ４０５）。多様体合成自己学習損失Ｌ_{ｍｉｘｕｐ}は、下記（９）式に従い計算される。ｘ^ｍは混合された特徴量、ｙ^ｍは、対応する混合されたクラスラベルを表す。モデルパラメータについては、中間特徴量Ｆ１、Ｆ２、Ｆ３を用いる。Ｌ_{ｍｉｘｕｐ}は、バイナリクロスエントロピーロスをそれぞれの正例と負例の集合に対して求めてそれぞれの総和されたものを用いている。

ステップＳ２０４が行われた場合又はステップＳ２０３において現在ステージが自己学習を行うステージでないと判定された場合（Ｓ２０３：ＮＯ）、全体損失計算部１１４は、検出タスク損失Ｌ_ＳＳＤとドメイン識別損失Ｌ_ａｄｖと自己学習損失とを重み付け加算した全体損失を計算する（Ｓ２０５）。具体的には、全体損失計算部１１４は、まず、下記（１０）式に従い損失Ｌ_ｄｅｔを計算する。損失Ｌ_ｄｅｔは、現在ステージが自己学習ステージの場合、検出タスク損失Ｌ_ＳＳＤと統合疑似ラベル自己学習損失Ｌ_ｗｓｔと多様体合成自己学習損失Ｌ_{ｍｉｘｕｐ}との加算により計算される。現在ステージが自己学習ステージ以外のステージの場合、損失Ｌ_ｄｅｔは、検出タスク損失Ｌ_ＳＳＤに一致する。

損失Ｌ_ｄｅｔを計算すると全体損失計算部１１４は、下記（１１）式に従い、損失Ｌ_ｄｅｔとドメイン識別損失Ｌ_ａｄｖとの重み付け加算に基づいて全体損失Ｌ_{ＴＯＴＡＬ}を計算する。重み付け係数λは任意の値に設定可能である。

ステップＳ２０５が行われると更新部１１５は、全体損失Ｌ_{ＴＯＴＡＬ}に基づいて検出ネットワークの学習パラメータを更新する（Ｓ２０６）。具体的には、更新部１１５は、下記（１２）式に規定されるような、全体損失に基づく目的関数を最適化するように学習パラメータを更新する。より詳細には、損失Ｌ_ｄｅｔを最小化しつつドメイン識別損失Ｌ_ａｄｖを最大化するように学習パラメータが更新される。これにより全体損失が最小化される。最適化手法としては、確率的勾配降下法（ＳＧＤ）やＡＤＡＭ等の任意の方法が用いられればよい。

ステップＳ２０６が行われると学習制御部１１７は、学習終了条件を満たすか否かを判定する（Ｓ２０７）。学習終了条件は、例えば、所定の総反復回数に到達する事等に設定される。学習終了条件を満たさないと判定された場合（Ｓ２０７：ＮＯ）、学習制御部１１７は、新たなミニバッチ分の学習データを検出ネットワークに入力する。そして新たなミニバッチについてステップＳ２０２～Ｓ２０７が実行される。このようにして学習終了条件を満たすと判定されるまで、ミニバッチを変更しながら、ステップＳ２０１～Ｓ２０７が反復される。

そして学習終了条件を満たすと判定された場合（Ｓ２０７：ＹＥＳ）、学習制御部１１７は、ドメイン適応学習を終了する。

なお、図４に示すドメイン適応学習の流れは一例であり、本実施形態はこれに限定されない。以下、種々の変形例・応用例について説明する。

前述したように、検出タスク損失計算部１１１は、教示ラベル付きのターゲットドメイン画像に基づいて検出タスク損失を計算してもよい。この場合、疑似ラベルの代わりに、ターゲットドメイン画像に付与された教示ラベルを用いることにより、検出タスク損失を計算することが可能である。

上記の実施例に係る自己学習ステージにおける損失Ｌ_ｄｅｔは、検出タスク損失Ｌ_ＳＳＤと統合疑似ラベル自己学習損失Ｌ_ｗｓｔと多様体合成自己学習損失Ｌ_{ｍｉｘｕｐ}との重み付け加算により計算されるものとした。しかしながら、ソースドメイン画像を使用しないドメイン適応においては、下記の（１３）式に示すように、自己学習ステージにおける損失Ｌ_ｄｅｔは、統合疑似ラベル自己学習損失Ｌ_ｗｓｔを使用せず、検出タスク損失Ｌ_ＳＳＤと多様体合成自己学習損失Ｌ_{ｍｉｘｕｐ}との重み付け加算により計算されるとよい。

また、ソースドメイン画像を利用するか否かや検出ネットワークのネットワーク構成等に応じて、自己学習ステージにおける損失Ｌ_ｄｅｔは、種々の変更が可能である。例えば、損失Ｌ_ｄｅｔは、統合疑似ラベル自己学習損失Ｌ_ｗｓｔのみに基づいて計算されてもよいし、検出タスク損失Ｌ_ＳＳＤと統合疑似ラベル自己学習損失Ｌ_ｗｓｔとの重み付け加算でもよい。

上記の実施例において検出タスク損失計算部１１１は、ターゲットドメイン画像のみに基づいて検出タスク損失を計算するとしたが、ターゲットドメイン画像だけでなく教示ラベル付きのソースドメイン画像を利用して検出タスク損失を計算してもよい。これにより、ソースドメイン画像を有効活用したり、検出ネットワークの性能の向上を図ることが可能になる。

上記の説明の通り、第１実施形に係る学習装置１は、ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部１１０を有する。学習部１１０は、検出タスク損失計算部１１１、ドメイン識別損失計算部１１２、自己学習損失計算部１１３、全体損失計算部１１４及び更新部１１５を有する。検出タスク損失計算部１１１は、ターゲットドメイン画像に基づく検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する。ドメイン識別損失計算部１１２は、ターゲットドメイン画像及びソースドメイン画像に基づく検出ネットワークの敵対的学習により、ターゲットドメインとソースドメインとの識別に関する損失であるドメイン識別損失を計算する。自己学習損失計算部１１３は、ターゲットドメイン画像に基づく検出ネットワークの自己学習により、自己学習によるクラス識別に関する損失である自己学習損失を計算する。全体損失計算部１１４は、ドメイン識別損失と、検出タスク損失及び／又は自己学習損失との重み付け加算に基づいて全体損失を計算する。更新部１１５は、全体損失を最小化するように検出ネットワークの学習パラメータを更新する。

上記第１実施形態に係る構成によれば、ドメイン適応学習にあたり、ドメイン識別損失と、検出タスク損失及び／又は自己学習損失との重み付け加算に基づく全体損失を最小化するように検出ネットワークの学習パラメータが更新される。ドメイン識別損失を考慮することにより、敵対的学習によるソースドメインとターゲットドメインの特徴表現を近づけることが可能になる。また、自己学習を行うステージにおいては自己学習損失を考慮し、自己学習を行わないステージにおいては自己学習損失を考慮せず検出タスク損失を考慮することが可能になる。これにより、教示ラベルの無い又は少ないターゲットドメインへのドメイン適応学習の学習性能を向上させることが可能になり、また、当該ドメイン適応学習により生成された学習済み検出ネットワークを利用することにより、物体検出の性能を向上させることが可能になる。自己学習損失として統合疑似ラベル自己学習損失を考慮することにより、アンサンブル法により生成された信頼性の高い疑似ラベル（統合疑似ラベル）を使用して自己学習が行われるので、自己学習の精度を向上させることが可能になる。自己学習損失として多様体合成自己学習損失を考慮することにより、多様体ミックスアップ法により生成された信頼性の高い疑似ラベル（多様体合成疑似ラベル）を使用して自己学習が行われるので、自己学習の精度を向上させることが可能になる。

（第２実施形態）
第２実施形態は、物体検出装置、物体検出方法及び物体検出プログラムに関する。

図１３は、第２実施形態に係る物体検出装置２の構成例を示す図である。物体検出装置２は、第１実施形態に係る学習装置１により生成された学習済みの検出ネットワークを利用して特定物体を検出するコンピュータである。物体検出装置２は、例えば、防犯カメラで撮影された画像に対する人物検出や車載カメラで撮影された画像に対する車両検出等で用いられる。

図１３に示すように、物体検出装置２は、処理回路２０１、記憶装置２０２、入力機器２０３、通信機器２０４及び表示機器２０５を有するコンピュータである。処理回路２０１、記憶装置２０２、入力機器２０３、通信機器２０４及び表示機器２０５間のデータ通信はバスを介して行われる。

処理回路２０１は、ＣＰＵ等のプロセッサとＲＡＭ等のメモリとを有する。処理回路２０１は、取得部２１０、処理部２２０及び出力部２３０を有する。処理回路２０１は、本実施形態に係る物体検出に関する物体検出プログラムを実行することにより、上記各部２１０～２３０の各機能を実現する。物体検出プログラムは、記憶装置２０２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。物体検出プログラムは、上記各部２１０～２３０の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部２１０～２３０はＡＳＩＣ等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。

取得部２１０は、種々のデータを取得する。例えば、取得部２１０は、物体検出の処理対象画像を取得する。取得部２１０は、各種データを、通信機器２０４を介して外部装置から取得してもよいし、記憶装置２０２から取得してもよい。

処理部２２０は、処理対象画像と、第１実施形態に係る学習装置１により生成された学習済みの検出ネットワークとに基づいて、処理対象画像に含まれる物体の検出位置及びクラス名を出力する。

出力部２３０は、種々のデータを出力する。例えば、出力部２３０は、処理部２２０により出力された、処理対象画像に含まれる物体の検出位置及びクラス名を表示機器２０５に表示する。

記憶装置２０２は、ＲＯＭやＨＤＤ、ＳＳＤ、集積回路記憶装置等により構成される。記憶装置２０２は、検出ネットワークや処理対象画像、物体検出プログラム等の種々のデータを記憶する。

入力機器２０３は、ユーザからの各種指令を入力する。入力機器２０３としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器２０３からの出力信号は処理回路２０１に供給される。なお、入力機器２０３としては、処理回路２０１に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。

通信機器２０４は、物体検出装置２にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。

表示機器２０５は、種々のデータを表示する。表示機器２０５としては、ＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ、ＬＥＤディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器２０５は、プロジェクタでもよい。

以下、物体検出装置２による物体検出の詳細について説明する。

図１４は、物体検出装置２による物体検出のフローチャートを示す図である。処理回路２０１は、記憶装置２０２から物体検出プログラムを読み出して実行することにより、図１４に示す物体検出を開始する。検出ネットワークは、予め記憶装置２０２等に記憶されているものとする。検出ネットワークは、ターゲットドメインにドメイン適応された如何なる物体検出器でもよいが、第１実施形態と同様、１ステージ型のＳＳＤであるとする。

図１４に示すように、まず、取得部２１０は、処理対象画像を取得する（Ｓ２０１）。処理対象画像は、ドメイン適応により新たに適応先になったドメイン、すなわち、ターゲットドメインに属する画像である。

ステップＳ２０１が行われると処理部２２０は、処理対象画像を検出ネットワークの入力サイズに成形する（Ｓ２０２）。

ステップＳ２０２が行われると処理部２２０は、成形後の処理対象画像を検出ネットワークに適用してクラス名と検出位置とを予測する（Ｓ２０３）。具体的には、まず、処理部２２０は、成形後の処理対象画像を、図５に示すベースネットワーク層Ｎ５１及び補助ネットワーク層Ｎ５２に順伝播してクラス毎に特徴マップを生成する。次に処理部２２０は、ＮＭＳモジュールＮ５３を実行して、各クラスの特徴マップに非最大値抑制を施して、重複する矩形を取り除き、各矩形についてクラス毎にクラス特徴量と位置特徴量とを出力する。そして処理部２２０は、クラス特定モジュールＮ５４を実行して、クラス特徴量からクラス毎の分類確率値を出力し、設定閾値を超える分類確率値を有するクラスのクラス名を出力する。また、処理部２２０は、検出位置回帰モジュールＮ５５を実行して、位置特徴量からクラス毎の検出位置を出力し、設定閾値を超える分類確率値を有するクラスの検出位置を出力する。

ステップＳ２０３が行われると出力部２３０は、クラス名と検出位置とを出力する（Ｓ２０４）。一例として、クラス名を表すテキストと検出位置を表す矩形とが重ね合わされた処理対象画像が表示機器２０５に表示される。

第２実施形態によれば、第１実施形態により生成された学習済みの検出ネットワークを使用して物体検出を行うことが可能である。よって性能の良い物体検出を行うことが可能である。

（第３実施形態）
第３実施形態は、学習支援システム、学習支援方法及び学習支援プログラム
図１５は、第３実施形態に係る学習支援システム３の構成例を示す図である。学習支援システム３は、学習済みの深層学習ネットワークの学習を支援するコンピュータネットワークシステムである。第３実施形態に係る深層学習ネットワークは、第１及び第２実施形態に係る検出ネットワークに限定されず、如何なるタスクを実行するネットワークでもよい。しかしながら、以下の説明を具体的に行うため第３実施形態に係る深層学習ネットワークは、第１及び第２実施形態に係る検出ネットワークであるとする。

学習支援システム３は、例えば、防犯カメラで撮影された画像に対する人物検出や車載カメラで撮影された画像に対する車両検出などでカメラの設置場所でとられたデータを用いで学習データをドメイン適応することや、様々な場所で撮影された学習データを用いて認識性能の向上を目指す際に、学習データと認識性能の対応関係を視認できる情報をユーザに提供する。

図１５に示すように、学習支援システム３は、学習装置１、物体検出装置２、既存ドメインデータ格納装置４、新規ドメインデータ格納装置５、履歴格納装置６及び評価装置７を有する。学習装置１、物体検出装置２、既存ドメインデータ格納装置４、新規ドメインデータ格納装置５、履歴格納装置６及び評価装置７は、互いにＬＡＮ等の通信ネットワークを介して互いにデータ通信可能に接続されている。

既存ドメインデータ格納装置４は、教示ラベル付きの既存ドメインデータのデータセットを格納する記憶装置である。既存ドメインデータは、検出対象になり得る物体の位置及びクラス名等の教示ラベルを有する画像データである。

新規ドメインデータ格納装置５は、教示ラベル無しの新規ドメインデータのデータセットを格納する記憶装置である。新規ドメインデータは、異なる状況や場所等で新たに収集された、物体の位置及びクラス名等の教示ラベルを有さない画像データである。

学習装置１は、第１実施形態に係る学習装置１同様の機能を有する。学習装置１は、様々な学習データ及び学習条件パラメータを有する複数の学習状況に基づいて、複数の検出ネットワークを訓練する。より詳細には、学習装置１は、既存ドメインデータについては、当該既存ドメインデータに基づく教師有り学習により、当該既存ドメインに関する検出ネットワークを訓練する。また、学習装置１は、新規ドメインデータについては、当該新規ドメインデータ及び既存ドメインデータに基づくドメイン適応学習により、当該新規ドメインに関する検出ネットワークを訓練する。

物体検出装置２は、学習装置１により訓練された複数の検出ネットワークを搭載する。物体検出装置２は、評価装置７からの指令により、評価用データを複数の検出ネットワークにそれぞれ適用して複数のクラス名及び検出位置を予測する。評価用データに基づき予測されたクラス名及び検出位置を評価結果と呼ぶ。評価用データは、既存ドメインデータでもよいし新規ドメインデータでもよいし、その他の画像データでもよい。

履歴格納装置６は、履歴情報を格納する記憶装置である。履歴情報として、履歴格納装置６は、学習データ及び／又は学習パラメータが互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを複数の学習状況に関連付けて記憶する。具体的には、履歴格納装置６は、学習装置１により訓練された複数の検出ネットワークと、当該複数の検出ネットワークにそれぞれ対応する複数の学習状況情報とを関連付けて記憶する。また、履歴格納装置６は、履歴情報として、複数の検出ネットワークと当該複数の検出ネットワークにそれぞれ対応する複数の評価結果とを関連付けて格納してもよい。

評価装置７は、物体検出装置２を利用して評価用データを複数の検出ネットワークに適用して複数の評価結果を生成し、複数の評価結果と複数の学習状況とを並べて表示機器に表示するコンピュータである。

図１５に示すように、評価装置７は、処理回路７０１、記憶装置７０２、入力機器７０３、通信機器７０４及び表示機器７０５を有するコンピュータである。処理回路７０１、記憶装置７０２、入力機器７０３、通信機器７０４及び表示機器７０５間のデータ通信はバスを介して行われる。

処理回路７０１は、ＣＰＵ等のプロセッサとＲＡＭ等のメモリとを有する。処理回路７０１は、取得部７１０、評価部７２０、選択部７３０及び出力部７４０を有する。処理回路７０１は、本実施形態に係る学習支援に関する学習支援プログラムを実行することにより、上記各部７１０～７４０の各機能を実現する。学習支援プログラムは、記憶装置７０２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。学習支援プログラムは、上記各部７１０～７４０の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部７１０～７４０はＡＳＩＣ等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。

取得部７１０は、種々のデータを取得する。例えば、取得部７１０は、評価用データや評価結果を物体検出装置２から取得する。

評価部７２０は、物体検出装置２を利用して、評価用データを、複数の検出ネットワークに適用して複数の評価結果を生成する。

選択部７３０は、複数の評価結果に基づいて、検出ネットワークの訓練に有用な学習状況を、複数の学習状況の中から選択する。

出力部７４０は、種々のデータを出力する。例えば、出力部７４０は、評価部７２０により出力された複数の評価結果を表示機器７０５に表示する。また、出力部７４０は、選択部７３０により選択された学習状況を表示機器７０５に表示する。

記憶装置７０２は、ＲＯＭやＨＤＤ、ＳＳＤ、集積回路記憶装置等により構成される。記憶装置７０２は、検出ネットワークや学習支援プログラム等の種々のデータを記憶する。

入力機器７０３は、ユーザからの各種指令を入力する。入力機器７０３としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器７０３からの出力信号は処理回路７０１に供給される。なお、入力機器７０３としては、処理回路７０１に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。

通信機器７０４は、評価装置７にネットワークを介して接続された学習装置１、物体検出装置２、既存ドメインデータ格納装置４、新規ドメインデータ格納装置５及び履歴格納装置６等の外部機器との間でデータ通信を行うためのインタフェースである。

表示機器７０５は、種々のデータを表示する。表示機器７０５としては、ＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ、ＬＥＤディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器７０５は、プロジェクタでもよい。

以下、学習支援システム３による学習支援の詳細について説明する。

図１６は、学習支援システム３による学習支援のフローチャートを示す図である。図１６に示すように、学習装置１は、既存ドメインデータ及び学習条件に基づいて検出ネットワークを訓練する（Ｓ６０１）。

ステップＳ６０１が行われると学習装置１は、新規ドメインデータに基づいて検出ネットワークを訓練する（Ｓ６０２）。Ｓ６０２において学習装置１は、第１実施形態と同様、既存ドメインについて学習済みの検出ネットワークを、ドメイン適応学習により訓練する。

ステップＳ６０２が行われると履歴格納装置６は、ステップＳ６０１において使用した学習状況（既存ドメインデータ及び学習条件）と当該学習状況に従い訓練された検出ネットワークとを格納し、ステップＳ６０２において使用した学習状況と当該学習状況（新規ドメインデータ及び学習条件）に従い訓練された検出ネットワークとを格納する（Ｓ６０３）。

ステップＳ６０３が行われると評価装置７の評価部７２０は、評価用データを検出ネットワークに適用して評価結果を生成する（Ｓ６０４）。評価用データとしては、新規ドメインデータ又は既存ドメインデータの中から任意に選択された画像（以下、テスト画像）が用いられる。ステップＳ６０５について詳細に説明する。まず、評価装置７は、評価結果の生成指令と共にテスト画像を物体検出装置２に送信する。物体検出装置２は、テスト画像を、学習済みの複数の検出ネットワーク各々に適用して当該テスト画像に含まれる特定物体のクラス名及び検出位置を評価結果として出力する。物体検出装置２は、テスト画像を評価装置７と履歴格納装置６とに送信する。履歴格納装置６は、当該評価結果を複数の検出ネットワーク各々に関連付けて記憶する。

ステップＳ６０４が行われると評価装置７の出力部７４０は、評価結果と学習状況とを表示機器７０５に表示する（Ｓ６０５）。

図１７は、評価結果と学習状況との表示画面Ｉ１３の一例を示す図である。図１７に示すように、表示画面Ｉ１３には、３個のテスト画像Ｉ１３１，Ｉ１３２，Ｉ１３３が表示される。各テスト画像Ｉ１３１，Ｉ１３２，Ｉ１３３には、評価結果として「Ａ」「Ｂ」「Ｃ」等のクラス名と検出矩形により表される検出位置とが重ね合わせて表示される。クラス名と検出位置とは評価結果に対応する。各評価結果には「Ｄ１」「Ｄ２」「Ｄ３」等の学習データの識別情報と、「Ｐ１」「Ｐ２」「Ｐ３」等の学習条件パラメータとが並べて表示されている。学習データと学習条件パラメータとは学習条件に対応する。

図１７に示すように、評価結果と学習状況とを視覚的に対応付けて表示することにより、検出ネットワークの性能を評価することが可能になる。例えば、図１７においてクラス「Ｂ」は、実際にテスト画像に存在しない過検出であるとする。この場合、クラス名「Ｂ」の物体を過検出している、テスト画像Ｉ１３１に使用した検出ネットワークの性能が悪く、過検出していないテスト画像Ｉ１３２及びＩ１３３に使用した検出ネットワークの性能が良いことを意味する。したがって、テスト画像Ｉ１３２に適用した検出ネットワークの訓練に使用した学習データＤ２や学習条件パラメータＰ２、あるいはテスト画像Ｉ１３３に適用した検出ネットワークの訓練に使用した学習データＤ３や学習条件パラメータＰ３が、テスト画像が属するドメイン用の検出ネットワークの訓練に有用であることが分かる。

なお、図１７に示す表示例は一例であり、これに限定されない。以下、他の表示例について説明する。一般的に学習条件パラメータは複数種類のパラメータが存在する。そこで、互いに値が異なる学習条件パラメータのみが表示されるとよい。これにより、評価結果の差異に寄与する学習条件パラメータを簡易に知ることが可能になる。

ステップＳ６０４が行われると評価装置７は、別の新規ドメインデータによる学習を行うか否かを判定する（Ｓ６０５）。例えば、ユーザによる入力機器７０３を介した指示に従い更なる学習を行うか否かが判定されてもよい。あるいは、予め設定された全ての学習対象の新規ドメインデータの学習が行われたか否かに応じて更なる学習を行うか否かが判定されてもよい。別の新規ドメインデータによる学習を行うと判定された場合（Ｓ６０５：ＹＥＳ）、ステップＳ６０２～Ｓ６０５が繰り返される。

そして別の新規ドメインデータによる学習を行わないと判定された場合（Ｓ６０５：ＮＯ）、学習支援システム３による学習支援が終了する。

次に、選択部７３０による学習状況の選択処理について説明する。選択部７３０は、複数の評価結果に基づいて、検出ネットワークの訓練に有用な学習状況を、複数の学習状況の中から選択する。以下、具体的に選択部７３０による処理を説明する。

図１８は、９個の評価結果の表示画面Ｉ１８の一例を示す図である。図１９は、図１８に示す９個の評価結果の集約結果１９を示す図である。図２０は、図１９の集約結果を表すベン図２０である。表示画面Ｉ１８は、例えば、図１６のＳ６０５において表示される。各テスト画像には、図１７と同様に、評価結果として、クラス名及び検出位置が重ねて表示されている。９個の評価結果は、同一のテスト画像に対して９個の検出ネットワークを適用することにより得られている。

図１８及び図１９に示すように、クラス「Ａ」については７個の検出ネットワークで検出され、クラス「Ｂ」については２個の検出ネットワークで検出され、クラス「Ｃ」については９個の検出ネットワークで検出されている。クラス「Ａ」及びクラス「Ｃ」の物体はテスト画像に存在しているが、クラス「Ｂ」の物体についてはテスト画像に存在しておらず、過検出であるとする。ベン図２０に含まれる各クラスの楕円は、当該クラスを検出した検出ネットワークの訓練に使用した学習状況の集合を表す。例えば、クラス「Ａ」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合がクラス「Ａ」の楕円で表されている。

選択部７３０は、特定物体を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合の積集合と、過検出した検出ネットワークの訓練に使用した学習状況の集合との差集合を計算する。図２０の例では、選択部７３０は、クラス「Ａ」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合とクラス「Ｃ」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合との積集合を計算し、当該積集合から、クラス「Ｃ」を正しく検出できた検出ネットワークの訓練に使用した学習状況の集合を減じて差集合２１を計算する。そして選択部７３０は、差集合２１に属する学習状況を、検出ネットワークの訓練に有用な学習状況として選択する。選択された学習状況に含まれる学習データ及び学習条件パラメータを用いて検出ネットワークを訓練することにより、過検出の少ない検出ネットワークを生成することが期待される。

このとき、各検出矩形に対しては、正しく対象物が検出されているかどうかといった情報が必要である。既存の教示データが存在する場合はその判定は可能であるが、教示データが存在しない場合は、人手による教示が必要となる。例えば、表示機器７０５に入力インタフェースを追加し、いずれの検出矩形が正しい対象物であるかをインタラクティブに矩形をクリックするなどの操作により教示情報を与えても構わない。

図２１は、ドメイン適応学習の性能の比較結果を示す図である。ソースドメインとしてPASCAL VOCのデータセット、ターゲットドメインとしてClipartデータセットが使用された。性能指標としてはｍＡＰ（mean Average Precision）が使用された。ｍＡＰは、クラス毎のPrecision-Recall curve下の面積を表すＡＰ（mean Average Precision）値を全クラスに亘り平均した値である。ｍＡＰは、ターゲットドメイン画像に対するクラス識別の性能を表す。

図２１（Ａ）はソースドメインのみで訓練したＳＳＤの結果である。（Ｂ）は教示ラベル付きのターゲットドメインのみで学習したＳＳＤの結果である。（Ｃ１）（Ｃ２）（Ｃ３）は非特許文献１及び非特許文献２の従来手法の結果である。（Ｐ１）（Ｐ２）（Ｐ３）（Ｐ４）は本願手法の結果である。（Ｐ１）はドメイン識別損失計算部１１２によるドメイン識別損失のみの場合の結果を示す。（Ｐ２）は、比較手法（Ｃ２）に対して、第１の自己学習損失計算部１１８による統合疑似ラベル自己学習損失を加えた結果を示す。（Ｐ３）はドメイン識別損失計算部１１２によるドメイン識別損失を組み合わせたもの、（Ｐ４）はさらに第２の自己学習損失計算部１１９による多様体合成自己学習損失も加えた結果を示す。図２１に示すように、本願手法の何れのも従来手法に比して性能が改善している。なお、図２１の白丸は比較手法の実装を表し、黒丸は本願手法の実装を表す。図２１のＰ２及びＰ３は、機能としては、同じ組み合わせであるが、Ｇｌｏｂａｌ・ＬｏｃａｌについてＰ２は比較手法の実装であり、Ｐ３は本願手法の実装である。Ｐ２とＰ３とを比較すると、Ｐ３がＰ２に比してｍＡＰが良好であることが分かる。

上記の実施例は例示であり、第３実施形態はこれに限定されない。例えば、評価装置７に検出ネットワークが搭載されていてもよい。あるいは，物体検出装置２に取得部７１０、評価部７２０、選択部７３０及び出力部７４０が搭載されてもよい。

上記の通り、評価対象の深層学習ネットワークは検出ネットワークに限定されず、画像生成や音声認識、異常検知、如何なるタスクを実行する深層学習ネットワークにも第３実施形態は対応可能である。これに伴い、新規ドメインデータ及び既存ドメインデータのコンテンツやデータ形式等も変更されればよい。

上記の説明の通り、第３実施形態に係る学習支援システム３は、履歴格納装置６及び評価装置７を有する。履歴格納装置６は、学習データ及び／又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを複数の学習状況に関連付けて記憶する。評価装置７は、評価用データを複数のネットワークに適用して複数の評価結果を生成し、複数の評価結果と複数の学習状況とを並べて表示機器７０５に表示する。

上記の構成によれば、異なる学習状況で訓練された同一タスクの複数のネットワークがある場合に、当該複数のネットワークを共通の評価用データに適用して得た複数の評価結果及び学習状況を比較検討することにより、当該タスクのネットワークの構築に適切な又は不適切な学習状況を把握することが可能になる。ひいては、当該タスクのネットワークの性能を向上させること、当該タスクの精度を向上させることが可能になる。

かくして、上記実施形態によれば、ドメイン適応で得られる検出ネットワークによる物体検出の性能の向上を実現することが可能になる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…学習装置、２…物体検出装置、３…学習支援システム、４…既存ドメインデータ格納装置、５…新規ドメインデータ格納装置、６…履歴格納装置、７…評価装置、１０１…処理回路、１０２…記憶装置、１０３…入力機器、１０４…通信機器、１０５…表示機器、１１０…学習部、１１１…検出タスク損失計算部、１１２…ドメイン識別損失計算部、１１３…自己学習損失計算部、１１４…全体損失計算部、１１５…更新部、１１６…疑似ラベル生成部、１１７…学習制御部、１１８…第１の自己学習損失計算部、１１９…第２の自己学習損失計算部、１２０…取得部、１３０…出力部、２０１…処理回路、２０２…記憶装置、２０３…入力機器、２０４…通信機器、２０５…表示機器、２１０…取得部、２２０…処理部、２３０…出力部、７０１…処理回路、７０２…記憶装置、７０３…入力機器、７０４…通信機器、７０５…表示機器、７１０…取得部、７２０…評価部、７３０…選択部、７４０…出力部。

Claims

ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習部を具備し、
前記学習部は、
前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算する検出タスク損失計算部と、
前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算するドメイン識別損失計算部と、
前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算する自己学習損失計算部と、
前記ドメイン識別損失と、前記検出タスク損失及び／又は前記自己学習損失との重み付け加算に基づいて全体損失を計算する全体損失計算部と、
前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する更新部と、を有する、
学習装置。
前記学習部は、現在の反復単位が前記自己学習を行う反復単位が否かを判定する制御部を更に有し、
前記自己学習損失計算部は、前記現在の反復単位が前記自己学習を行う反復単位であると判定された場合、前記自己学習損失を計算する、
請求項１記載の学習装置。
前記自己学習損失計算部は、第１の自己学習損失計算部及び／又は第２の自己学習損失計算部を有し、
前記第１の自己学習損失計算部は、前記自己学習損失として、前記ターゲットドメインに属する画像に基づく統合疑似ラベルを利用した自己学習によるクラス識別に関する第１の自己学習損失を計算し、
前記第２の自己学習損失計算部は、前記自己学習損失として、前記ターゲットドメインに属する画像に基づく多様体合成疑似ラベルを利用した自己学習によるクラス識別に関する第２の自己学習損失を計算し、
前記全体損失計算部は、前記自己学習損失として、前記第１の自己学習損失及び／又は前記第２の自己学習損失を使用する、
請求項１又は２記載の学習装置。
前記ターゲットドメインに属する画像に複数種類の画像変換を施して複数の変換後画像を生成し、前記複数の変換後画像を前記検出ネットワークに適用して複数の検出ラベルを算出し、前記複数の検出ラベルのアンサンブルに基づいて前記統合疑似ラベルを生成する疑似ラベル生成部を更に備え、
前記第１の自己学習損失計算部は、前記統合疑似ラベル付きの前記ターゲットドメインに属する画像に基づいて前記第１の自己学習損失を計算する、
請求項３記載の学習装置。
各反復単位において、前記ターゲットドメインに属する第１の画像及び第２の画像を前記検出ネットワークにそれぞれ適用して第１の中間出力及び第２の中間出力を算出し、前記第１の中間出力及び第２の中間出力の線形結合に基づいて前記多様体合成疑似ラベルを算出する疑似ラベル生成部を更に備え、
前記第２の自己学習損失計算部は、現在の反復単位における多様体合成疑似ラベルと過去の反復単位における多様体合成疑似ラベルとに基づいて前記現在の反復単位における前記第２の自己学習損失を計算する、
請求項３記載の学習装置。
前記全体損失計算部は、
前記現在の反復単位が前記自己学習を行う反復単位でないと判定された場合、前記ドメイン識別損失と前記検出タスク損失との重み付け加算に基づいて前記全体損失を計算し、
前記現在の反復単位が前記自己学習を行う反復単位であると判定された場合、前記ドメイン識別損失と、前記検出タスク損失及び／又は前記自己学習損失との重み付け加算に基づいて前記全体損失を計算する、
請求項２記載の学習装置。
前記検出ネットワークには、勾配の符号を反転する勾配反転層を介して、入力画像が属するドメインを識別するための識別ネットワークが接続され、
前記ドメイン識別損失計算部は、前記識別ネットワークからの出力に基づいて前記ドメイン識別損失を計算する、
請求項１記載の学習装置。
前記検出ネットワークは、局所的な画像特徴を表す特徴ベクトルを出力する局所特徴抽出層と、大域的な画像特徴を表す特徴ベクトルを出力する大域特徴抽出層とを有し、
前記識別ネットワークは、前記局所特徴抽出層に第１の勾配反転層を介して接続された畳み込み層と前記大域特徴抽出層に第２の勾配反転層に接続されたドメイン識別層とを有し、
前記ドメイン識別損失計算部は、前記畳み込み層から出力されたドメイン予測マップに関する第１のドメイン識別損失と前記ドメイン識別層から出力されたドメイン識別値に関する第２のドメイン識別損失とに基づいて前記ドメイン識別損失を計算する、
請求項７記載の学習装置。
前記検出タスク損失計算部は、教示ラベル付き又は疑似ラベル付きの前記ターゲットドメインに属する画像に基づいて前記検出タスク損失を計算する、請求項１記載の学習装置。
前記検出ネットワークは、ワンステージ型の物体検出器である、請求項１記載の学習装置。
前記検出ネットワークは、前記ソースドメインに属する画像に基づいて学習済みの深層学習ネットワークである、請求項１記載の学習装置。
ターゲットドメインに属する処理対象画像を取得する取得部と、
前記処理対象画像と、請求項１乃至１１の何れか一項に記載の検出ネットワークとに基づいて前記処理対象画像に含まれる物体の検出位置及びクラス名を出力する処理部と、
を具備する物体検出装置。
学習データ及び／又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを前記複数の学習状況に関連付けて記憶する履歴格納装置と、
評価用データを前記複数のネットワークに適用して複数の評価結果を生成し、前記複数の評価結果と前記複数の学習状況とを並べて表示機器に表示する評価装置と、
を具備する学習支援システム。
前記複数のネットワーク各々は、画像から物体を検出する検出ネットワークであり、
前記複数の評価結果各々は、前記物体の検出位置を表す矩形が描画された画像である、
請求項１３記載の学習支援システム。
前記検出ネットワークは、請求項１乃至１１の何れか一項記載の学習装置により訓練された検出ネットワークである、請求項１４記載の学習支援システム。
前記評価装置は、前記複数の評価結果に基づいて、前記所定のタスクを実行するネットワークの訓練に有用な学習状況を前記複数の学習状況の中から選択する、請求項１３記載の学習支援システム。
前記複数のネットワークは、それぞれ、画像から物体を検出する複数の検出ネットワークであり、
前記評価装置は、
前記複数の評価結果として、前記物体の検出位置を表す矩形が描画された複数の評価画像を表示し、
前記複数の評価画像の中から前記物体を正しく検出している評価画像を特定し、
前記複数の検出ネットワークの中から前記特定された評価画像の生成に使用した検出ネットワークを特定し、
前記複数の学習状況の中から前記特定された検出ネットワークに関連付けられた学習状況を前記有用な学習状況として選択する、
請求項１６記載の学習支援システム。
前記複数の検出ネットワーク各々は、請求項１乃至１１の何れか一項記載の学習装置により訓練された検出ネットワークである、請求項１７記載の学習支援システム。
前記複数の学習状況のうちの複数の学習データを格納する学習データ格納装置と、
前記複数の学習状況に基づいて前記複数のネットワークを学習する学習装置と、を更に備え、
前記履歴格納装置は、前記学習装置による前記複数のネットワークの結果として、前記複数の学習状況を記憶する、
請求項１３記載の学習支援システム。
ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成する学習工程を有し、
前記学習工程は、
前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算し、
前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算し、
前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算し、
前記ドメイン識別損失と、前記検出タスク損失及び／又は前記自己学習損失との重み付け加算に基づいて全体損失を計算し、
前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する、ことを含む、
学習方法。
ターゲットドメインに属する処理対象画像を取得し、
前記処理対象画像と、請求項１乃至１１の何れか一項に記載の検出ネットワークとに基づいて前記処理対象画像に含まれる物体の検出位置及びクラス名を出力すること、
を具備する物体検出方法。
学習データ及び／又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを前記複数の学習状況に関連付けて記憶装置に格納し、
評価用データを前記複数のネットワークに適用して複数の評価結果を生成し、前記複数の評価結果と前記複数の学習状況とを並べて表示機器に表示する、
ことを具備する学習支援方法。
コンピュータに、
ターゲットドメインに属する画像から物体を検出するための検出ネットワークを生成させる学習機能を実現し、
前記学習機能は、
前記ターゲットドメインに属する画像に基づく前記検出ネットワークの教師有り学習により、検出位置及びクラス識別に関する損失である検出タスク損失を計算し、
前記ターゲットドメインに属する画像及びソースドメインに属する画像に基づく前記検出ネットワークの敵対的学習により、前記ターゲットドメインと前記ソースドメインとの識別に関する損失であるドメイン識別損失を計算し、
前記ターゲットドメインに属する画像に基づく前記検出ネットワークの自己学習により、前記自己学習によるクラス識別に関する損失である自己学習損失を計算し、
前記ドメイン識別損失と、前記検出タスク損失及び／又は前記自己学習損失との重み付け加算に基づいて全体損失を計算し、
前記全体損失を最小化するように前記検出ネットワークの学習パラメータを更新する、ことを含む、
学習プログラム。
コンピュータに、
ターゲットドメインに属する処理対象画像を取得させる機能と、
前記処理対象画像と、請求項１乃至１１の何れか一項に記載の検出ネットワークとに基づいて前記処理対象画像に含まれる物体の検出位置及びクラス名を出力させる機能と、
を実現させる物体検出プログラム。
コンピュータに、
学習データ及び／又は学習条件が互いに異なる複数の学習状況で訓練された、所定のタスクを実行する複数のネットワークを前記複数の学習状況に関連付けて記憶装置に格納させる機能と、
評価用データを前記複数のネットワークに適用して複数の評価結果を生成し、前記複数の評価結果と前記複数の学習状況とを並べて表示機器に表示させる機能と、
を実現させる学習支援プログラム。