JP7380902B2

JP7380902B2 - 物体検知装置、学習済みモデル生成方法、及び、プログラム

Info

Publication number: JP7380902B2
Application number: JP2022551504A
Authority: JP
Inventors: 勝彦高橋; 裕一中谷; 哲夫井下; 遊哉石井; 学中野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2023-11-15
Anticipated expiration: 2040-09-24
Also published as: US20230334837A1; JPWO2022064610A1; WO2022064610A1

Description

本発明は、画像に含まれる物体を検知する技術に関する。

多くのパターンデータを用いて学習を行うことで、認識器の性能を向上できることが知られている。基礎となる認識器から各環境に適合させた認識器にチューニングすることも行われている。また、異なる環境に応じて認識精度を向上させる方法も各種提案されている。例えば、特許文献１には、文字の書かれている環境に応じた認識処理を行うパターン認識装置が記載されている。このパターン認識装置では、入力画像から抽出された処理対象の状態に応じて、複数登録されている認識器の中のいずれか１つ又は複数を呼び出して認識処理を行わせる。

また、認識器の性能を向上する別の方策として、特性の異なる複数の認識器を構築して、それらの出力に基づいて総合判断する方式が提案されている。例えば、特許文献２には、障害物の有無を判定する複数の判定部の判定結果に基づいて最終判定を行う障害物検出装置が記載されている。

特開２００７－０５８８８２号公報特開２０１９－０３６２４０号公報

上記の手法では、複数の認識装置や判定装置の精度がほぼ同等であることを前提としている。このため、複数の認識装置や判定装置の精度が異なる場合には、最終的に得られる結果の精度が低下してしまう場合がある。また、上記の手法では、複数の認識器を用いて認識性能を向上させているため、必然的に装置が大規模となる。このため、映像監視などの用途で使用する物体検出装置を現場にデプロイするような場合には、上記の手法は適当とは言えない。

本発明の１つの目的は、特性の異なる複数の認識器を用いて、入力画像に応じた高精度な物体検知を可能とする物体検知装置を提供することにある。

上記の課題を解決するため、本発明の一つの観点では、物体検知装置は、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データの正解ラベルと、前記融合手段が融合したスコアとの差異を第１のロスとして算出する第１のロス算出手段と、
前記重み算出パラメータを、前記第１のロスが減少するように修正する第１のパラメータ修正手段と、を備える。

本発明の他の観点では、学習済みモデル生成方法は、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第１のロスとして算出し、
前記重み算出パラメータを、前記第１のロスが減少するように修正する。

本発明のさらに他の観点では、プログラムは、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第１のロスとして算出し、
前記重み算出パラメータを、前記第１のロスが減少するように修正する処理をコンピュータに実行させる。

本発明のさらに他の観点では、物体検知装置は、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知手段と、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第２のロスを算出する第２のロス算出手段と、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第２のパラメータ修正手段と、を備える。

本発明のさらに他の観点では、学習済みモデル生成方法は、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第２のロスを算出し、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する。

本発明のさらに他の観点では、プログラムは、
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第２のロスを算出し、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する処理をコンピュータに実行させる。

第１実施形態により大規模モデルを構築するための構成を示す。大規模モデルを構築する例を模式的に示す。アンカーボックスの概念を説明する図である。第１実施形態の物体検知装置のハードウェア構成を示す。第１実施例に係る学習のための物体検知装置の機能構成を示す。第１実施例の物体検知装置による学習処理のフローチャートである。第１実施例に係る推論のための物体検知装置の機能構成を示す。第１実施例の物体検知装置による推論処理のフローチャートである。第２実施例に係る学習のための物体検知装置の機能構成を示す。第２実施例に係る推論のための物体検知装置の機能構成を示す。第３実施例に係る学習のための物体検知装置の機能構成を示す。第３実施例の物体検知装置による学習処理のフローチャートである。第３実施例に係る推論のための物体検知装置の機能構成を示す。大規模モデルを用いてターゲットモデルを構築するための構成を示す。第２実施形態によりターゲットモデルを構築する例を模式的に示す。第１実施例に係る学習のための物体検知装置の機能構成を示す。第１実施例に係る物体検知装置による学習処理のフローチャートである。第１実施例に係る推論のための物体検知装置の機能構成を示す。第２実施例に係る学習のための物体検知装置の機能構成を示す。第２実施例に係る物体検知装置による学習処理のフローチャートである。第３実施例の原理を説明する図である。第３実施形態に係る物体検知装置の機能構成を示す。第３実施形態に係る物体検知装置による処理のフローチャートである。第４実施形態に係る物体検知装置の機能構成を示す第４実施形態に係る物体検知装置による処理のフローチャートである。

＜第１実施形態＞
［原理説明］
まず、第１実施形態における基本原理について説明する。一般的に、映像監視向けＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）モデルを現場にデプロイする際、その認識精度不足により、現場毎にモデルの再構築（現場での画像の収集、正解付け、学習など）のためのシステムインテグレーション作業が必要となることが多い。本実施形態では、システムインテグレーションのコストを低減するために、まず、さまざまな現場環境で学習済みのソースモデルを収集し、融合することにより、環境変動に頑健な大規模モデルを構築する。

図１は、複数の学習済みモデルを用いて大規模モデルを構築するための構成を示す。図１に示すように、大規模モデル１は、複数（図１の例では３つ）の学習済みモデル２と、ゲーティングネットワーク３と、演算部４とを備える。学習済みモデル２は、それぞれが異なる環境で学習されたソースモデルであり、ここでは画像データから物体検知を行うモデルである。新規の現場で収集された画像データは、学習データとして複数の学習済みモデル２およびゲーティングネットワーク３に入力される。なお、学習データには、予め対応する正解ラベルとして、クラスの正解値と座標の正解値が用意されている。

各学習済みモデル２は、入力された学習データに基づいて物体検知を行い、物体検知の途中段階で設定される部分領域毎に、検出された物体のクラスに関するクラス情報と、その部分領域の位置を示す座標情報とを出力する。クラス情報は、物体の種類を示すクラスコードと、そのクラスコードが示す物体が存在する確からしさを示すスコアとを含む。各学習済みモデル２は、部分領域毎のクラス情報および座標情報を、ゲーティングネットワーク３および演算部４へ出力する。

ゲーティングネットワーク３は、入力された学習データと、各学習済みモデル２が出力した部分領域毎のクラス情報および座標情報とに基づいて、各学習済みモデル２が出力する情報に対する重みを出力し、演算部４へ出力する。ゲーティングネットワーク３は、入力される学習データに加えて、各学習済みモデル２による部分領域毎のクラス情報および座標情報を用いることにより、各学習済みモデル２に対する重みを適切に設定することができる。即ち、ゲーティングネットワーク３は、学習データと、当該学習データに対する各学習済みモデル２の物体検知結果とを用いることにより、各学習済みモデル２がその学習データに含まれる物体の検知を得意としているか不得意としているかを推測し、その結果を各学習済みモデル２に対する重みに反映することができる。これにより、ゲーティングネットワーク３は、各学習済みモデル２に対して適切な重みを算出することが可能となる。

演算部４は、各学習済みモデル２が出力する情報を、ゲーティングネットワーク３が出力する重みを用いて融合する。演算部４は、各学習済みモデル２が出力するクラス情報を、重みを用いて融合して得られるクラス情報を出力する。また、演算部４は、各学習済みモデル２が出力する座標情報を、重みを用いて融合して得られる座標情報として出力する。

演算部４から出力されたクラス情報および座標情報は、それぞれ予め用意されたクラスの正解値および座標の正解値と比較され、誤差が算出される。そして、それらの誤差を最小化するように、ゲーティングネットワーク３を学習する。具体的には、それらの誤差が減少するように、ゲーティングネットワーク３のパラメータを修正する。前述のように、ゲーティングネットワーク３は、学習データとして入力される画像データと、各学習済みモデル２の出力とに基づいて、画像データ毎に各学習済みモデル２の得手不得手を推定して、各学習済みモデル２の最適な融合割合を示す重みの値を学習する。大規模モデル１の学習は、一定の精度が得られるまで行われる。こうして、複数の学習済みのソースモデルを用いて、高精度な大規模モデルが構築される。

次に、大規模モデルを構築する具体例を説明する。図２は、大規模モデル１を構築する処理の一例を模式的に示す。なお、図２では、学習済みモデル２の数を２つとしている。図２の例では、学習済みモデル２をＲｅｔｉｎａＮｅｔにより構成している。なお、図２の例では、説明の便宜上、各学習済みモデル２が出力する情報のうち、クラス情報のみを使用するものとする。

学習済みモデル２は、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ：残差ネットワーク）により、入力された画像データから、サイズの異なる複数の特徴マップからなるｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔ（特徴ピラミッドネット）を生成する。各特徴マップには、アンカーボックスが設定され、学習済みモデル２は、アンカーボックス毎に物体の検出を行う。但し、大規模モデル１においては、学習済みモデル２は、検知した物体とそのスコアおよび座標情報をリスト形式などで出力する極大値選択処理、具体的にはＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）処理までは行わず、ＮＭＳ処理前のアンカーボックス毎に算出された認識対象物体のクラス情報および座標情報をそのまま出力する。以下、認識対象物体の有無を検証する、すべての部分領域のことを「アンカーボックス」と呼ぶ。

図３は、アンカーボックスの概念を説明する図である。図示のように、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）の畳み込みにより得られた特徴マップ上に、スライディングウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）が設定される。図３の例では、１つのスライディングウィンドウに対してｋ通りの大きさの異なるアンカーボックス（以下、単に「アンカー」とも呼ぶ。）が設定され、各アンカーに対して認識対象物体の有無が検証される。即ち、各アンカーは、すべてのスライディングウィンドウに対してｋ通りずつ設定される部分領域を指す。

アンカーの数はニューラルネットワークの構造やサイズに依存する。図２において、出力ネットワーク７０の上段は、Ｗ×Ｈ×Ａ個のアンカーに対するクラス情報７１（Ｋ次元。つまり、Ｋ種類の認識対象）を記憶しており、下段はＷ×Ｈ×Ａ個のアンカーに対する座標情報（４次元）を記憶する。ここで、「Ｗ」はアンカー中心の横方向のバリエーション数、「Ｈ」はアンカー中心の縦方向バリエーション数、「Ａ」はアンカーの縦横サイズのバリエーション数を示す。座標情報は、認識対象物が存在する矩形領域の左右、上下４辺の座標情報を絶対値もしくはアンカーに対して一意に定められる基準位置からの相対位置で表してもよいし、上下４辺ではなく左辺と上辺および幅と高さの観点で表してもよい。

図２に示す出力ネットワーク７０はｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔの１層分に対して設定されたもので、ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔの別の階層に対しても同様にＫ次元のスコア情報と４次元の座標情報が出力される。以下、ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔのすべての階層に対して設定されるアンカーの数を「Ｎａ」と記すこととする。同一のアンカーに対するスコア情報と座標情報は、それらの情報を記憶するためのメモリの予め定められたメモリ位置に保存されるので、それらを容易に対応づけることができる。

各学習済みモデル２は、アンカー数×クラス数分のクラス情報７１を出力する。ゲーティングネットワーク３は、学習済みモデル２毎に決定した重みを出力する。演算部４は、各学習済みモデル２から出力されるクラス情報に対して、同一アンカー毎に重み付け和を計算し、クラス情報７２を出力する。クラス情報７２と、予め用意されたクラスの正解値（教師データ）７３との差の二乗和をロスとして定義し、このロスを最小化するように、ゲーティングネットワーク３が出力する重みを学習する。こうして、大規模モデル１が構築される。

［ハードウェア構成］
図４は、第１実施形態の物体検知装置のハードウェア構成を示すブロック図である。物体検知装置１０は、上記の大規模モデル１に相当する。図示のように、物体検知装置１０は、インタフェース（ＩＦ）４２と、プロセッサ４３と、メモリ４４と、記録媒体４５と、データベース（ＤＢ）４６と、を備える。

インタフェース４２は、外部装置との通信を行う。具体的に、インタフェース４２は、物体検知の対象となる画像データや学習用の画像データを外部から入力したり、物体検知の結果を外部装置へ出力する際に使用される。

プロセッサ４３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置１０の全体を制御する。メモリ４４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ４４は、プロセッサ４３により実行される各種のプログラムを記憶する。また、メモリ４４は、プロセッサ４３による各種の処理の実行中に作業メモリとしても使用される。

記録媒体４５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置１０に対して着脱可能に構成される。記録媒体４５は、プロセッサ４３が実行する各種のプログラムを記録している。物体検知装置１０が学習処理を実行する際には、記録媒体４５に記録されているプログラムがメモリ４４にロードされ、プロセッサ４３により実行される。

データベース４６は、物体検知装置１０の学習処理において使用される、学習用の画像データを記憶する。学習用の画像データは、正解ラベルを含む。なお、上記に加えて、物体検知装置１０は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。

［第１実施例］
次に、第1実施形態の第１実施例に係る物体検知装置について説明する。
（学習のための機能構成）
まず、第１実施例に係る物体検知装置１０の学習のための機能構成について説明する。図５は、学習のための物体検知装置１０の機能構成を示すブロック図である。なお、図５は、複数の物体検知部からの出力に対する最適な融合割合を学習する学習ステップを実行するための構成を示す。図示のように、物体検知装置１０は、画像入力部１１と、重み算出部１２と、第１の物体検知部１３と、第２の物体検知部１４と、積和部１５と、パラメータ修正部１６と、ロス算出部１７と、正解ラベル記憶部１８とを備える。画像入力部１１は、図４に示すインタフェース４２により実現される。重み算出部１２、第１の物体検知部１３、第２の物体検知部１４、積和部１５、パラメータ修正部１６、および、ロス算出部１７は、図４に示すプロセッサ４３により実現される。正解ラベル記憶部１８は図４に示すデータベース４６により実現される。

物体検知装置１０の学習ステップは、重み算出部１２が内部に有する重み算出のためのパラメータ（以下、「重み算出パラメータ」と呼ぶ。）を最適化する。なお、第１の物体検知部１３および第２の物体検知部１４は、事前に学習済みであり、この学習ステップにおいて学習は行わない。

画像入力部１１には、画像データが入力される。画像データは、学習用の画像データであり、物体検知の対象となるエリアで撮影されたものである。前述のように、各画像データに対しては、その画像に含まれる物体を示す正解ラベルが予め用意されている。

第１の物体検知部１３は、例えばＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）、ＲｅｔｉｎａＮｅｔ、Ｆａｓｔｅｒ－ＲＣＮＮ（ＲｅｇｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などのディープラーニングによる物体検知用のニューラルネットワークに類似する構成を有する。但し、第１の物体検知部１３は、ＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）により、検知した物体とそのスコアおよび座標情報をリスト形式などで出力する処理までは行わず、ＮＭＳ処理前のアンカーボックス毎に算出された認識対象物体のスコア情報および座標情報をそのまま出力する。第１の物体検知部１３は、アンカーボックス毎のスコア情報および座標情報を、重み算出部１２および積和部１５へ出力する。前述のように、第１の物体検知部１３は事前に学習済みで、そのパラメータは固定されており、物体検知装置１０の学習ステップにおいて学習は行わない。

第２の物体検知部１４は、第１の物体検知部１３と同様であり、モデルの構造も同一とする。ただし、第１の物体検知部１３と第２の物体検知部１４とは、学習データが異なるか、もしくは学習時のパラメータの初期値が異なるなどの要因により、内部に所持するネットワークのパラメータは一致しておらず、認識特性も異なるものとする。第２の物体検知部１４は、アンカーボックス毎のスコア情報および座標情報を、重み算出部１２および積和部１５へ出力する。

重み算出部１２は、ＲｅｓＮｅｔなどの回帰問題に適用可能なディープニューラルネットワークなどによって構成される。重み算出部１２は、画像入力部１１に入力された画像データに対して、第１の物体検知部１３と第２の物体検知部１４が出力するスコア情報および座標情報を融合する際の重みを決定し、それぞれの重みを示す情報を積和部１５へ出力する。この際、重み算出部１２は、入力された画像データと、当該画像データに対する第１の物体検知部１３および第２の物体検知部１４の出力とに基づいて重みを決定する。基本的に、重みの次元数は用いる物体検知部の数に等しい。この場合、重み算出部１２は、第１の物体検知部１３に対する重みと第２の物体検知部１４に対する重みの総和が「１」になるように重みを算出することが好ましい。例えば、重み算出部１２は、第１の物体検知部１３に対する重みを「α」とし、第２の物体検知部１４に対する重みを「１－α」とすればよい。これにより、積和部１５における平均値算出処理を簡略化することができる。なお、物体検知部において、１つの物体に関するパラメータが２つある場合（例えば、ある物体らしいことを示すパラメータと、ある物体らしくないことを示すパラメータ）、重みの次元数は用いる物体検知部の数の２倍となる。

積和部１５は、第１の物体検知部１３および第２の物体検知部１４が出力するスコア情報および座標情報を、それぞれ対応するアンカー同士で、重み算出部１２が出力する重みに基づき積和した後に平均値を求める。なお、座標情報の積和演算は、正解ラベルに認識対象物体の存在が示されているアンカーに対してのみ行い、それ以外のアンカーに対しては計算不要である。平均値はアンカー毎かつ認識対象物体毎に算出され、Ｎａ×（ｋ＋４）次元となる。なお、積和部１５は、融合部の一例である。

正解ラベル記憶部１８は、学習用の画像データに対する正解ラベルを記憶している。具体的に、正解ラベル記憶部１８は、正解ラベルとして、各アンカーに存在する認識対象物体のクラス情報、および座標情報をアンカー毎に配列状に記憶する。正解ラベル記憶部１８は、認識対象物体が存在しないアンカーに対応する記憶エリアには、認識対象物体が存在しない旨を示すクラス情報、および座標情報を記憶する。クラス情報は、物体の種類を示すクラスコードと、そのクラスコードが示す物体が存在する確からしさを示すスコア情報とを含む。なお、学習用の画像データに対するもともとの正解情報は、入力画像に写っている認識対象物体の種類とその矩形領域を示すテキスト情報である場合が多いが、正解ラベル記憶部１８に記憶されている正解ラベルは、その正解情報をアンカー毎のクラス情報および座標情報に変換したデータとなっている。

例えば、正解ラベル記憶部１８は、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有するアンカーについては、当該物体のスコアを表す正解ラベルの位置に、クラス情報として当該物体のスコアを示す値１．０を格納し、座標情報として当該アンカーの標準矩形位置に対する当該物体が写っている矩形領域の位置の相対量（左端ｘ座標のずれ量、上端ｙ座標のずれ量、幅のずれ量、高さのずれ量）を格納する。また、正解ラベル記憶部１８は、他の物体のスコアを表す正解ラベルの位置には物体が存在しない旨を示す値を格納する。また、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有さないアンカーに対しては、正解ラベル記憶部１８は、物体のスコアおよび座標情報を格納する正解ラベルの位置に物体が存在しない旨を示す値を格納する。１つのアンカーに対し、クラス情報はｋ次元、座標情報は４次元となる。すべてのアンカーに対しては、クラス情報はＮａ×ｋ次元、座標情報はＮａ×４次元となる。この変換には、広く一般に公開されている物体検知課題向けのディープニューラルネットワークプログラムで使われている手法を適用することができる。

ロス算出部１７は、積和部１５が出力するＮａ×（ｋ＋４）次元のスコア情報および座標情報と、正解ラベル記憶部１８に記憶されている正解ラベルとを照合してロスの値を算出する。具体的には、ロス算出部１７は、スコア情報に関する識別ロス、および、座標情報に関する回帰ロス（Ｒｅｇｒｅｓｓｉｏｎｌｏｓｓ）を算出する。積和部１５が出力するＮａ×（ｋ＋４）次元の平均値は、第１の物体検知部１３がアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報と同義である。したがって、ロス算出部１７は、第１の物体検知部１３の出力に対する識別ロスの算出方法と全く等しい方法で識別ロスの値を算出することができる。ロス算出部１７は、すべてのアンカーに対するスコア情報の差分を累積して識別ロスを算出する。また、回帰ロスについては、ロス算出部１７は、いずれかの物体が存在するアンカーに対してのみ座標情報の差分を累積し、いずれの物体も存在しないアンカーに対しては座標情報の差分を考慮しない。

なお、識別ロスと回帰ロスを用いたディープニューラルネットワークの学習については以下の文献に記載されており、これを参考文献として取り込む。
“ＬｅａｒｎｉｎｇＥｆｆｉｃｉｅｎｔＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＭｏｄｅｌｓｗｉｔｈＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ”，ＮｅｕｒＩＰＳ２０１７

パラメータ修正部１６は、ロス算出部１７が算出したロスを減少させるように、重み算出部１２に内在するネットワークのパラメータを修正する。この時、パラメータ修正部１６は、第１の物体検知部１３および第２の物体検知部１４のネットワークのパラメータを固定し、重み算出部１２のパラメータのみを修正する。パラメータ修正部１６は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。このようにして重み算出部１２のパラメータを学習することで、第１の物体検知部１３および第２の物体検知部１４の出力を最適に積和し、総合的に判定を行う物体検知装置を構築することが可能となる。なお、ロス算出部１７は第１のロス算出部の一例であり、ロス算出部１７が算出するロスは第１のロスの一例であり、パラメータ修正部１６は第１のパラメータ修正部の一例である。

次に、学習のための物体検知装置１０の動作について説明する。図６は、物体検知装置１０による学習処理のフローチャートである。この処理は、図１に示すプロセッサ４３が予め用意されたプログラムを実行することにより実現される。

まず、画像入力部１１に学習用の画像データが入力される（ステップＳ１１）。第１の物体検知部１３は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１２）。同様に、第２の物体検知部１４は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１３）。重み算出部１２は、画像データと、第１の物体検知部１３および第２の物体検知部１４の出力とに基づいて、第１の物体検知部１３および第２の物体検知部１４の出力それぞれに対する重みを算出する（ステップＳ１４）。

次に、積和部１５は、第１の物体検知部１３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体検知部１４が出力した認識対象物体のスコア情報と座標情報に、重み算出部１２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ１５）。次に、ロス算出部１７は、得られた平均値と正解ラベルとの差を照合し、ロスを算出する（ステップＳ１６）。そして、パラメータ修正部１６は、ロスの値が減少するように、重み算出部１２に内在する重み算出パラメータを修正する（ステップＳ１７）。

物体検知装置１０は、上記のステップＳ１１～Ｓ１７を所定条件が具備されている間だけ繰返し、処理を終了する。なお、「所定条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。

以上のように、第１実施例の物体検知装置１０によれば、重み算出部１２が入力画像に対する各物体検知部の得手・不得手を予測して重みを最適化し、その重みを各物体検知部の出力に乗じて平均する。よって、単体の物体検知部に比べて高精度な最終判定を行うことができる。例えば、第１の物体検知部１３は単独で歩く歩行者の検知を得意とし、第２の物体検知部１４は集団で歩く歩行者の検知を得意としている場合、入力画像にたまたま単独で歩く人が映っていたならば、重み算出部１２は第１の物体検知部１３により大きな重みを割り当てる。また、パラメータ修正部１６は、学習用の画像データの認識を得意とする物体検知部に対して重み算出部１２が大きな重みを算出するように、重み算出部１２のパラメータを修正する。

（推論のための機能構成）
次に、推論のための物体検知装置の機能構成について説明する。図７は、第１実施例に係る推論のための物体検知装置１０ｘの機能構成を示すブロック図である。なお、推論のための物体検知装置１０ｘも、基本的に図４に示すハードウェア構成で実現される。

図７に示すように、推論のための物体検知装置１０ｘは、画像入力部１１と、重み算出部１２と、第１の物体検知部１３と、第２の物体検知部１４と、積和部１５と、極大値選択部１９と、を備える。ここで、画像入力部１１、重み算出部１２、第１の物体検知部１３、第２の物体検知部１４、および、積和部１５は、図５に示す学習のための物体検知装置１０と同様である。そして、重み算出部１２は、上記の学習処理により学習されたものを使用する。

極大値選択部１９は、積和部１５が出力するＮａ×ｋ次元のスコア情報にＮＭＳ処理を施して認識対象物体の種類を同定し、そのアンカーに対応する座標情報からその位置を特定して物体検知結果を出力する。物体検知結果は、認識対象物体毎に、その種類と位置とを含む。これにより、第１の物体検知部１３および第２の物体検知部１４の出力を最適に融合して総合判断した場合の物体検知結果を得ることができる。

次に、推論のための物体検知装置１０ｘの動作について説明する。図８は、物体検知装置１０ｘによる推論処理のフローチャートである。この処理は、図４に示すプロセッサ４３が予め用意されたプログラムを実行することにより実現される。

まず、画像入力部１１に物体検知の対象となる画像データが入力される（ステップＳ２１）。第１の物体検知部１３は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ２２）。同様に、第２の物体検知部１４は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ２３）。重み算出部１２は、画像データと、第１の物体検知部１３および第２の物体検知部１４の出力とに基づいて、第１の物体検知部１３および第２の物体検知部１４の出力それぞれに対する重みを算出する（ステップＳ２４）。

次に、積和部１５は、第１の物体検知部１３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体検知部１４が出力した認識対象物体のスコア情報と座標情報に、重み算出部１２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ２５）。最後に、極大値選択部１９は、平均値に対してＮＭＳ処理を施し、認識対象物体の種類とその位置を物体検知結果として出力する（ステップＳ２６）。

（変形例）
上記の第１実施例に対しては、以下の変形例を適用することができる。
（１－１）上記の第１実施例では、各物体検知部が出力するスコア情報および座標情報を用いて学習を行っているが、座標情報は用いず、スコア情報のみを用いて学習を行うこととしてもよい。

（１－２）上記の第１実施例では、第１の物体検知部１３および第２の物体検知部１４の２つの物体検知部を用いたが、物体検知部は原理上３つ以上でも全く問題ない。その場合は、重み算出部１２が出力する重みの次元数（数）を、物体検知部の数と等しくすればよい。

（１－３）第１の物体検知部１３および第２の物体検知部１４を構成する具体的なアルゴリズムとしては、物体検知のためのディープラーニング手法であれば何を用いてもよい。また、重み算出部１２としては、回帰問題向けのディープラーニングに限らず、誤差逆伝搬法で学習できる関数、いいかえると、重みを算出する関数のパラメータで誤差関数を偏微分可能な関数、であれば何を用いても構わない。

（１－４）上記の第１実施例は物体検知装置としたが、物体の検知に限らず、映像中で起きている事象情報とその座標情報を出力する事象検知装置としてもよい。「事象」とは、例えばあらかじめ定めた人物の振る舞いや動作、ジェスチャーのようなものや、土砂崩れや雪崩、河川の水位上昇といった自然現象などを指す。

（１－５）上記の第１実施例では、第１の物体検知部１３と第２の物体検知部１４とはモデルの構造の等しいものを用いるものとしているが、異なるモデルを用いてもよい。ただし、その場合は、積和部１５にて、略等しい位置に対応する双方のアンカーの対応づけを工夫する必要がある。これは、異なるモデル間のアンカーは、完全一致しないためである。現実的な実装としては、第２の物体検知部１４で設定される各アンカーを第１の物体検知部１３で設定されるアンカーのいずれか１つに対応させ、第１の物体検知部１３で設定されるアンカー毎に重み付け平均を計算し、第１の物体検知部１３で設定されるアンカー毎かつ認識対象物体毎のスコア情報および座標情報を出力するようにすればよい。アンカーの対応の決め方としては、アンカーに対応する画像領域（物体が存在する矩形領域）を求め、その画像領域がもっとも過不足なく重複するアンカー同士を対応付ければよい。

［第２実施例］
次に、第１実施形態の第２実施例について説明する。なお、以下に説明する学習のための物体検知装置２０および推論のための物体検知装置２０ｘは、いずれも図４に示すハードウェア構成により実現される。

（学習のための機能構成）
図９は、第２実施例に係る学習のための物体検知装置２０の機能構成を示すブロック図である。図示のように、学習のための物体検知装置２０は、図２に示す物体検知装置１０における重み算出部１２およびパラメータ修正部１６の代わりに、アンカー毎重み算出部２１およびアンカー毎パラメータ修正部２２を有する。これ以外は、第２実施例の物体検知装置２０は、第１実施例の物体検知装置１０と同一である。即ち、画像入力部１１、第１の物体検知部１３、第２の物体検知部１４、積和部１５、ロス算出部１７および正解ラベル記憶部１８は、第１実施例の物体検知装置１０とそれぞれ同一であり、基本的に第１実施例と同様に動作する。

アンカー毎重み算出部２１は、画像入力部１１に入力された画像データと、第１の物体検知部１３および第２の物体検知部１４の出力とに基づいて、その画像データに設定される各アンカーに対して、第１の物体検知部１３と第２の物体検知部１４の出力に対する重みを算出し、積和部１５に出力する。即ち、第１実施例の重み算出部１２が画像全体に対して１通りの重みを設定していたのに対し、第２実施例のアンカー毎重み算出部２１は、画像のアンカー毎、即ち部分領域毎に、各物体検知部の出力に対する重みを算出する。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、アンカー毎重み算出部２１が出力する倍率を示す情報の次元数はＮａ×Ｎｆ次元となる。アンカー毎重み算出部２１は、多次元の回帰問題に適用できるディープニューラルネットワークなどで構成することができる。また、アンカー毎重み算出部２１は、それぞれの物体検知部に対する近傍のアンカー同士ができるだけ近い重みを持つように、近傍のアンカーに対応する重みを平均化するような構造のネットワークを含んでもよい。

積和部１５は、第１の物体検知部１３および第２の物体検知部１４がそれぞれアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報を、同じもの同士対応づけながら、アンカー毎重み算出部２１が出力する物体検知部毎かつアンカー毎の重みに基づき積和した後に平均値を求める。平均値の次元数は、第１実施形態と等しくＮａ×（ｋ＋４）次元となる。

アンカー毎パラメータ修正部２２は、ロス算出部１７が算出したロスを減少させるようにアンカー毎重み算出部２１に含まれる物体検知部毎かつアンカー毎の重み算出パラメータを修正する。この時、第１実施例と同様に、第１の物体検知部１３および第２の物体検知部１４のネットワークのパラメータは固定し、アンカー毎パラメータ修正部２２は、アンカー毎重み算出部２１のパラメータのみを修正する。パラメータの修正量は、通常の誤差逆伝搬法により求めることができる。

学習時において、第２実施例の物体検知装置２０は、基本的に図６に示す第１実施例の学習処理と同様の処理を実行する。但し、第２実施例では、図６に示す学習処理において、ステップＳ１４でアンカー毎重み算出部２１がアンカー毎に各物体検知部の出力に対する重みを算出する。また、ステップＳ１７では、アンカー毎パラメータ修正部２２がアンカー毎に、アンカー毎重み算出部２１内の重み算出パラメータを修正する。

（推論のための機能構成）
次に、第２実施例に係る推論のための物体検知装置の構成について説明する。図１０は、第２実施例に係る推論のための物体検知装置２０ｘの機能構成を示すブロック図である。第２実施形態の推論のための物体検知装置２０ｘは、図７に示す第１実施例の推論のための物体検知装置１０ｘにおける重み算出部１２の代わりに、アンカー毎重み算出部２１を有する。これ以外の点では、第２実施例の推論のための物体検知装置２０ｘは、第１実施例の推論のための物体検知装置１０ｘと同一である。よって、第２実施例では、アンカー毎重み算出部２１がアンカー毎に重みを算出し、第１の物体検知部１３および第２の物体検知部１４に出力する。

推論時において、第２実施例の物体検知装置２０ｘは、基本的に図８に示す第１実施例の学習処理と同様の処理を実行する。但し、第２実施例では、図８に示す学習処理において、ステップＳ２４でアンカー毎重み算出部２１がアンカー毎に各物体検知部の出力に対する重みを算出する。

第２実施例では、入力された画像データに基づいて、各物体検知部の出力の確からしさをアンカー毎、言い換えると場所毎に推測して重みを算出し、その重みを用いて各物体検知部の出力を重み付け平均する。よって、複数の物体検知部の出力を用いて、より高精度な最終判定を行うことができる。例えば、第１の物体検知部１３は単独で歩く歩行者の検知を得意とし、第２の物体検知部１４は集団で歩く歩行者の検知を得意としていると仮定する。入力された画像に単独で歩く人と集団で歩く人が共に映っていたならば、アンカー毎重み算出部２１は単独で歩く人の位置付近に対応するアンカーには第１の物体検知部１３の出力をより重視し、集団で歩く人の位置付近に対応するアンカーには第２の物体検知部１４の出力をより重視するような重みを出力する。こうして、より高精度な最終判定が可能となる。また、アンカー毎パラメータ修正部２２は、学習用の画像データの認識を得意とする物体検知部の出力をより重視する重みをアンカー毎重み算出部２１が出力するよう、画像の部分領域毎にパラメータを修正することができる。

（変形例）
第１実施例における変形例（１－１）～（１－５）は、第２実施例においても適用することができる。さらに、第２実施例では、以下の変形例（１－６）を適用することができる。

（１－６）上記の第２実施例では、アンカー毎重み算出部２１がアンカー毎に最適な重み付けを行っているが、例えばＲｅｔｉｎａＮｅｔのように各物体検知部がクラス毎に異なるバイナリ識別器を持っているならば、アンカー毎ではなくクラス毎に重みを変えられるようにしてもよい。この場合は、アンカー毎重み算出部２１に代えてクラス毎重み算出部を設け、アンカー毎パラメータ修正部２２に代えてクラス毎パラメータ修正部を設ければよい。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、アンカー毎重み算出部２１が出力する重みの次元数はＮａ×Ｎｆ次元である。これに対し、クラス数をＮｃ次元とすると、クラス毎重み算出部が出力する重みの次元数はＮｃ×Ｎｆ次元となる。クラス毎パラメータ修正部によるクラス毎重み算出部のパラメータの学習は、通常のように出力層ニューロン側からロスを最小化するように誤差逆伝搬を適用すればよい。この構成によれば、例えば、物体検知部毎に検知が得意なクラスが異なる場合、クラス毎に異なる最適な重み付けを行うことが可能となる。

［第３実施例］
次に、第１実施形態の第３実施例について説明する。第３実施例は、画像データの撮影環境情報を用いて、各物体検知部に対する重み付けを行うものである。なお、以下に説明する学習のための物体検知装置３０および推論のための物体検知装置３０ｘは、いずれも図４に示すハードウェア構成により実現される。

（学習のための機能構成）
図１１は、第３実施例に係る学習のための物体検知装置３０の機能構成を示すブロック図である。図示のように、学習のための物体検知装置３０は、図５に示す第１実施例の物体検知装置１０における重み算出部１２の代わりに重み算出／環境予測部３１を備え、さらに予測ロス算出部３２を追加した構成を有する。これ以外は、第３実施例の物体検知装置３０は、第１実施例の物体検知装置１０と同一である。即ち、画像入力部１１、第１の物体検知部１３、第２の物体検知部１４、積和部１５、ロス算出部１７および正解ラベル記憶部１８は、第１実施例の物体検知装置１０とそれぞれ同一であり、基本的に第１実施例と同様に動作する。

予測ロス算出部３２には、撮影環境情報が入力される。撮影環境情報は、画像入力部１１に入力される画像データが撮影された環境を示す情報である。例えば、撮影環境情報は、（ａ）画像データを撮影したカメラの設置位置の屋内外の別（屋内または屋外）、（ｂ）その時の天候（晴天、曇天、雨または雪）、（ｃ）時刻（昼または夜）、（ｄ）カメラの俯角（０～３０度、３０～６０度または６０～９０度）などである。

重み算出／環境予測部３１は、画像入力部１１に入力された画像データと、第１の物体検知部１３および第２の物体検知部１４の出力とに基づいて、重み算出パラメータを用いて第１の物体検知部１３および第２の物体検知部１４に対する重みを算出する。また、重み算出／環境予測部３１は、撮影環境を予測するためのパラメータ（以下、「撮影環境予測パラメータ」と呼ぶ。）を用いて、入力された画像データの撮影環境を予測して予測環境情報を生成し、予測ロス算出部３２に出力する。例えば、撮影環境情報として上記（ａ）～（ｄ）の４種類のものを用いるとすれば、重み算出／環境予測部３１は、各種類の情報の属性値を１次元で表し、予測環境情報として４次元の値を出力する。重み算出／環境予測部３１は、重みと予測環境情報を算出するにあたり、計算の一部を共通化する。例えば、ディープニューラルネットワークで算出する場合、重み算出／環境予測部３１は、ネットワークの下位層を共通化し、上位層のみを重みおよび予測環境情報の算出に特化させる。即ち、重み算出／環境予測部３１はいわゆるマルチタスク学習を行う。これにより、重み算出パラメータと環境予測パラメータは、その一部が共通することとなる。

予測ロス算出部３２は、撮影環境情報と、重み算出／環境予測部３１が算出した予測環境との差異を計算し、予測ロスとしてパラメータ修正部１６に出力する。パラメータ修正部１６は、ロス算出部１７が算出したロスおよび予測ロス算出部３２が算出した予測ロスを減少させるように、重み算出／環境予測部３１に内在するネットワークのパラメータを修正する。

第３実施例では、重み算出／環境予測部３１において、重みの算出と予測環境情報の算出に一部のネットワークを共有しているので、類似した撮影環境のモデル同士は類似した重みをもちやすくなる。その結果、重み算出／環境予測部３１における学習を安定させる効果が得られる。

なお、上記の第３実施例では、重み算出／環境予測部３１およびパラメータ修正部１６は、第１実施例と同様に画像全体に対して等しい重み付けを行っている。その代わりに、重み算出／環境予測部３１およびパラメータ修正部１６が、第２実施例のようにアンカー毎（部分領域毎）に重み付けを行うように構成してもよい。

次に、学習のための物体検知装置３０の動作について説明する。図１２は、第３実施例の物体検知装置３０による学習処理のフローチャートである。この処理は、図４に示すプロセッサ４３が予め用意されたプログラムを実行することにより実現される。図６と比較するとわかるように、第３実施例の物体検知装置３０による学習処理は、第１実施例の物体検知装置１０による学習処理に、ステップＳ３１～Ｓ３３を追加したものとなっている。

図１２において、ステップＳ１１～Ｓ１６は、第１実施例の学習処理と同様である。ステップＳ１６で、ロス算出部１７は、得られた平均値と正解ラベルとの差を照合し、ロスを算出してパラメータ修正部１６に出力する。一方、ステップＳ１１～Ｓ１６と並行して、ステップＳ３１～Ｓ３３が実行される。具体的には、まず、撮影環境情報が予測ロス算出部３２に入力される（ステップＳ３１）。次に、重み算出／環境予測部３１は、画像入力部１１から出力された画像データに基づいて、その画像データが撮影された環境を予測し、予測環境情報を生成して予測ロス算出部３２に出力する（ステップＳ３２）。予測ロス算出部３２は、ステップＳ３１で入力された撮影環境情報と、ステップＳ３２で入力された予測環境情報とに基づいて予測ロスを算出し、パラメータ修正部１６に出力する（ステップＳ３３）。そして、パラメータ修正部１６は、ロス算出部１７が算出したロスおよび予測ロス算出部３２が算出した予測ロスの値が減少するように、重み算出／環境予測部３１に内在するパラメータを修正する（ステップＳ１７）。物体検知装置３０は、上記のステップＳ１１～Ｓ１７およびＳ３１～３３を所定条件が具備されている間だけ繰返し、処理を終了する。

（推論のための機能構成）
次に、第３実施例に係る推論のための物体検知装置の構成について説明する。図１３は、第３実施例に係る推論のための物体検知装置３０ｘの機能構成を示すブロック図である。第３実施例の推論のための物体検知装置３０ｘは、図７に示す第１実施形態の推論のための物体検知装置１０ｘにおける重み算出部１２の代わりに、重み算出部３５を有する。これ以外の点では、第３実施例の推論のための物体検知装置３０ｘは、第１実施例の推論のための物体検知装置１０ｘと同一である。

推論時において、第３実施例の物体検知装置３０ｘは、基本的に図８に示す第１実施例の学習処理と同様の処理を実行する。但し、第３実施例では、重み算出部３５は、上述の学習のための物体検知装置３０により撮影環境情報を用いて学習した内部パラメータを用いて第１の物体検知部１３および第２の物体検知部１４に対する重みを算出し、積和部１５に入力する。この点以外では、第３実施例の物体検知装置３０ｘは、第１実施例の物体検知装置１０ｘと同様に動作する。よって、第３実施例の物体検知装置３０ｘは、第１実施例の物体検知装置１０ｘと同様に、図８に示すフローチャートに従って推論処理を行う。但し、ステップＳ２４において、重み算出部３５は、撮影環境情報を用いて学習した内部パラメータを用いて重みを算出する。

（変形例）
上述した第１実施例における変形例（１）～（５）は、第３実施例においても適用することができる。

＜第２実施形態＞
次に、第２実施形態について説明する。

（原理説明）
まず、第２実施形態における基本原理について説明する。第２実施形態では、第１実施形態に係る大規模モデルをベースとして、新たな現場向けの小規模モデル、即ち、ターゲットモデルを構築する。図１４は、大規模モデル１を用いてターゲットモデルを構築するための構成を示す。大規模モデル１は、ゲーティングネットワーク３の学習が完了したものとなっており、ここではターゲットモデル５の学習を行う。ターゲットモデル５には、学習データが入力される。なお、ターゲットモデル５は、学習済みモデル２と同一のモデルで構成する。ターゲットモデル５の学習では、教師データとして、予め用意された正解ラベルに加えて、大規模モデル１が出力する情報が使用される。具体的に、入力された学習データに基づいてターゲットモデル５が出力したクラス情報および座標情報は、その学習データについて予め用意されたクラスの正解値および座標の正解値と比較され、その誤差ａを最小化するようにターゲットモデル５の学習が行われる。これに加えて、ターゲットモデル５が出力したクラス情報および座標情報は、同じ学習データに基づいて大規模モデル１が出力したクラス情報および座標情報と比較され、その誤差ｂを最小化するようにターゲットモデル５の学習が行われる。但し、座標情報の誤差を計算するのは、正解ラベルにおいて物体が存在する位置のアンカーについてのみであり、物体が存在しない位置のアンカーについては座標情報の誤差は「０」とする。

図１５は、学習が完了した大規模モデルを用いて、ターゲットモデルを構築する処理の具体例を模式的に示す。図１５の例では、学習済みモデル２をＲｅｔｉｎａＮｅｔにより構成している。なお、図１５では、説明の便宜上、クラス情報のみを用いた学習を行うものとする。大規模モデル１は、各学習済みモデル２が出力したクラス情報７１と、ゲーティングネットワーク３が出力した重みとの重み付け和を計算し、クラス情報７６を出力する。一方、ターゲットモデル５は、学習データに基づいてクラス情報７４を出力する。ターゲットモデル５が出力したクラス情報７４と予め用意されたクラスの正解値７５との誤差ａ、および、ターゲットモデルが出力したクラス情報７４と大規模モデル１が出力したクラス情報７６との誤差ｂをロスとし、このロスを最小化するようにターゲットモデル５の学習が行われる。

このように、第２実施形態では、まず、さまざまな環境で学習済みの複数のソースモデルを融合して、環境変動に頑健な大規模モデルを構築する。そして、その大規模モデルの推論結果を教師データとし、新たな現場で収集した学習データを用いてターゲットモデルを学習する。これにより、新たな現場の環境に適した小規模で高精度なターゲットモデルを構築することが可能となる。

［ハードウェア構成］
第２実施形態における物体検出装置のハードウェア構成は、図４に示す第１実施形態の物体検出装置と同様である。

［第１実施例］
次に、第２実施形態の第１実施例について説明する。
（学習のための機能構成）
まず、学習のための物体検知装置の機能構成について説明する。図１６は、第１実施例に係る学習のための物体検知装置１００の機能構成を示すブロック図である。物体検知装置１００は、まず複数の物体検知部を含む大規模モデルを学習するステップ（以下、「大規模モデル学習ステップ」と呼ぶ。）を実行し、次に学習済みの大規模モデルを用いてターゲットモデルを学習するステップ（以下、「ターゲットモデル学習ステップ」と呼ぶ。）を実行する。

図示のように、物体検知装置１００は、大別して、大規模モデル部１２０と、ターゲットモデル部１３０とを備える。大規模モデル部１２０は、基本的に図５に示す第１実施形態の第１実施例の物体検知装置１０と同様の構成を有する。具体的に、大規模モデル部１２０は、画像入力部１１と、重み算出部１２と、第１の物体検知部１３と、第２の物体検知部１４と、積和部１５と、パラメータ修正部１６と、ロス算出部１７と、正解ラベル記憶部１８とを備える。大規模モデル部１２０は、第１実施形態の第１実施例の物体検知装置１０と同様に動作するので、重複した説明は行わない。

一方、ターゲットモデル部１３０は、ターゲットモデル物体検知部１３１と、ロス算出部１３２と、パラメータ修正部１３３とを備える。

ターゲットモデル物体検知部１３１は、新規に構築されるターゲットモデルの物体検知部である。ターゲットモデル物体検知部１３１は、第１の物体検知部１３および第２の物体検知部１４と同一の、物体検知用のニューラルネットワークに類似した構成を有する。ターゲットモデル物体検知部１３１は、画像入力部１１に入力された学習用の画像データに基づいて、認識対象物体のスコア情報および座標情報をロス算出部１３２に出力する。

ロス算出部１３２は、ターゲットモデル物体検知部１３１が出力したスコア情報および座標情報を、ロス算出部１７と同様に、正解ラベル記憶部１８に記憶されている正解ラベルと照合して識別ロスおよび回帰ロスを算出する。さらに、ロス算出部１３２は、ターゲットモデル物体検知部１３１が出力したスコア情報および座標情報を、積和部１５が出力するスコア情報および座標情報と照合して識別ロスおよび回帰ロスを算出する。積和部１５が出力するスコア情報および座標情報は、大規模モデル部１２０によるスコア情報および座標情報に相当する。そして、ロス算出部１３２は、算出したロスをパラメータ修正部１３３に供給する。

なお、学習用の画像データは、正解ラベルを有しない画像データ（「ラベルなし画像データ」と呼ぶ。）を含んでいてもよい。ラベルなし画像データについては、ロス算出部１３２は、ターゲットモデル物体検知部１３１が出力したスコア情報および座標情報を、積和部１５が出力するスコア情報および座標情報と照合して生成した識別ロスおよび回帰ロスのみをパラメータ修正部１３３に出力すればよい。以下、ロス算出部１３２が算出するロスを「ターゲットモデルロス」とも呼ぶ。なお、ロス算出部１３２は第２のロス算出部の一例であり、ターゲットモデルロスは第２のロスの一例である。

パラメータ修正部１３３は、ロス算出部１３２が算出したロスを減少させるように、ターゲットモデル物体検知部１３１に内在するネットワークのパラメータを修正する。パラメータ修正部１３３は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。なお、パラメータ修正部１３３は第２のパラメータ修正部の一例である。

次に、学習のための物体検知装置１００の動作について説明する。図１７は、物体検知装置１００による学習処理のフローチャートである。この処理は、図４に示すプロセッサ４３が予め用意されたプログラムを実行することにより実現される。図１７において、ステップＳ１１１～Ｓ１１８は大規模モデル学習ステップに相当し、ステップＳ１１９～Ｓ１２４はターゲットモデル学習ステップに相当する。なお、大規模モデル学習ステップの実行中には、ターゲットモデル物体検知部１３１、ロス算出部１３２およびパラメータ修正部１３３は動作しない。

まず、画像入力部１１に学習用の画像データが入力される（ステップＳ１１１）。第１の物体検知部１３は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１１２）。同様に、第２の物体検知部１４は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１１３）。重み算出部１２は、画像データと、第１の物体検知部１３および第２の物体検知部１４の出力とに基づいて、第１の物体検知部１３および第２の物体検知部１４の出力それぞれに対する重みを算出する（ステップＳ１１４）。

次に、積和部１５は、アンカー毎に、第１の物体検知部１３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体検知部１４が出力した認識対象物体のスコア情報と座標情報に、重み算出部１２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ１１５）。次に、ロス算出部１７は、得られた平均値と正解ラベルとの差を照合し、大規模モデルにおけるロス（以下、「大規模モデルロス」とも呼ぶ。）を算出する（ステップＳ１１６）。なお、大規模モデルロスは第３のロスの一例であり、ロス算出部１７は第３のロス算出部の一例であり、パラメータ修正部１６は第３のパラメータ修正部の一例である。そして、パラメータ修正部１６は、大規模モデルロスの値が減少するように、重み算出部１２に内在する重み算出パラメータを修正する（ステップＳ１１７）。

物体検知装置１００は、上記のステップＳ１１１～Ｓ１１７を所定の条件の間だけ繰返し、学習を終了する。なお、「所定の条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。こうして、大規模モデルが構築される。

こうして、大規模モデル学習ステップが終了すると（ステップＳ１１８：Ｙｅｓ）、次に、ターゲットモデル学習ステップが行われる。ターゲットモデル学習ステップでは、重み算出部１２の内部パラメータは、大規模モデル学習ステップで学習された値に固定される。なお、第１の物体検知部１３および第２の物体検知部１４の内部パラメータも事前に学習済みの値に固定されている。

画像入力部１１に学習用の画像データが入力されると（ステップＳ１１９）、大規模モデル部１２０は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部１３２に出力する（ステップＳ１２０）。また、ターゲットモデル物体検知部１３１は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部１３２に出力する（ステップＳ１２１）。次に、ロス算出部１３２は、ターゲットモデル物体検知部１３１が出力したスコア情報および座標情報を、正解ラベル記憶部１８に記憶されている正解ラベル並びに大規模モデル部１２０が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出する（ステップＳ１２２）。そして、パラメータ修正部１３３は、ターゲットモデルロスの値が減少するように、ターゲットモデル物体検知部１３１に内在するパラメータを修正する（ステップＳ１２３）。物体検知装置１００は、上記のステップＳ１１９～Ｓ１２４を所定の条件の間だけ繰返し、学習を終了する。

以上のように、第２実施形態の第１実施例の物体検知装置１００によれば、まず、複数の学習済みの物体検知部を用いて大規模モデルを学習し、次に、その大規模モデルを用いてターゲットモデルを学習する。よって、新たな現場の環境に適した小規模で高精度なターゲットモデルを構築することが可能となる。

（推論のための機能構成）
次に、推論のための物体検知装置の機能構成について説明する。図１８は、推論のための物体検知装置１４０の機能構成を示すブロック図である。なお、推論のための物体検知装置１４０も、基本的に図４に示すハードウェア構成で実現される。

図１８に示すように、推論のための物体検知装置１４０は、画像入力部１１と、ターゲットモデル物体検知部１３１と、極大値選択部１４１と、を備える。ここで、画像入力部１１およびターゲットモデル物体検知部１３１は、図１６に示す学習のための物体検知装置１００と同様である。なお、ターゲットモデル物体検知部１３１は、上記のターゲットモデル学習ステップにより学習済みのものを使用する。

推論のための画像データが画像入力部１１に入力されると、ターゲットモデル物体検知部１３１は、学習済みの内部パラメータを用いて物体検知を行い、認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する。極大値選択部１４１は、ターゲットモデル物体検知部１３１が出力するＮａ×ｋ次元のスコア情報にＮＭＳ処理を施して認識対象物体の種類を同定し、そのアンカーに対応する座標情報からその位置を特定して物体検知結果を出力する。物体検知結果は、認識対象物体毎に、その種類と位置とを含む。これにより、大規模モデルを利用して学習したターゲットモデル物体検知部１３１を使用した物体検知結果を得ることができる。

（変形例１）
上記の第２実施形態の第１実施例については、第１実施形態の変形例（１－１）～（１－６）を同様に適用することができる。また、第２実施形態の第１実施例については、以下の変形例（２－１）を適用することができる。

（２－１）第１実施例の重み算出部１２は画像全体に対して１通りの重みを設定しているが、その代わりに、重み算出部１２が画像のアンカー毎、即ち部分領域毎に、各物体検知部の出力に対する重みを算出することとしても良い。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、重み算出部１２が出力する倍率を示す情報の次元数はＮａ×Ｎｆ次元となる。重み算出部１２は、多次元の回帰問題に適用できるディープニューラルネットワークなどで構成することができる。また、重み算出部１２は、それぞれの物体検知部に対する近傍のアンカー同士ができるだけ近い重みを持つように、近傍のアンカーに対応する重みを平均化するような構造のネットワークを含んでもよい。

［第２実施例］
次に、第２実施形態の第２実施例について説明する。なお、以下に説明する学習のための物体検知装置１００ｘは、図４に示すハードウェア構成により実現される。第１実施例では、まず、大規模モデルを学習し、その後に大規模モデルを用いてターゲットモデルを学習している。これに対し、第２実施例では、大規模モデルの学習とターゲットモデルの学習を同時に行う。

（学習のための機能構成）
図１９は、第２実施例に係る学習のための物体検知装置１００ｘの機能構成を示すブロック図である。図示のように、第２実施例に係る学習のための物体検知装置１００ｘでは、ロス算出部１３２の出力がパラメータ修正部１６にも供給されている。この点以外は、第２実施例に係る学習のための物体検知装置１００ｘは、図１６に示す第１実施例の物体検知装置１００と同一であり、各要素は基本的に第１実施例と同様に動作する。

第２実施例では、ロス算出部１３２は、ターゲットモデルロスをパラメータ修正部１３３のみならず、パラメータ修正部１６にも供給する。パラメータ修正部１６は、ターゲットモデルロスも考慮して、重み算出部１２の重み算出パラメータを修正する。具体的には、パラメータ修正部１６は、大規模モデルロスおよびターゲットモデルロスが減少するように、重み算出パラメータを修正する。

次に、学習のための物体検知装置１００ｘの動作について説明する。図２０は、物体検知装置１００ｘによる学習処理のフローチャートである。この処理は、図４に示すプロセッサ４３が予め用意されたプログラムを実行することにより実現される。図２０に示す学習処理において、ステップＳ１４１～Ｓ１４６は、図１７に示す第１実施例の物体検知装置１０による学習処理のステップＳ１１１～Ｓ１１６と同様であるので説明を省略する。

ステップＳ１４６でロス算出部１７が大規模モデルロスを算出すると、ターゲットモデル物体検知部１３１は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１４７）。次に、ロス算出部１３２は、ターゲットモデル物体検知部１３１が出力したスコア情報および座標情報を、正解ラベル並びに大規模モデル部１２０が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出し、パラメータ修正部１６およびパラメータ修正部１３３に供給する（ステップＳ１４８）。

パラメータ修正部１６は、大規模モデルロスおよびターゲットモデルロスが減少するように、重み算出部１２の重み算出パラメータを修正する（ステップＳ１４９）。また、パラメータ修正部１３３は、ターゲットモデルロスが減少するように、ターゲットモデル物体検知部１３１に内在するパラメータを修正する（ステップＳ１５０）。物体検知装置１００ｘは、上記のステップＳ１４１～Ｓ１５０を所定の条件の間だけ繰返し、処理を終了する。

以上のように、第２実施形態の第２実施例の物体検知装置１００ｘによれば、大規模モデルの学習ステップと、ターゲットモデルの学習ステップを同時に実行することができる。よって、新たな現場の環境に適したターゲットモデルを効率的に構築することが可能となる。

（推論のための機能構成）
第２実施例に係る推論のための物体検知装置は、図１８に示す第１実施例に係る推論のための物体検知装置１４０と同一であり、同様に動作するので、説明を省略する。

（変形例）
第１実施形態における変形例（１－１）～（１－６）、および、第２実施形態における変形例（２－１）は、第２実施形態の第２実施例においても同様に適用することができる。

［第３実施例］
（原理説明）
次に、第２実施形態の第３実施例について説明する。図１４に示すように、第２実施形態の第１実施例および第２実施例では、ターゲットモデル５は、入力された画像データについてクラス情報および座標情報を出力する。そして、ターゲットモデル５が出力したクラス情報および座標情報と、予め用意されたクラスの正解値および座標の正解値との誤差ａ並びに同じ学習データに基づいて大規模モデルが出力したクラス情報および座標情報との誤差ｂを最小化するように、ターゲットモデル５の学習が行われる。

これに対し、第３実施例では、図２１に示すように、ターゲットモデル５は、入力された画像データに基づいて、クラス情報および座標情報に加えて、ゲーティングネットワーク３が出力する重みを推論して出力する。この重みは、演算部４が各学習済みモデル２の出力を融合する際に使用する重みである。図２１の例では、大規模モデル１は３つの学習済みモデル２を含むので、ターゲットモデル５は、３つの学習済みモデル２に対する重みをそれぞれ出力する。ターゲットモデル５が出力した各学習済みモデル２に対する重みは、ゲーティングネットワーク３が算出した各学習済みモデル２に対する重みと比較され、その誤差ｃが最小となるようにターゲットモデル５の学習が行われる。第３実施例によれば、大規模モデル１が出力するクラス情報および座標情報に加えて、大規模モデル１内のゲーティングネットワーク３が生成する重みも用いてターゲットモデル５を学習するので、大規模モデル１の特性がターゲットモデル５により適切に反映されることが期待できる。

（学習のための機能構成）
第３実施例の手法は、第１実施例および第２実施例のいずれにも適用することができる。第３実施例の手法を第１実施例に適用した場合、第３実施例による物体検知装置の学習のための構成は、基本的に図１６に示す第１実施例の物体検知装置１００と同様となる。但し、大規模モデル部１２０の積和部１５は、重み算出部１２が算出した第１の物体検知部１３および第２の物体検知部１４に対する重み、即ち、物体検知部ごとの重みを、ターゲットモデル部１３０のロス算出部１３２に出力する。また、ターゲットモデル部１３０のターゲットモデル物体検知部１３１は、学習データとして入力される画像データに基づいて、クラス情報と座標情報に加え、第１の物体検知部１３および第２の物体検知部１４に対する重みを算出してロス算出部１３２へ出力する。ロス算出部１３２は、積和部１５から入力された物体検知部ごとの重みと、ターゲットモデル物体検知部１３１から入力された物体検知部ごとの重みの誤差の合計（前述の誤差ｃに相当する。以下、「重みロス」とも呼ぶ。）を算出し、ターゲットモデルロスに含めてパラメータ修正部１３３へ出力する。パラメータ修正部１３３は、重みロスを含むターゲットモデルロスを最小化するようにターゲットモデル物体検知部１３１のパラメータを修正する。なお、重みロスは第４のロスの一例である。

このように、第１実施例に対して第３実施例の手法を適用した場合、学習処理は図１７に示す第１実施例の学習処理と同様に行われる。但し、図１７のステップＳ１２１においてターゲットモデル物体検知部１３１は物体検知部ごとの重みを算出する。また、ステップＳ１２２においてロス算出部１３２は重みロスを含むターゲットモデルロスを算出する。

一方、第３実施例の手法を第２実施例に適用した場合、第３実施例による物体検知装置の学習のための構成は、基本的に図１９に示す第２実施例の物体検知装置１００ｘと同様となる。但し、第２実施例の物体検知装置１００ｘでは、ロス算出部１３２は、重みロスを含むターゲットモデルロスをパラメータ修正部１６にも出力するので、パラメータ修正部１６は、重みロスを含むターゲットロスも用いて重み算出部１２の重み算出パラメータを修正することになる。

このように、第２実施例に対して第３実施例の手法を適用した場合、学習処理は図２０に示す第２実施例の学習処理と同様に行われる。但し、図２０のステップＳ１４７においてターゲットモデル物体検知部１３１は物体検知部ごとの重みを算出し、ステップＳ１４８においてロス算出部１３２は重みロスを含むターゲットモデルロスを算出する。そして、ステップＳ１４９においてパラメータ修正部１６は重みロスを含むターゲットモデルロスを用いて重み算出部１２のパラメータを修正し、ステップＳ１５０においてパラメータ修正部１３３は重みロスを含むターゲットモデルロスを用いてターゲットモデル物体検知部１３１のパラメータを修正する。

（推論のための機能構成）
第３実施例に係る推論のための物体検知装置は、図１８に示す第１実施例に係る推論のための物体検知装置１４０と同一であり、同様に動作するので、説明を省略する。

（変形例）
第１実施形態における変形例（１－１）～（１－６）、および、第２実施形態における変形例（２－１）は、第２実施形態の第３実施例においても同様に適用することができる。

［第３実施形態］
次に、第３実施形態について説明する。図２２は、第３実施形態に係る物体検知装置８０の機能構成を示すブロック図である。なお、物体検知装置８０は、図４に示すハードウェア構成により実現される。

物体検知装置８０は、複数の物体検知部８１と、重み算出部８２と、融合部８３と、第１のロス算出部８４と、第１のパラメータ修正部８５とを備える。複数の物体検知部８１は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部８２は、画像データおよび複数の物体検知部８１の出力に基づいて、複数の物体検知部８１が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、複数の物体検知部８１の各々について算出する。融合部８３は、重み算出部８２が算出した重みで、複数の物体検知部８１が出力するスコアを部分領域毎に融合する。第１のロス算出部８４は、画像データの正解ラベルと、融合部８３が融合したスコアとの差異を第１のロスとして算出する。そして、第１のパラメータ修正部８５は、重み算出パラメータを、第１のロスが減少するように修正する。

図２３は、第３実施形態に係る物体検知装置８０による処理のフローチャートである。まず、複数の物体検知部８１は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する（ステップＳ２０１）。重み算出部８２は、画像データおよび複数の物体検知部８１の出力に基づいて、複数の物体検知部８１が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、複数の物体検知部８１の各々について算出する（ステップＳ２０２）。融合部８３は、重み算出部８２が算出した重みで、複数の物体検知部８１が出力するスコアを部分領域毎に融合する（ステップＳ２０３）。第１のロス算出部８４は、画像データの正解ラベルと、融合部８３が融合したスコアとの差異を第１のロスとして算出する（ステップＳ２０４）。そして、第１のパラメータ修正部８５は、重み算出パラメータを、第１のロスが減少するように修正する（ステップＳ２０５）。このように、第３実施形態によれば、複数の物体検知部８１の出力を適切に融合する大規模モデルを作成することができる。

［第４実施形態］
次に、第４実施形態について説明する。図２４は、第４実施形態に係る物体検知装置９０の機能構成を示すブロック図である。なお、物体検知装置９０は、図４に示すハードウェア構成により実現される。

物体検知装置９０は、複数の物体検知部９１と、重み算出部９２と、融合部９３と、ターゲットモデルの物体検知部９４と、第２のロス算出部９５と、第２のパラメータ修正部９６とを備える。複数の物体検知部９１は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部９２は、画像データおよび複数の物体検知部９１の出力に基づいて、複数の物体検知部９１が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する。融合部９３は、重み算出部９２が算出した重みで、複数の物体検知部９１が出力するスコアを部分領域毎に融合する。ターゲットモデルの物体検知部９４は、画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。第２のロス算出部９５は、ターゲットモデルの物体検知部９４の出力と、画像データの正解ラベルおよび融合部９３が融合したスコアとの差異を示す第２のロスを算出する。第２のパラメータ修正部９６は、第２のロスが減少するように、ターゲットモデルの物体検知部９４のパラメータを修正する。

図２５は、第４実施形態に係る物体検知装置９０による処理のフローチャートである。まず、複数の物体検知部９１は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する（ステップＳ２１１）。重み算出部９２は、画像データおよび複数の物体検知部９１の出力に基づいて、複数の物体検知部９１が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する（ステップＳ２１２）。融合部９３は、重み算出部９２が算出した重みで、複数の物体検知部９１が出力するスコアを部分領域毎に融合する（ステップＳ２１３）。ターゲットモデルの物体検知部９４は、画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する（ステップＳ２１４）。第２のロス算出部９５は、ターゲットモデルの物体検知部９４の出力と、画像データの正解ラベルおよび融合部９３が融合したスコアとの差異を示す第２のロスを算出する（ステップＳ２１５）。そして、第２のパラメータ修正部９６は、第２のロスが減少するように、ターゲットモデルの物体検知部９４のパラメータを修正する（ステップＳ２１６）。このように、第４実施形態によれば、複数の物体検知部９１の出力を適切に融合する大規模モデルを用いて、ターゲットモデルの物体検知部９１を学習することができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出する重み算出部と、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
前記画像データの正解ラベルと、前記融合部が融合したスコアとの差異を第１のロスとして算出する第１のロス算出部と、
前記重み算出パラメータを、前記第１のロスが減少するように修正する第１のパラメータ修正部と、
を備える物体検知装置。

（付記２）
前記重み算出部は、前記画像データの全体に対して１つの重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記１つの重みで融合する付記１に記載の物体検知装置。

（付記３）
前記重み算出部は、前記画像データの前記部分領域毎に前記重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する付記１に記載の物体検知装置。

（付記４）
前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記１乃至３のいずれか一項に記載の物体検知装置。

（付記５）
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第１のロスとして算出し、
前記重み算出パラメータを、前記第１のロスが減少するように修正する学習済みモデル生成方法。

（付記６）
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第１のロスとして算出し、
前記重み算出パラメータを、前記第１のロスが減少するように修正する処理をコンピュータに実行させるプログラムを記録した記録媒体。

（付記７）
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出部と、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知部と、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第２のロスを算出する第２のロス算出部と、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第２のパラメータ修正部と、
を備える物体検知装置。

（付記８）
前記正解ラベルと、前記融合部が融合したスコアとの差異を示す第３のロスを算出する第３のロス算出部と、
前記第３のロスが減少するように、前記重み算出パラメータを修正する第３のパラメータ修正部と、
を備える付記７に記載の物体検知装置。

（付記９）
前記第３のパラメータ修正部は、前記第２のロスおよび前記第３のロスに基づいて、前記重み算出パラメータを修正する付記８に記載の物体検知装置。

（付記１０）
前記ターゲットモデルの物体検知部は、前記画像データに基づいて、前記重み算出部が出力する重みを推定し、
前記第２のロス算出部は、前記重み算出部が出力した重みと、前記ターゲットモデルの物体検知部が推定した重みとの差異を示す第４のロスを算出し、
前記第２のパラメータ修正部は、前記第２のロスおよび前記第４のロスが減少するように前記ターゲットモデルの物体検知部のパラメータを修正する付記７乃至９のいずれか一項に記載の物体検知装置。

（付記１１）
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第２のロスを算出し、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する学習済みモデル生成方法。

（付記１２）
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第２のロスを算出し、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する処理をコンピュータに実行させるプログラムを記録した記録媒体。

以上、実施形態および実施例を参照して本発明を説明したが、本発明は上記実施形態および実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１大規模モデル
２学習済みモデル
３ゲーティングネットワーク
４演算部
５ターゲットモデル
１０、１０ｘ、２０、２０ｘ、３０、３０ｘ、１００、１００ｘ物体検知装置
１１画像入力部
１２重み算出部
１３、１４物体検知部
１５積和部
１６、１３３パラメータ修正部
１７、１３２ロス算出部
１８正解ラベル記憶部
１９、１４１極大値選択部
１２０大規模モデル部
１３０ターゲットモデル部
１３１ターゲットモデル物体検知部

Claims

入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データの正解ラベルと、前記融合手段が融合したスコアとの差異を第１のロスとして算出する第１のロス算出手段と、
前記重み算出パラメータを、前記第１のロスが減少するように修正する第１のパラメータ修正手段と、
を備える物体検知装置。
前記融合手段は、前記複数の物体検知手段が出力するスコアに、前記重み算出手段が算出したそれぞれの物体検知手段についての重みを乗じて加算した後、平均値を求める請求項１に記載の物体検知装置。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第１のロスとして算出し、
前記重み算出パラメータを、前記第１のロスが減少するように修正する学習済みモデル生成方法。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第１のロスとして算出し、
前記重み算出パラメータを、前記第１のロスが減少するように修正する処理をコンピュータに実行させるプログラム。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知手段と、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび前記融合手段が融合したスコアとの差異を示す第２のロスを算出する第２のロス算出手段と、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する第２のパラメータ修正手段と、
を備える物体検知装置。
前記正解ラベルと、前記融合手段が融合したスコアとの差異を示す第３のロスを算出する第３のロス算出手段と、
前記第３のロスが減少するように、前記重み算出パラメータを修正する第３のパラメータ修正手段と、
を備える請求項５に記載の物体検知装置。
前記第３のパラメータ修正手段は、前記第２のロスおよび前記第３のロスに基づいて、前記重み算出パラメータを修正する請求項６に記載の物体検知装置。
前記ターゲットモデルの物体検知手段は、前記画像データに基づいて、前記重み算出手段が出力する重みを推定し、
前記第２のロス算出手段は、前記重み算出手段が出力した重みと、前記ターゲットモデルの物体検知手段が推定した重みとの差異を示す第４のロスを算出し、
前記第２のパラメータ修正手段は、前記第２のロスおよび前記第４のロスが減少するように前記ターゲットモデルの物体検知手段のパラメータを修正する請求項５に記載の物体検知装置。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第２のロスを算出し、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する学習済みモデル生成方法。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第２のロスを算出し、
前記第２のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する処理をコンピュータに実行させるプログラム。