JP7380902B2 - 物体検知装置、学習済みモデル生成方法、及び、プログラム - Google Patents
物体検知装置、学習済みモデル生成方法、及び、プログラム Download PDFInfo
- Publication number
- JP7380902B2 JP7380902B2 JP2022551504A JP2022551504A JP7380902B2 JP 7380902 B2 JP7380902 B2 JP 7380902B2 JP 2022551504 A JP2022551504 A JP 2022551504A JP 2022551504 A JP2022551504 A JP 2022551504A JP 7380902 B2 JP7380902 B2 JP 7380902B2
- Authority
- JP
- Japan
- Prior art keywords
- object detection
- loss
- detection means
- image data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 508
- 238000000034 method Methods 0.000 title claims description 70
- 238000004364 calculation method Methods 0.000 claims description 255
- 238000012986 modification Methods 0.000 claims description 55
- 230000004048 modification Effects 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 41
- 230000004927 fusion Effects 0.000 claims description 31
- 238000012937 correction Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000004580 weight loss Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 230000007423 decrease Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Description
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データの正解ラベルと、前記融合手段が融合したスコアとの差異を第1のロスとして算出する第1のロス算出手段と、
前記重み算出パラメータを、前記第1のロスが減少するように修正する第1のパラメータ修正手段と、を備える。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第1のロスとして算出し、
前記重み算出パラメータを、前記第1のロスが減少するように修正する。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第1のロスとして算出し、
前記重み算出パラメータを、前記第1のロスが減少するように修正する処理をコンピュータに実行させる。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知手段と、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第2のロスを算出する第2のロス算出手段と、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第2のパラメータ修正手段と、を備える。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第2のロスを算出し、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第2のロスを算出し、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する処理をコンピュータに実行させる。
[原理説明]
まず、第1実施形態における基本原理について説明する。一般的に、映像監視向けAI(Artificial Intelligence)モデルを現場にデプロイする際、その認識精度不足により、現場毎にモデルの再構築(現場での画像の収集、正解付け、学習など)のためのシステムインテグレーション作業が必要となることが多い。本実施形態では、システムインテグレーションのコストを低減するために、まず、さまざまな現場環境で学習済みのソースモデルを収集し、融合することにより、環境変動に頑健な大規模モデルを構築する。
図4は、第1実施形態の物体検知装置のハードウェア構成を示すブロック図である。物体検知装置10は、上記の大規模モデル1に相当する。図示のように、物体検知装置10は、インタフェース(IF)42と、プロセッサ43と、メモリ44と、記録媒体45と、データベース(DB)46と、を備える。
次に、第1実施形態の第1実施例に係る物体検知装置について説明する。
(学習のための機能構成)
まず、第1実施例に係る物体検知装置10の学習のための機能構成について説明する。図5は、学習のための物体検知装置10の機能構成を示すブロック図である。なお、図5は、複数の物体検知部からの出力に対する最適な融合割合を学習する学習ステップを実行するための構成を示す。図示のように、物体検知装置10は、画像入力部11と、重み算出部12と、第1の物体検知部13と、第2の物体検知部14と、積和部15と、パラメータ修正部16と、ロス算出部17と、正解ラベル記憶部18とを備える。画像入力部11は、図4に示すインタフェース42により実現される。重み算出部12、第1の物体検知部13、第2の物体検知部14、積和部15、パラメータ修正部16、および、ロス算出部17は、図4に示すプロセッサ43により実現される。正解ラベル記憶部18は図4に示すデータベース46により実現される。
“Learning Efficient Object Detection Models with Knowledge Distillation”,NeurIPS2017
次に、推論のための物体検知装置の機能構成について説明する。図7は、第1実施例に係る推論のための物体検知装置10xの機能構成を示すブロック図である。なお、推論のための物体検知装置10xも、基本的に図4に示すハードウェア構成で実現される。
上記の第1実施例に対しては、以下の変形例を適用することができる。
(1-1)上記の第1実施例では、各物体検知部が出力するスコア情報および座標情報を用いて学習を行っているが、座標情報は用いず、スコア情報のみを用いて学習を行うこととしてもよい。
次に、第1実施形態の第2実施例について説明する。なお、以下に説明する学習のための物体検知装置20および推論のための物体検知装置20xは、いずれも図4に示すハードウェア構成により実現される。
図9は、第2実施例に係る学習のための物体検知装置20の機能構成を示すブロック図である。図示のように、学習のための物体検知装置20は、図2に示す物体検知装置10における重み算出部12およびパラメータ修正部16の代わりに、アンカー毎重み算出部21およびアンカー毎パラメータ修正部22を有する。これ以外は、第2実施例の物体検知装置20は、第1実施例の物体検知装置10と同一である。即ち、画像入力部11、第1の物体検知部13、第2の物体検知部14、積和部15、ロス算出部17および正解ラベル記憶部18は、第1実施例の物体検知装置10とそれぞれ同一であり、基本的に第1実施例と同様に動作する。
次に、第2実施例に係る推論のための物体検知装置の構成について説明する。図10は、第2実施例に係る推論のための物体検知装置20xの機能構成を示すブロック図である。第2実施形態の推論のための物体検知装置20xは、図7に示す第1実施例の推論のための物体検知装置10xにおける重み算出部12の代わりに、アンカー毎重み算出部21を有する。これ以外の点では、第2実施例の推論のための物体検知装置20xは、第1実施例の推論のための物体検知装置10xと同一である。よって、第2実施例では、アンカー毎重み算出部21がアンカー毎に重みを算出し、第1の物体検知部13および第2の物体検知部14に出力する。
第1実施例における変形例(1-1)~(1-5)は、第2実施例においても適用することができる。さらに、第2実施例では、以下の変形例(1-6)を適用することができる。
次に、第1実施形態の第3実施例について説明する。第3実施例は、画像データの撮影環境情報を用いて、各物体検知部に対する重み付けを行うものである。なお、以下に説明する学習のための物体検知装置30および推論のための物体検知装置30xは、いずれも図4に示すハードウェア構成により実現される。
図11は、第3実施例に係る学習のための物体検知装置30の機能構成を示すブロック図である。図示のように、学習のための物体検知装置30は、図5に示す第1実施例の物体検知装置10における重み算出部12の代わりに重み算出/環境予測部31を備え、さらに予測ロス算出部32を追加した構成を有する。これ以外は、第3実施例の物体検知装置30は、第1実施例の物体検知装置10と同一である。即ち、画像入力部11、第1の物体検知部13、第2の物体検知部14、積和部15、ロス算出部17および正解ラベル記憶部18は、第1実施例の物体検知装置10とそれぞれ同一であり、基本的に第1実施例と同様に動作する。
次に、第3実施例に係る推論のための物体検知装置の構成について説明する。図13は、第3実施例に係る推論のための物体検知装置30xの機能構成を示すブロック図である。第3実施例の推論のための物体検知装置30xは、図7に示す第1実施形態の推論のための物体検知装置10xにおける重み算出部12の代わりに、重み算出部35を有する。これ以外の点では、第3実施例の推論のための物体検知装置30xは、第1実施例の推論のための物体検知装置10xと同一である。
上述した第1実施例における変形例(1)~(5)は、第3実施例においても適用することができる。
次に、第2実施形態について説明する。
まず、第2実施形態における基本原理について説明する。第2実施形態では、第1実施形態に係る大規模モデルをベースとして、新たな現場向けの小規模モデル、即ち、ターゲットモデルを構築する。図14は、大規模モデル1を用いてターゲットモデルを構築するための構成を示す。大規模モデル1は、ゲーティングネットワーク3の学習が完了したものとなっており、ここではターゲットモデル5の学習を行う。ターゲットモデル5には、学習データが入力される。なお、ターゲットモデル5は、学習済みモデル2と同一のモデルで構成する。ターゲットモデル5の学習では、教師データとして、予め用意された正解ラベルに加えて、大規模モデル1が出力する情報が使用される。具体的に、入力された学習データに基づいてターゲットモデル5が出力したクラス情報および座標情報は、その学習データについて予め用意されたクラスの正解値および座標の正解値と比較され、その誤差aを最小化するようにターゲットモデル5の学習が行われる。これに加えて、ターゲットモデル5が出力したクラス情報および座標情報は、同じ学習データに基づいて大規模モデル1が出力したクラス情報および座標情報と比較され、その誤差bを最小化するようにターゲットモデル5の学習が行われる。但し、座標情報の誤差を計算するのは、正解ラベルにおいて物体が存在する位置のアンカーについてのみであり、物体が存在しない位置のアンカーについては座標情報の誤差は「0」とする。
第2実施形態における物体検出装置のハードウェア構成は、図4に示す第1実施形態の物体検出装置と同様である。
次に、第2実施形態の第1実施例について説明する。
(学習のための機能構成)
まず、学習のための物体検知装置の機能構成について説明する。図16は、第1実施例に係る学習のための物体検知装置100の機能構成を示すブロック図である。物体検知装置100は、まず複数の物体検知部を含む大規模モデルを学習するステップ(以下、「大規模モデル学習ステップ」と呼ぶ。)を実行し、次に学習済みの大規模モデルを用いてターゲットモデルを学習するステップ(以下、「ターゲットモデル学習ステップ」と呼ぶ。)を実行する。
次に、推論のための物体検知装置の機能構成について説明する。図18は、推論のための物体検知装置140の機能構成を示すブロック図である。なお、推論のための物体検知装置140も、基本的に図4に示すハードウェア構成で実現される。
上記の第2実施形態の第1実施例については、第1実施形態の変形例(1-1)~(1-6)を同様に適用することができる。また、第2実施形態の第1実施例については、以下の変形例(2-1)を適用することができる。
次に、第2実施形態の第2実施例について説明する。なお、以下に説明する学習のための物体検知装置100xは、図4に示すハードウェア構成により実現される。第1実施例では、まず、大規模モデルを学習し、その後に大規模モデルを用いてターゲットモデルを学習している。これに対し、第2実施例では、大規模モデルの学習とターゲットモデルの学習を同時に行う。
図19は、第2実施例に係る学習のための物体検知装置100xの機能構成を示すブロック図である。図示のように、第2実施例に係る学習のための物体検知装置100xでは、ロス算出部132の出力がパラメータ修正部16にも供給されている。この点以外は、第2実施例に係る学習のための物体検知装置100xは、図16に示す第1実施例の物体検知装置100と同一であり、各要素は基本的に第1実施例と同様に動作する。
第2実施例に係る推論のための物体検知装置は、図18に示す第1実施例に係る推論のための物体検知装置140と同一であり、同様に動作するので、説明を省略する。
第1実施形態における変形例(1-1)~(1-6)、および、第2実施形態における変形例(2-1)は、第2実施形態の第2実施例においても同様に適用することができる。
(原理説明)
次に、第2実施形態の第3実施例について説明する。図14に示すように、第2実施形態の第1実施例および第2実施例では、ターゲットモデル5は、入力された画像データについてクラス情報および座標情報を出力する。そして、ターゲットモデル5が出力したクラス情報および座標情報と、予め用意されたクラスの正解値および座標の正解値との誤差a並びに同じ学習データに基づいて大規模モデルが出力したクラス情報および座標情報との誤差bを最小化するように、ターゲットモデル5の学習が行われる。
第3実施例の手法は、第1実施例および第2実施例のいずれにも適用することができる。第3実施例の手法を第1実施例に適用した場合、第3実施例による物体検知装置の学習のための構成は、基本的に図16に示す第1実施例の物体検知装置100と同様となる。但し、大規模モデル部120の積和部15は、重み算出部12が算出した第1の物体検知部13および第2の物体検知部14に対する重み、即ち、物体検知部ごとの重みを、ターゲットモデル部130のロス算出部132に出力する。また、ターゲットモデル部130のターゲットモデル物体検知部131は、学習データとして入力される画像データに基づいて、クラス情報と座標情報に加え、第1の物体検知部13および第2の物体検知部14に対する重みを算出してロス算出部132へ出力する。ロス算出部132は、積和部15から入力された物体検知部ごとの重みと、ターゲットモデル物体検知部131から入力された物体検知部ごとの重みの誤差の合計(前述の誤差cに相当する。以下、「重みロス」とも呼ぶ。)を算出し、ターゲットモデルロスに含めてパラメータ修正部133へ出力する。パラメータ修正部133は、重みロスを含むターゲットモデルロスを最小化するようにターゲットモデル物体検知部131のパラメータを修正する。なお、重みロスは第4のロスの一例である。
第3実施例に係る推論のための物体検知装置は、図18に示す第1実施例に係る推論のための物体検知装置140と同一であり、同様に動作するので、説明を省略する。
第1実施形態における変形例(1-1)~(1-6)、および、第2実施形態における変形例(2-1)は、第2実施形態の第3実施例においても同様に適用することができる。
次に、第3実施形態について説明する。図22は、第3実施形態に係る物体検知装置80の機能構成を示すブロック図である。なお、物体検知装置80は、図4に示すハードウェア構成により実現される。
次に、第4実施形態について説明する。図24は、第4実施形態に係る物体検知装置90の機能構成を示すブロック図である。なお、物体検知装置90は、図4に示すハードウェア構成により実現される。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出する重み算出部と、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
前記画像データの正解ラベルと、前記融合部が融合したスコアとの差異を第1のロスとして算出する第1のロス算出部と、
前記重み算出パラメータを、前記第1のロスが減少するように修正する第1のパラメータ修正部と、
を備える物体検知装置。
前記重み算出部は、前記画像データの全体に対して1つの重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記1つの重みで融合する付記1に記載の物体検知装置。
前記重み算出部は、前記画像データの前記部分領域毎に前記重みを算出し、
前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する付記1に記載の物体検知装置。
前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記1乃至3のいずれか一項に記載の物体検知装置。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第1のロスとして算出し、
前記重み算出パラメータを、前記第1のロスが減少するように修正する学習済みモデル生成方法。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第1のロスとして算出し、
前記重み算出パラメータを、前記第1のロスが減少するように修正する処理をコンピュータに実行させるプログラムを記録した記録媒体。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出部と、
前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知部と、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第2のロスを算出する第2のロス算出部と、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第2のパラメータ修正部と、
を備える物体検知装置。
前記正解ラベルと、前記融合部が融合したスコアとの差異を示す第3のロスを算出する第3のロス算出部と、
前記第3のロスが減少するように、前記重み算出パラメータを修正する第3のパラメータ修正部と、
を備える付記7に記載の物体検知装置。
前記第3のパラメータ修正部は、前記第2のロスおよび前記第3のロスに基づいて、前記重み算出パラメータを修正する付記8に記載の物体検知装置。
前記ターゲットモデルの物体検知部は、前記画像データに基づいて、前記重み算出部が出力する重みを推定し、
前記第2のロス算出部は、前記重み算出部が出力した重みと、前記ターゲットモデルの物体検知部が推定した重みとの差異を示す第4のロスを算出し、
前記第2のパラメータ修正部は、前記第2のロスおよび前記第4のロスが減少するように前記ターゲットモデルの物体検知部のパラメータを修正する付記7乃至9のいずれか一項に記載の物体検知装置。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第2のロスを算出し、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する学習済みモデル生成方法。
入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
前記画像データおよび前記複数の物体検知部の出力に基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第2のロスを算出し、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する処理をコンピュータに実行させるプログラムを記録した記録媒体。
2 学習済みモデル
3 ゲーティングネットワーク
4 演算部
5 ターゲットモデル
10、10x、20、20x、30、30x、100、100x 物体検知装置
11 画像入力部
12 重み算出部
13、14 物体検知部
15 積和部
16、133 パラメータ修正部
17、132 ロス算出部
18 正解ラベル記憶部
19、141 極大値選択部
120 大規模モデル部
130 ターゲットモデル部
131 ターゲットモデル物体検知部
Claims (10)
- 入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データの正解ラベルと、前記融合手段が融合したスコアとの差異を第1のロスとして算出する第1のロス算出手段と、
前記重み算出パラメータを、前記第1のロスが減少するように修正する第1のパラメータ修正手段と、
を備える物体検知装置。 - 前記融合手段は、前記複数の物体検知手段が出力するスコアに、前記重み算出手段が算出したそれぞれの物体検知手段についての重みを乗じて加算した後、平均値を求める請求項1に記載の物体検知装置。
- 入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第1のロスとして算出し、
前記重み算出パラメータを、前記第1のロスが減少するように修正する学習済みモデル生成方法。 - 入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知手段の各々について算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データの正解ラベルと、融合したスコアとの差異を第1のロスとして算出し、
前記重み算出パラメータを、前記第1のロスが減少するように修正する処理をコンピュータに実行させるプログラム。 - 入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知手段と、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出手段と、
前記重み算出手段が算出した重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合する融合手段と、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知手段と、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび前記融合手段が融合したスコアとの差異を示す第2のロスを算出する第2のロス算出手段と、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する第2のパラメータ修正手段と、
を備える物体検知装置。 - 前記正解ラベルと、前記融合手段が融合したスコアとの差異を示す第3のロスを算出する第3のロス算出手段と、
前記第3のロスが減少するように、前記重み算出パラメータを修正する第3のパラメータ修正手段と、
を備える請求項5に記載の物体検知装置。 - 前記第3のパラメータ修正手段は、前記第2のロスおよび前記第3のロスに基づいて、前記重み算出パラメータを修正する請求項6に記載の物体検知装置。
- 前記ターゲットモデルの物体検知手段は、前記画像データに基づいて、前記重み算出手段が出力する重みを推定し、
前記第2のロス算出手段は、前記重み算出手段が出力した重みと、前記ターゲットモデルの物体検知手段が推定した重みとの差異を示す第4のロスを算出し、
前記第2のパラメータ修正手段は、前記第2のロスおよび前記第4のロスが減少するように前記ターゲットモデルの物体検知手段のパラメータを修正する請求項5に記載の物体検知装置。 - 入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第2のロスを算出し、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する学習済みモデル生成方法。 - 入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知手段から出力し、
前記画像データおよび前記複数の物体検知手段の出力に基づいて、前記複数の物体検知手段が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
算出された重みで、前記複数の物体検知手段が出力するスコアを前記部分領域毎に融合し、
前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知手段から出力し、
前記ターゲットモデルの物体検知手段の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第2のロスを算出し、
前記第2のロスが減少するように、前記ターゲットモデルの物体検知手段のパラメータを修正する処理をコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/036087 WO2022064610A1 (ja) | 2020-09-24 | 2020-09-24 | 物体検知装置、学習済みモデル生成方法、および、記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022064610A1 JPWO2022064610A1 (ja) | 2022-03-31 |
JPWO2022064610A5 JPWO2022064610A5 (ja) | 2023-06-06 |
JP7380902B2 true JP7380902B2 (ja) | 2023-11-15 |
Family
ID=80844778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022551504A Active JP7380902B2 (ja) | 2020-09-24 | 2020-09-24 | 物体検知装置、学習済みモデル生成方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230334837A1 (ja) |
JP (1) | JP7380902B2 (ja) |
WO (1) | WO2022064610A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7164049B2 (ja) * | 2019-07-11 | 2022-11-01 | 日本電気株式会社 | 物体検知装置、学習方法、及び、プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014197342A (ja) | 2013-03-29 | 2014-10-16 | 日本電気株式会社 | 物体位置検出装置、物体位置検出方法、及びプログラム |
JP2019061579A (ja) | 2017-09-27 | 2019-04-18 | 富士フイルム株式会社 | 学習支援装置、学習支援装置の作動方法、学習支援プログラム、学習支援システム、および端末装置 |
JP2019079445A (ja) | 2017-10-27 | 2019-05-23 | ホーチキ株式会社 | 火災監視システム |
JP2019215755A (ja) | 2018-06-13 | 2019-12-19 | 株式会社デンソーテン | 画像認識装置、画像認識方法、機械学習モデル提供装置、機械学習モデル提供方法、機械学習モデル生成方法、および機械学習モデル装置 |
-
2020
- 2020-09-24 US US18/026,631 patent/US20230334837A1/en active Pending
- 2020-09-24 JP JP2022551504A patent/JP7380902B2/ja active Active
- 2020-09-24 WO PCT/JP2020/036087 patent/WO2022064610A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014197342A (ja) | 2013-03-29 | 2014-10-16 | 日本電気株式会社 | 物体位置検出装置、物体位置検出方法、及びプログラム |
JP2019061579A (ja) | 2017-09-27 | 2019-04-18 | 富士フイルム株式会社 | 学習支援装置、学習支援装置の作動方法、学習支援プログラム、学習支援システム、および端末装置 |
JP2019079445A (ja) | 2017-10-27 | 2019-05-23 | ホーチキ株式会社 | 火災監視システム |
JP2019215755A (ja) | 2018-06-13 | 2019-12-19 | 株式会社デンソーテン | 画像認識装置、画像認識方法、機械学習モデル提供装置、機械学習モデル提供方法、機械学習モデル生成方法、および機械学習モデル装置 |
Also Published As
Publication number | Publication date |
---|---|
US20230334837A1 (en) | 2023-10-19 |
JPWO2022064610A1 (ja) | 2022-03-31 |
WO2022064610A1 (ja) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489420B (zh) | 一种公路交通状态预测方法、系统、终端以及存储介质 | |
JP7438365B2 (ja) | 学習活用システム、活用装置、学習装置、プログラム及び学習活用方法 | |
CN112052818A (zh) | 无监督域适应的行人检测方法、系统及存储介质 | |
CN113688797A (zh) | 一种基于骨架提取的异常行为识别方法及系统 | |
CN113052103A (zh) | 一种基于神经网络的电气设备缺陷检测方法及装置 | |
CN111000492A (zh) | 基于知识图谱的智能扫地机行为决策方法及智能扫地机 | |
JP7380902B2 (ja) | 物体検知装置、学習済みモデル生成方法、及び、プログラム | |
CN115457081A (zh) | 一种基于图神经网络的分层融合式预测方法 | |
CN116704504A (zh) | 一种基于解耦动态卷积核的雷达全景分割方法 | |
CN115035599A (zh) | 一种融合装备与行为特征的武装人员识别方法和系统 | |
CN117808214A (zh) | 水利工程数据分析系统 | |
CN117315499A (zh) | 一种卫星遥感图像目标检测方法及系统 | |
JP7235134B2 (ja) | 物体検知装置、学習方法、及び、プログラム | |
Mirakhorlo et al. | Integration of SimWeight and Markov Chain to Predict Land Use of Lavasanat Basin | |
JP7164048B2 (ja) | 物体検知装置、学習方法、及び、プログラム | |
WO2021005776A1 (ja) | 物体検知装置、学習方法、及び、記録媒体 | |
Banerjee et al. | Post cyclone damage assessment using CNN based transfer learning and Grad-CAM | |
CN116861175B (zh) | 一种基于神经网络的运行轨迹校正方法 | |
Xie | Deep Learning in Earthquake Engineering: A Comprehensive Review | |
US20240087189A1 (en) | Methods and systems for generating graph representations of a scene | |
CN116630804A (zh) | 一种基于改进的detr河面漂流物检测方法、装置及相关组件 | |
Attaoui et al. | Search-based DNN Testing and Retraining with GAN-enhanced Simulations | |
KR20230065125A (ko) | 기계 학습 모델의 트레이닝 방법 및 전자 장치 | |
CN116484911A (zh) | 适用于图神经网络分布外泛化的分布鲁棒优化方法及系统 | |
CN118072278A (zh) | 对象检测方法、对象检测设备以及其非暂时性存储媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230315 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231016 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7380902 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |