JP7298776B2 - 物体認識装置、物体認識方法、及び、プログラム - Google Patents

物体認識装置、物体認識方法、及び、プログラム Download PDF

Info

Publication number
JP7298776B2
JP7298776B2 JP2022510252A JP2022510252A JP7298776B2 JP 7298776 B2 JP7298776 B2 JP 7298776B2 JP 2022510252 A JP2022510252 A JP 2022510252A JP 2022510252 A JP2022510252 A JP 2022510252A JP 7298776 B2 JP7298776 B2 JP 7298776B2
Authority
JP
Japan
Prior art keywords
recognition
model
unit
recognition model
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022510252A
Other languages
English (en)
Other versions
JPWO2021192133A1 (ja
JPWO2021192133A5 (ja
Inventor
哲夫 井下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021192133A1 publication Critical patent/JPWO2021192133A1/ja
Publication of JPWO2021192133A5 publication Critical patent/JPWO2021192133A5/ja
Application granted granted Critical
Publication of JP7298776B2 publication Critical patent/JP7298776B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像に含まれる物体を認識する技術に関する。
入力画像から、予め決められたクラスの物体を認識する認識器が知られている。認識対象として新たなクラスの物体を追加した場合や、運用中に特定の物体についての誤認識や未認識(検知漏れ)(以下、「認識エラー」と呼ぶ。)が多く発生した場合などには、認識エラーが発生した画像を用いて認識器を再学習し、各環境に適合させた認識器にチューニングすることが行われている。
また、異なる環境に応じて認識精度を向上させる方法も各種提案されている。例えば、特許文献1には、文字の書かれている環境に応じた認識処理を行うパターン認識装置が記載されている。このパターン認識装置では、入力画像から抽出された処理対象の状態に応じて、複数登録されている認識器の中のいずれか1つ又は複数を呼び出して認識処理を行わせる。
特開2007-058882号公報
物体認識において、認識エラーが発生した画像を用いて基礎となる認識器を再学習すると、認識エラーが発生していた物体の認識精度は向上する。しかし、再学習により認識器を構成するモデルのパラメータが更新されるため、それ以前に正しく認識できていた物体の認識精度が低下してしまうことがある。
本発明の1つの目的は、他の物体の認識精度に影響を与えることなく、認識エラーが発生した物体の認識精度を向上させることが可能な物体認識装置を提供することにある。
上記の課題を解決するため、本発明の一つの観点では、物体認識装置は、
学習済みの第1の認識モデルを用いて、入力画像中の物体を認識する第1の認識手段と、
前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識する第2の認識手段と、
前記入力画像に基づいて、前記第1の認識手段及び前記第2の認識手段に対する重みを算出する重み付け手段と、
前記重みを用いて、前記第1の認識手段の認識結果と、前記第2の認識手段の認識結果を融合する融合手段と、を備える。
本発明の他の観点では、物体認識方法は、
学習済みの第1の認識モデルを用いて、入力画像中の物体を認識し、
前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識し、
前記入力画像に基づいて、前記第1の認識手段及び前記第2の認識手段に対する重みを算出し、
前記重みを用いて、前記第1の認識手段の認識結果と、前記第2の認識手段の認識結果を融合する。
本発明のさらに他の観点では、プログラムは、
学習済みの第1の認識モデルを用いて、入力画像中の物体を認識し、
前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識し、
前記入力画像に基づいて、前記第1の認識手段及び前記第2の認識手段に対する重みを算出し、
前記重みを用いて、前記第1の認識手段の認識結果と、前記第2の認識手段の認識結果を融合する処理をコンピュータに実行させる。
本発明によれば、他の物体の認識精度に影響を与えることなく、エラーが発生した物体の認識精度を向上させることが可能となる。
物体認識装置のハードウェア構成を示すブロック図である。 既存モデルと苦手対策モデルの生成方法を模式的に示す。 第1実施形態の物体認識装置の基本原理を示す。 学習時の物体認識装置の機能構成を示すブロック図である。 アンカーボックスの概念を説明する図である。 物体認識装置の学習時の動作を模式的に示す。 物体認識装置による学習処理のフローチャートである。 推論時の物体認識装置の機能構成を示すブロック図である。 物体認識装置による推論処理のフローチャートである。 第2実施形態に係る物体認識装置の機能構成を示すブロック図である。
<第1実施形態>
次に、本発明の第1実施形態について説明する。
[ハードウェア構成]
図1は、物体認識装置のハードウェア構成を示すブロック図である。図示のように、物体認識装置10は、インタフェース(IF)2と、プロセッサ3と、メモリ4と、記録媒体5と、データベース(DB)6と、を備える。
インタフェース2は、外部装置との通信を行う。具体的に、インタフェース2は、物体認識の対象となる画像データや学習用の画像データを外部から入力したり、物体認識の結果を外部装置へ出力する際に使用される。
プロセッサ3は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置10の全体を制御する。メモリ4は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ4は、プロセッサ3により実行される各種のプログラムを記憶する。また、メモリ4は、プロセッサ3による各種の処理の実行中に作業メモリとしても使用される。
記録媒体5は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置10に対して着脱可能に構成される。記録媒体5は、プロセッサ3が実行する各種のプログラムを記録している。物体認識装置10が学習処理を実行する際には、記録媒体5に記録されているプログラムがメモリ4にロードされ、プロセッサ3により実行される。
データベース6は、物体認識装置10の学習処理において使用される、学習用の画像データを記憶する。学習用の画像データは、正解ラベルを含む。なお、上記に加えて、物体認識装置10は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。
[基本原理]
次に、本実施形態の物体認識装置の基本原理について説明する。ある物体認識モデル(以下、「既存モデル」と呼ぶ。)を用いた物体認識装置の運用中に、特定の物体についての認識エラーが多く発生した場合、通常は、認識エラーが発生した画像を用いて既存モデルを再学習する。しかし、再学習は、既存モデルのパラメータの更新を伴うため、認識エラーが発生した物体の認識精度は改善するが、逆にそれまで高精度で認識できていた物体の認識精度が低下してしまうことがある。そこで、本実施形態では、既存モデルとは別に、認識エラーが発生した画像で学習したエラー対策モデル(以下、「苦手対策モデル」と呼ぶ。)を生成し、既存モデルと苦手対策モデルを併用する。
図2は、既存モデルと苦手対策モデルの生成方法を模式的に示す。図2(A)に示すように、まず、既存モデルの学習用データを用いて既存モデルが学習される。また、既存モデルによって認識エラーが発生した物体の画像データを、苦手対策モデルの学習用データとして使用し、図2(B)に示すように、既存認識モデルをさらに学習して苦手対策モデルを生成する。これにより、苦手対策モデルは、苦手物体、即ち、既存モデルで認識エラーが発生する物体を高精度で認識できるように学習される。なお、図2(B)の例では、既存モデルを基にして苦手対策モデルを作成しているが、既存モデル以外のモデルを基にして苦手対策モデルを生成してもよい。
図3は、第1実施形態の物体認識装置の基本原理を示す。上記のようにして生成された既存モデルと苦手対策モデルに対して、学習用データが入力される。学習用データは、画像データであり、既存モデルの学習用データと、苦手対策モデルの学習用データを含む。既存モデルと苦手対策モデルは、それぞれ入力された学習用データに対する認識結果を出力する。学習用データは、重み付け部にも入力される。重み付け部は、入力された学習用データから物体の特徴量を抽出し、抽出した特徴量に基づいて、既存モデルの認識結果と苦手対策モデルの認識結果に対する重みを決定する。
そして、融合部は、重み付け部が決定した重みに基づいて、既存モデルの認識結果と苦手対策モデルの認識結果を融合した認識結果(以下、「融合認識結果」と呼ぶ。)を生成する。融合認識結果は、予め用意された正解ラベルと比較され、その誤差(損失)のバックプロパゲーションにより重み付け部が更新される。こうして、重み付け部の学習が行われる。
この方法では、既存モデルはそのまま使用され、既存モデルのパラメータは更新されないので、既存モデルが正しく認識していた物体は引き続き正しく認識される。また、既存モデルが苦手としていた物体は、苦手対策モデルにより高精度で認識される。よって、既存モデルの認識精度に影響を与えることなく、既存モデルが苦手とする物体も高精度で認識することが可能となる。
[学習時の構成]
次に、物体認識装置10の学習時の機能構成について説明する。図4は、学習時の物体認識装置10xの機能構成を示すブロック図である。図示のように、物体認識装置10xは、画像入力部11と、重み付け部12と、第1の認識部13と、第2の認識部14と、融合部15と、パラメータ修正部16と、損失算出部17と、正解ラベル記憶部18とを備える。画像入力部11は、図1に示すインタフェース2により実現される、重み付け部12、第1の認識部13、第2の認識部14、融合部15、パラメータ修正部16、及び、損失算出部17は、図1に示すプロセッサ3により実現される。正解ラベル記憶部18は図1に示すデータベース6により実現される。
学習時においては、物体認識装置10xは、重み付け部12が内部に有する重み算出のためのパラメータ(以下、「重み算出パラメータ」と呼ぶ。)を最適化する。第1の認識部13は既存モデルを用いる物体認識部であり、第2の認識部14は苦手対策モデルを用いる物体認識部である。なお、第1の認識部13及び第2の認識部14は、事前に学習済みであり、ここではそれらの学習は行われない。
画像入力部11には、学習用の画像データが入力される。前述のように、各画像データに対しては、その画像に含まれる物体を示す正解ラベルが予め用意されている。画像入力部11は、入力された画像データを、重み付け部12、第1の認識部13、及び、第2の認識部14に出力する。
第1の認識部13は、例えばSSD(Single Shot Multibox Detector)、RetinaNet、Faster-RCNN(Regional Convolutional Neural Network)などのディープラーニングによる物体認識用のニューラルネットワークに類似する構成を有する。但し、第1の認識部13は、NMS(Non Maximum Suppression)処理を行って、検知した物体とそのスコア及び座標情報をリスト形式などで出力する処理までは行わず、NMS処理前のアンカーボックス毎に算出された認識対象物体のスコア情報及び座標情報をそのまま出力する。ここでは、認識対象物体の有無を検証する、すべての部分領域のことを「アンカーボックス」と呼ぶ。
図5は、アンカーボックスの概念を説明する図である。図示のように、CNNの畳み込みにより得られた特徴マップ上に、スライディングウィンドウが設定される。図5の例では、1つのスライディングウィンドウに対してk通りの大きさの異なるアンカーボックスが設定され、各アンカーボックスに対して認識対象物体の有無が検証される。即ち、各アンカーボックスは、すべてのスライディングウィンドウに対してk通りずつ設定される部分領域を指す。なお、アンカーボックスの数はニューラルネットワークの構造やサイズに依存する。
図4に戻り、第2の認識部14は、第1の認識部13と同様のモデル構造を有するが、前述のように苦手対策モデルを用いるものである。即ち、第2の認識部14は、苦手対策モデルの学習用データを用いて学習されており、内部に所持するネットワークのパラメータや認識特性は第1の認識部13とは異なる。
重み付け部12は、ResNet(Residual Network:残差ネットワーク)などの回帰問題に適用可能なディープニューラルネットワークなどによって構成される。重み付け部12は、画像入力部11に入力された画像データに対して、第1の認識部13と第2の認識部14が出力するスコア情報及び座標情報を融合する際の重みを決定し、それぞれの重みを融合部15へ出力する。
融合部15は、第1の認識部13及び第2の認識部14が出力するスコア情報及び座標情報を、それぞれ対応するアンカーボックス同士で、重み付け部12が出力する重みに基づき融合する。図6は、物体認識装置10の学習時の動作を模式的に示す。重み付け部12は、第1の認識部13に対する重みwと、第2の認識部14に対する重みwを生成する。重みw、wは、それぞれアンカーボックス数の次元を有するベクトルである。融合部15は、第1の認識部13の認識結果に重みwを乗算し、第2の認識部14の認識結果に重みwを乗算し、それらを加算した後、平均して融合認識結果を生成する。
正解ラベル記憶部18は、学習用データに対する正解ラベルを記憶している。具体的に、正解ラベル記憶部18は、正解ラベルとして、各アンカーボックスに存在する認識対象物体のクラス情報及び座標情報をアンカー毎に配列状に記憶する。正解ラベル記憶部18は、認識対象物体が存在しないアンカーに対応する記憶エリアには、認識対象物体が存在しない旨を示すクラス情報及び座標情報を記憶する。
損失算出部17は、図6に示すように、融合部15が出力する融合認識結果、即ち、スコア情報及び座標情報と、正解ラベル記憶部18に記憶されている正解ラベルとを照合して損失(ロス)の値を算出する。具体的には、損失算出部17は、スコア情報に関する識別ロス、及び、座標情報に関する回帰ロス(Regression loss)を算出する。損失算出部17は、すべてのアンカーボックスに対するスコア情報の差分を累積して識別ロスを算出する。また、回帰ロスについては、損失算出部17は、いずれかの物体が存在するアンカーに対してのみ座標情報の差分を累積し、いずれの物体も存在しないアンカーに対しては座標情報の差分を考慮しない。
なお、識別ロスと回帰ロスを用いたディープニューラルネットワークの学習については以下の文献に記載されており、これを参考文献としてここに取り込む。
”Learning Efficient Object Detection Models with Knowledge Distillation”,NeurIPS2017
パラメータ修正部16は、損失算出部17が算出した損失を減少させるように、重み付け部12に内在するネットワークのパラメータを修正する。この時、パラメータ修正部16は、第1の認識部13及び第2の認識部14のネットワークのパラメータを固定し、重み付け部12のパラメータのみを修正する。パラメータ修正部16は、パラメータの修正量を通常の誤差逆伝搬法(バックプロパゲーション)により求めることができる。こうして重み付け部12のパラメータを学習することで、第1の認識部13及び第2の認識部14の出力を最適に融合する物体認識装置を構築することができる。
[学習処理]
次に、物体認識装置10xによる学習処理について説明する。図7は、物体認識装置10xによる学習処理のフローチャートである。この処理は、図1に示すプロセッサ3が予め用意されたプログラムを実行することにより実現される。
まず、画像入力部11に学習用の画像データが入力される(ステップS11)。第1の認識部13は、既存モデルを用いて物体認識を行い、画像データ中の認識対象物体のスコア情報と座標情報をアンカーボックス毎かつ認識対象物体毎に出力する(ステップS12)。同様に、第2の認識部14は、苦手対策モデルを用いて物体認識を行い、画像データ中の認識対象物体のスコア情報と座標情報をアンカーボックス毎かつ認識対象物体毎に出力する(ステップS13)。また、重み付け部12は、画像データを読み込み、第1の認識部13及び第2の認識部14の出力それぞれに対する重みを算出する(ステップS14)。
次に、融合部15は、第1の認識部13が出力した認識対象物体のスコア情報と座標情報、並びに、第2の認識部14が出力した認識対象物体のスコア情報と座標情報に、重み付け部12が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する(ステップS15)。次に、損失算出部17は、得られた平均値と正解ラベルとの差を照合し、損失を算出する(ステップS16)。そして、パラメータ修正部16は、損失の値が減少するように、重み付け部12に内在する重み算出パラメータを修正する(ステップS17)。
次に、物体認識装置10は、所定の終了条件が具備されたか否かを判定する(ステップS18)。「終了条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。物体認識装置10は、終了条件が具備されるまで、上記のステップS11~S17を繰返し、終了条件が具備されたら処理を終了する。
[推論時の構成]
次に、物体認識装置の推論時の構成について説明する。図8は、推論時の物体認識装置10yの機能構成を示すブロック図である。なお、推論時の物体認識装置10yも、基本的に図1に示すハードウェア構成で実現される。
図8に示すように、推論時の物体認識装置10yは、画像入力部11と、重み付け部12と、第1の認識部13と、第2の認識部14と、融合部15と、極大値選択部19と、を備える。ここで、画像入力部11、重み付け部12、第1の認識部13、第2の認識部14、及び、融合部15は、図4に示す学習時の物体認識装置10xと同様である。重み付け部12としては、上記の学習処理により学習されたものを使用する。
極大値選択部19は、融合部15が出力するスコア情報にNMS処理を施して認識対象物体の種類を同定し、そのアンカーボックスに対応する座標情報からその位置を特定して物体認識結果を出力する。物体認識結果は、認識対象物体毎に、その種類と位置とを含む。これにより、既存モデルにより認識結果と、苦手対策モデルによる認識結果を最適に融合して物体認識結果を得ることができる。
[推論処理]
次に、物体認識装置10yによる推論処理について説明する。図9は、物体認識装置10xによる推論処理のフローチャートである。この処理は、図1に示すプロセッサ3が予め用意されたプログラムを実行することにより実現される。
まず、画像入力部11に認識の対象となる画像データが入力される(ステップS21)。第1の認識部13は、既存モデルを用いて物体認識を行い、画像データ中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する(ステップS22)。同様に、第2の認識部14は、苦手対策モデルを用いて物体認識を行い、画像データ中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する(ステップS23)。また、重み付け部12は、画像データを読み込み、第1の認識部13及び第2の認識部14の出力それぞれに対する重みを算出する(ステップS24)。
次に、融合部15は、第1の認識部13が出力した認識対象物体のスコア情報と座標情報、並びに、第2の認識部14が出力した認識対象物体のスコア情報と座標情報に、重み付け部12が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する(ステップS25)。最後に、極大値選択部19は、平均値に対してNMS処理を施し、認識対象物体の種類とその位置を物体認識結果として出力する(ステップS26)。
[実施形態の効果]
本実施形態の物体認識装置による認識精度を従来手法による認識精度と比較した。従来手法としては、上記の既存モデルを、苦手対策モデルの学習用データでファインチューニングする方法(「従来手法1」とする)と、苦手対策モデルの学習用データを使用し、EWC(Elastic Weight Consolidation)の手法により、重要なパラメータを更新せずに既存モデルを再学習する方法(「従来手法2」とする。)を用いた。既存モデルにより認識エラーを生じる物体を「苦手物体」と呼ぶことすると、従来手法1では、苦手物体の認識精度は上昇したが、苦手物体以外の認識精度が低下した。従来手法2でも、苦手物体の認識精度は上昇したが、従来手法1ほどではないものの、苦手物体以外の認識精度が低下した。一方、本実施形態の手法では、苦手物体の認識精度を上昇させるとともに、苦手物体外の認識精度の低下も従来手法1及び従来手法2よりも低く抑えることができた。
[変形例]
上記の第1実施形態に対しては、以下の変形例を適用することができる。
(変形例1)
既存モデルが認識エラーを生じる苦手物体が複数ある場合には、以下のいずれかの方法を用いることができる。第1の方法では、それら複数の苦手物体を高精度で認識できる1つの苦手対策モデルを生成し、第1実施形態と同様に、既存モデルと苦手対策モデルの2つのモデルを使用して物体認識を行う。一方、第2の方法では、苦手物体毎に苦手対策モデルを生成し、それらを既存モデルと並列に使用する。例えば、2つの苦手物体A、Bがある場合、物体A用の苦手対策モデルと、物体B用の苦手対策モデルを個別に生成し、それらと既存モデルとを含む3つのモデルを使用して物体認識を行う。
(変形例2)
上記の第1実施形態では、物体認識装置は画像に含まれる物体を検知するタスクを行っている。その代わりに、物体認識装置は画像全体が何かを分類するタスクを行うこととしてもよい。その場合、物体認識装置は、各認識部が出力するスコア情報のみを用いて学習を行えばよい。また、その場合の認識エラーは誤認識のみになり、苦手対策モデルは、既存モデルが誤認識した画像を学習する。
<第2実施形態>
次に、本発明の第2実施形態について説明する。図10は、第2実施形態に係る物体認識装置50の機能構成を示すブロック図である。なお、物体認識装置50は、図1に示すハードウェア構成により実現される。
物体認識装置50は、第1の認識手段51と、第2の認識手段52と、重み付け手段53と、融合手段54と、を備える。第1の認識手段51は、学習済みの第1の認識モデルを用いて、入力画像中の物体を認識する。第2の認識手段52は、第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、入力画像中の物体を認識する。重み付け手段53は、入力画像に基づいて、第1の認識手段51及び第2の認識手段52に対する重みを算出する。融合手段54は、重みを用いて、第1の認識手段51の認識結果と、第2の認識手段52の認識結果を融合する。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
学習済みの第1の認識モデルを用いて、入力画像中の物体を認識する第1の認識手段と、
前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識する第2の認識手段と、
前記入力画像に基づいて、前記第1の認識手段及び前記第2の認識手段に対する重みを算出する重み付け手段と、
前記重みを用いて、前記第1の認識手段の認識結果と、前記第2の認識手段の認識結果を融合する融合手段と、
を備える物体認識装置。
(付記2)
前記第2の認識モデルは、前記第1の認識モデルによる認識精度が他の物体よりも低い特定の物体を、前記第1の認識モデルよりも高い精度で認識するように学習されたモデルである付記1に記載の物体認識装置。
(付記3)
前記第2の認識モデルは、前記第1の認識モデルが認識エラーを生じた物体の画像を用いて学習されたモデルである付記1又は2に記載の物体認識装置。
(付記4)
前記第2の認識モデルは、前記第1の認識モデルが認識エラーを生じた物体の画像を用いて、前記第1の認識モデルを学習して生成されたモデルである付記1又は2に記載の物体認識装置。
(付記5)
前記第2の認識モデルは、前記第1の認識モデルが認識エラーを生じた物体について、前記第1の認識モデルを過学習させたモデルである付記1又は2に記載の物体認識装置。
(付記6)
前記第1の認識手段及び前記第2の認識手段は、前記入力画像に対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを前記認識結果として出力し、
前記重み付け手段は、前記入力画像の複数の部分領域毎に前記第1の認識手段及び前記第2の認識手段に対する重みを算出し、
前記融合手段は、前記重み付け手段が算出した重みで、前記第1の認識手段及び前記第2の認識手段が出力するスコアを前記部分領域毎に融合する付記1乃至5のいずれか一項に記載の物体認識装置。
(付記7)
前記融合手段は、前記第1の認識手段及び前記第2の認識手段が出力するスコアに、前記重み付け手段が算出したそれぞれの認識手段についての重みを乗じて加算した後、平均値を求める付記6に記載の物体認識装置。
(付記8)
学習済みの第1の認識モデルを用いて、入力画像中の物体を認識し、
前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識し、
前記入力画像に基づいて、前記第1の認識モデル及び前記第2の認識モデルに対する重みを算出し、
前記重みを用いて、前記第1の認識モデルの認識結果と、前記第2の認識モデルの認識結果を融合する物体認識方法。
(付記9)
学習済みの第1の認識モデルを用いて、入力画像中の物体を認識し、
前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識し、
前記入力画像に基づいて、前記第1の認識モデル及び前記第2の認識モデルに対する重みを算出し、
前記重みを用いて、前記第1の認識モデルの認識結果と、前記第2の認識モデルの認識結果を融合する処理をコンピュータに実行させるプログラムを記録した記録媒体。
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10、10x、10y、50 物体認識装置
11 画像入力部
12 重み付け部
13 第1の認識部
14 第2の認識部
15 融合部
16 パラメータ修正部
17 損失算出部
18 正解ラベル記憶部
19 極大値選択部
51 第1の認識手段
52 第2の認識手段
53 重み付け手段
54 融合手段

Claims (9)

  1. 学習済みの第1の認識モデルを用いて、入力画像中の物体を認識する第1の認識手段と、
    前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識する第2の認識手段と、
    前記入力画像に基づいて、前記第1の認識手段及び前記第2の認識手段に対する重みを算出する重み付け手段と、
    前記重みを用いて、前記第1の認識手段の認識結果と、前記第2の認識手段の認識結果を融合する融合手段と、
    を備える物体認識装置。
  2. 前記第2の認識モデルは、前記第1の認識モデルによる認識精度が他の物体よりも低い特定の物体を、前記第1の認識モデルよりも高い精度で認識するように学習されたモデルである請求項1に記載の物体認識装置。
  3. 前記第2の認識モデルは、前記第1の認識モデルが認識エラーを生じた物体の画像を用いて学習されたモデルである請求項1又は2に記載の物体認識装置。
  4. 前記第2の認識モデルは、前記第1の認識モデルが認識エラーを生じた物体の画像を用いて、前記第1の認識モデルを学習して生成されたモデルである請求項1又は2に記載の物体認識装置。
  5. 前記第2の認識モデルは、前記第1の認識モデルが認識エラーを生じた物体について、前記第1の認識モデルを過学習させたモデルである請求項1又は2に記載の物体認識装置。
  6. 前記第1の認識手段及び前記第2の認識手段は、前記入力画像に対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを前記認識結果として出力し、
    前記重み付け手段は、前記入力画像の複数の部分領域毎に前記第1の認識手段及び前記第2の認識手段に対する重みを算出し、
    前記融合手段は、前記重み付け手段が算出した重みで、前記第1の認識手段及び前記第2の認識手段が出力するスコアを前記部分領域毎に融合する請求項1乃至5のいずれか一項に記載の物体認識装置。
  7. 前記融合手段は、前記第1の認識手段及び前記第2の認識手段が出力するスコアに、前記重み付け手段が算出したそれぞれの認識手段についての重みを乗じて加算した後、平均値を求める請求項6に記載の物体認識装置。
  8. 学習済みの第1の認識モデルを用いて、入力画像中の物体を認識し、
    前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識し、
    前記入力画像に基づいて、前記第1の認識モデル及び前記第2の認識モデルに対する重みを算出し、
    前記重みを用いて、前記第1の認識手段の認識モデルと、前記第2の認識モデルの認識結果を融合する物体認識方法。
  9. 学習済みの第1の認識モデルを用いて、入力画像中の物体を認識し、
    前記第1の認識モデルによる認識精度が低い物体を認識するように学習された第2の認識モデルを用いて、前記入力画像中の物体を認識し、
    前記入力画像に基づいて、前記第1の認識モデル及び前記第2の認識モデルに対する重みを算出し、
    前記重みを用いて、前記第1の認識手段の認識モデルと、前記第2の認識モデルの認識結果を融合する処理をコンピュータに実行させるプログラム。
JP2022510252A 2020-03-26 2020-03-26 物体認識装置、物体認識方法、及び、プログラム Active JP7298776B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/013582 WO2021192133A1 (ja) 2020-03-26 2020-03-26 物体認識装置、物体認識方法、及び、記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021192133A1 JPWO2021192133A1 (ja) 2021-09-30
JPWO2021192133A5 JPWO2021192133A5 (ja) 2022-11-22
JP7298776B2 true JP7298776B2 (ja) 2023-06-27

Family

ID=77891658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022510252A Active JP7298776B2 (ja) 2020-03-26 2020-03-26 物体認識装置、物体認識方法、及び、プログラム

Country Status (2)

Country Link
JP (1) JP7298776B2 (ja)
WO (1) WO2021192133A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003117A (ja) 2008-06-20 2010-01-07 Toyota Central R&D Labs Inc 対象物判定装置及びプログラム
WO2010050334A1 (ja) 2008-10-30 2010-05-06 コニカミノルタエムジー株式会社 情報処理装置
JP2019215755A (ja) 2018-06-13 2019-12-19 株式会社デンソーテン 画像認識装置、画像認識方法、機械学習モデル提供装置、機械学習モデル提供方法、機械学習モデル生成方法、および機械学習モデル装置
JP2020008899A (ja) 2018-07-02 2020-01-16 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2020017229A (ja) 2018-07-27 2020-01-30 国立大学法人 東京大学 画像処理装置、画像処理方法及び画像処理プログラム
JP2020024534A (ja) 2018-08-07 2020-02-13 日本放送協会 画像分類装置及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003117A (ja) 2008-06-20 2010-01-07 Toyota Central R&D Labs Inc 対象物判定装置及びプログラム
WO2010050334A1 (ja) 2008-10-30 2010-05-06 コニカミノルタエムジー株式会社 情報処理装置
JP2019215755A (ja) 2018-06-13 2019-12-19 株式会社デンソーテン 画像認識装置、画像認識方法、機械学習モデル提供装置、機械学習モデル提供方法、機械学習モデル生成方法、および機械学習モデル装置
JP2020008899A (ja) 2018-07-02 2020-01-16 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2020017229A (ja) 2018-07-27 2020-01-30 国立大学法人 東京大学 画像処理装置、画像処理方法及び画像処理プログラム
JP2020024534A (ja) 2018-08-07 2020-02-13 日本放送協会 画像分類装置及びプログラム

Also Published As

Publication number Publication date
JPWO2021192133A1 (ja) 2021-09-30
WO2021192133A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
JP6781415B2 (ja) ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
JP6889279B2 (ja) デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法
JP2020061066A (ja) 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
US20210166679A1 (en) Self-training data selection apparatus, estimation model learning apparatus, self-training data selection method, estimation model learning method, and program
JP7353198B2 (ja) 計算機、識別器の学習方法、および分析システム
US20230059265A1 (en) Computer-readable recording medium storing machine learning program, method of machine learning, and machine learning apparatus
JP6258560B2 (ja) ニューラルネットワークの学習装置及び学習方法
US20240005171A1 (en) Relearning system and relearning method
US20230186118A1 (en) Computer-readable recording medium storing accuracy estimation program, device, and method
US10915799B2 (en) Image processing apparatus and image recognition apparatus
JP7298776B2 (ja) 物体認識装置、物体認識方法、及び、プログラム
JP2020052935A (ja) 学習済みモデルを生成する方法、データを分類する方法、コンピュータおよびプログラム
JP2014174693A (ja) パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法
JP7348945B2 (ja) 情報処理方法、および、情報処理システム
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법
JP4997524B2 (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
KR102393951B1 (ko) 객체 중심 데이터 증강 방법
JP7364047B2 (ja) 学習装置、学習方法、及びプログラム
JP7235134B2 (ja) 物体検知装置、学習方法、及び、プログラム
CN114428720A (zh) 基于p-k的软件缺陷预测方法、装置、电子设备及介质
US20220277552A1 (en) Object sensing device, learning method, and recording medium
KR20220009662A (ko) 신경망 모델 학습 방법 및 이를 제공하는 장치
JP2023130961A (ja) 判定プログラム、装置、及び方法
JP7164049B2 (ja) 物体検知装置、学習方法、及び、プログラム
JP2023132304A (ja) 情報処理プログラム、装置、及び方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220916

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R151 Written notification of patent or utility model registration

Ref document number: 7298776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151