JP2021189595A

JP2021189595A - 画像認識装置、学習装置、画像認識方法、学習方法、画像認識プログラムおよび学習プログラム

Info

Publication number: JP2021189595A
Application number: JP2020092317A
Authority: JP
Inventors: 文彬佐藤; Fumiaki Sato
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-12-13

Abstract

【課題】撮影条件の如何に関わらず、機械学習モデルを用いて精度よく画像を認識することができるように閾値を設定する画像認識装置、学習装置、画像認識方法、学習方法、画像認識プログラムおよび学習プログラムを提供する。【解決手段】画像認識システムは、畳み込み型ニューラルネットワークである特徴抽出部に画像データを入力して画像の特徴量を抽出させ、当該特徴量を用いてデコード部にバウンディングボックスの情報とクラス情報とを出力させ、ＮＭＳ部にバウンディングボックスを取捨選択させる。これと並行して、ＧＡＰ部に画像得データの特徴量の平均値を算出させ、当該平均値を用いてＦＣ層にバウンディングボックスの確信度の閾値を予測させる。確信度閾値処理部は、ＢＢ毎に確信度と閾値とを比較して、バウンディングボックスを取捨選択する。【選択図】図４

Description

本開示は、画像認識装置、学習装置、画像認識方法、学習方法、画像認識プログラムおよび学習プログラムに関し、特に、認識対象となる画像の撮影条件が変動しても、機械学習モデルを用いて精度よく画像を認識する技術に関する。

近年、セキュリティ監視における不審者の発見や、マーケティング解析における消費者の行動分析などを目的として、監視カメラで撮影した画像に含まれている人物や物体といったオブジェクトを検出する画像認識技術に対する需要が高まっている。このような技術として、機械学習モデルが注目されており、特に畳み込み型ニューラルネットワーク（CNN: Convolutional Neural Network）が有望視されている。

畳み込み型ニューラルネットワークを用いて画像認識を行う場合、例えば、学習データとして画像データを入力し、当該画像データに検出したいオブジェクトが含まれている場合には、当該オブジェクトに該当するラベルを指示する教師データを用いて機械学習を行う。このようにすれば、畳み込み型ニューラルネットワークに所望の画像データを入力することによって、ラベル毎に、画像データに含まれているオブジェクトが当該ラベルに該当する尤度を出力させることができる。

画像データに含まれているオブジェクトがどのラベルにも該当しない場合や、画像データに何もオブジェクトが含まれていない場合もあり得ることから、どのラベルに該当するオブジェクトが画像データに含まれているかを決定する際には、閾値が用いられる。すなわち、ラベル毎に尤度と閾値とを比較して、尤度が閾値を超えているラベルを正解ラベルとし、正解ラベルに該当するオブジェクトが画像データに含まれていると判定する。

正解ラベルを特定するために用いる閾値を、例えば、人手で試行錯誤しながら調整するのは、作業者の負担が多く、また、その割には十分な精度を得ることが難しい。

このような問題に対して、例えば、学習データについて、正解ラベルの尤度の度数分布と、不正解ラベルの度数分布とを求め、これらの２つの度数分布から正解ラベルと不正解ラベルとを区別するための尤度の閾値を特定する装置が提案されている（例えば、特許文献１を参照）。この装置によれば、正解ラベルを特定するために適切な閾値を、人手を煩わせることなく、自動的に特定することができる。

特開２０１８−１５１８４３号公報特開２００４−３４８６７４号公報

画像データにおけるオブジェクトの撮像状態は必ずしも一定せず、時間や季節、気象条件などといった撮影条件に左右され易い。このため、学習データについては正解ラベルを特定するのに適切な閾値であっても、画像データの撮影条件によっては必ずしも適切ではなくなって、正解ラベルを精度よく特定することができなくなることも珍しくない。

撮影条件のうち、例えば、明度については、画像データ全体の平均明度と、適切な閾値との関係を予め機械学習しておき、当該機械学習を行った機械学習モデルに、画像認識の対象となる画像データを入力して、適切な閾値を算出する技術が提案されている（例えば、特許文献２を参照）。また、画像データの平均明度に代えて、撮像時に照度センサーを用いて検出した背景照度を用いてもよい。

このようにすれば、画像データの撮影時の明度が変化しても、適切な閾値を算出することができるので、画像認識の精度を向上させることができる。

しかしながら、画像データにおけるオブジェクトの撮像状態に影響を与える撮影条件が、明るさだけに止まらないのは言うまでもなく、被写体やカメラの振動などに起因するブレや、煙や雨、雪、霧などが被ったり、遠景に人物などが多く写り込んだりする場合もある。このような場合には、画像データの平均明度だけから閾値を適切に決定することは難しい。

また、撮影条件を表すアノテーションを人手で追加したのでは、自動的に画像認識を行うメリットが大きく損なわれてしまう。アノテーションを追加する手間は、目視で画像を確認する手間よりも大して軽くはないからである。

本開示は、上述のような問題に鑑みて為されたものであって、撮影条件の如何に関わらず、機械学習モデルを用いて精度よく画像を認識することができるように閾値を設定する画像認識装置、学習装置、画像認識方法、学習方法、画像認識プログラムおよび学習プログラムを提供することを目的とする。

上記目的を達成するため、本開示の一形態に係る画像認識装置は、画像中でのオブジェクトの位置を検出する画像認識装置であって、画像中における前記オブジェクト位置を予測する位置予測手段と、前記予測位置ごとに確信度を出力する確信度出力手段と、前記確信度と比較して、当該予測位置にオブジェクトがあるか否かを判定するための閾値を予測する閾値予測手段と、前記予測位置ごとに当該確信度を前記閾値と比較して、オブジェクトがあると判定された予測位置をオブジェクト位置として選択する位置選択手段と、を備え、前記閾値予測手段は、機械学習モデルに画像データを入力して算出させた値を閾値の予測値とすることを特徴とする。

この場合において、前記閾値予測手段は、機械学習モデルに画像データを入力し、当該画像データの撮影条件のうち、少なくとも当該画像データの平均明度以外の撮影条件に応じて算出させた値を閾値の予測値としてもよい。

また、前記閾値予測手段は、予め設定した複数の閾値候補から閾値を選択してもよい。

また、前記確信度出力手段は、前記予測位置の確信度とともに、前記予測位置ごとに当該位置にあるオブジェクトのクラスの確信度を出力し、前記閾値予測手段は、オブジェクトのクラス毎に閾値を予測してもよい。

また、前記確信度出力手段は、画像データの入力を受け付ける特徴抽出部と、前記特徴抽出部の出力を入力とするデコード部と、を有する畳み込み型ニューラルネットワークに画像を入力して、前記確信度を出力させ、前記閾値予測手段は、前記前記特徴部の出力を入力とする、前記デコード部とは別の第２のニューラルネットワークに画像データを入力して前記閾値を出力させてもよい。

また、前記確信度出力手段は、畳み込み型ニューラルネットワークに画像を入力して、前記確信度を出力させ、前記閾値予測手段は、前記畳み込み型ニューラルネットワークとは別のニューラルネットワークに画像データを入力して前記閾値を出力させてもよい。

また、本開示の一形態に係る学習装置は、本開示の一形態に係る画像認識装置の前記畳み込み型ニューラルネットワーク並びに第２のニューラルネットワークに用いる学習パラメーターを生成する学習装置であって、前記畳み込み型ニューラルネットワークに、画像データを入力して、前記予測位置を出力させる予測位置出力手段と、前記第２のニューラルネットワークに、前記画像データを入力して、前記閾値を出力させる閾値出力手段と、予測位置出力手段が出力した予測位置を独立変数とする第１の損失関数と、前記閾値出力手段が出力した閾値を独立変数とする第２の損失関数と、を用いて、誤差逆伝搬法によって前記学習パラメーターを更新することを特徴とする。

また、前記第２の損失関数は、前記閾値出力手段が出力した閾値と、教師データとして用意された閾値の正解と、差を自乗する関数であってもよい。

また、前記第２の損失関数は、所定の再現率を満たすことを条件として、適合率を最大化する閾値を正解として用いて誤差を算出してもよい。

また、前記第２の損失関数は、所定の適合率を満たすことを条件として、再現率を最大化する閾値を正解として用いて誤差を算出してもよい。

また、前記第２の損失関数は、Ｆ値を最大にする閾値を正解として用いて誤差を算出してもよい。

また、前記予測位置出力手段並びに前記閾値出力手段はどちらも、前記画像データとして、互いに閾値の正解が異なる複数の画像データを入力してもよい。

また、前記複数の画像データは、少なくとも明度以外の撮影条件が互いに異なっている画像データを含んでいてもよい。

また、本開示の一形態に係る画像認識方法は、画像中でのオブジェクトの位置を検出する画像認識方法であって、画像中における前記オブジェクト位置を予測する位置予測ステップと、前記予測位置ごとに確信度を出力する確信度出力ステップと、前記確信度と比較して、当該予測位置にオブジェクトがあるか否かを判定するための閾値を予測する閾値予測ステップと、前記予測位置ごとに当該確信度を前記閾値と比較して、オブジェクトがあると判定された予測位置をオブジェクト位置として選択する位置選択ステップと、を含み、前記閾値予測ステップは、機械学習モデルに画像データを入力して算出させた値を閾値の予測値とすることを特徴とする。

また、本開示の一形態に係る学習方法は、本開示の一形態に係る画像認識装置の前記畳み込み型ニューラルネットワーク並びに第２のニューラルネットワークに用いる学習パラメーターを生成する学習方法であって、前記畳み込み型ニューラルネットワークに、画像データを入力して、前記予測位置を出力させる予測位置出力ステップと、前記第２のニューラルネットワークに、前記画像データを入力して、前記閾値を出力させる閾値出力ステップと、前記予測位置出力ステップで出力した予測位置を独立変数とする第１の損失関数と、前記閾値出力ステップで出力した閾値を独立変数とする第２の損失関数と、を用いて、誤差逆伝搬法によって前記学習パラメーターを更新する更新ステップと、を含むことを特徴とする。

また、本開示の一形態に係る画像認識プログラムは、コンピューターに画像中でのオブジェクトの位置を検出させる画像認識プログラムであって、画像中における前記オブジェクト位置を予測する位置予測ステップと、前記予測位置ごとに確信度を出力する確信度出力ステップと、前記確信度と比較して、当該予測位置にオブジェクトがあるか否かを判定するための閾値を予測する閾値予測ステップと、前記予測位置ごとに当該確信度を前記閾値と比較して、オブジェクトがあると判定された予測位置をオブジェクト位置として選択する位置選択ステップと、をコンピューターに実行させ、前記閾値予測ステップは、機械学習モデルに画像データを入力して算出させた値を閾値の予測値とさせることを特徴とする。

また、本開示の一形態に係る学習プログラムは、本開示の一形態に係る画像認識装置の前記畳み込み型ニューラルネットワーク並びに第２のニューラルネットワークに用いる学習パラメーターをコンピューターに生成させる学習プログラムであって、前記畳み込み型ニューラルネットワークに、画像データを入力して、前記予測位置を出力させる予測位置出力ステップと、前記第２のニューラルネットワークに、前記画像データを入力して、前記閾値を出力させる閾値出力ステップと、前記予測位置出力ステップで出力した予測位置を独立変数とする第１の損失関数と、前記閾値出力ステップで出力した閾値を独立変数とする第２の損失関数と、を用いて、誤差逆伝搬法によって前記学習パラメーターを更新する更新ステップと、をコンピューターに実行させることを特徴とする。

このようにすれば、撮影する環境や物体の条件（明暗、ブレ有無、煙有無、雨・雪・霧有無、遠方に映る人（小さい人）が多い、等）といった撮影条件を検出するために専用のセンサーを追加しなくても、また、撮影条件を示すアノテーションを加えなくても、機械学習モデルを用いて撮影条件に応じた適切な閾値を予測するので、撮影条件が変化しても、人手を煩わせることなく、オブジェクト位置を精度よく特定することができる。

画像認識システムの主要な構成を示す図である。画像認識装置１００の主要なハードウェア構成を示すブロック図である。画像認識装置１００の主要な機能構成を示すブロック図である。画像認識装置１００の画像認識動作を説明するフローチャートである。画像認識装置１００が機械学習を実行する際のデータフローを説明するブロック図である。画像認識装置１００による機械学習動作を説明するフローチャートである。本開示の変形例に係る画像認識装置１００であって、予め用意された閾値の候補から閾値を選択する画像認識装置１００の主要な機能構成を示すブロック図である。本開示の別の変形例に係る画像認識装置１００であって、オブジェクトのクラス毎に閾値を予測する画像認識装置１００の主要な機能構成を示すブロック図である。オブジェクトの検出用と、閾値予測用とに別個の特徴抽出部を備えている画像認識装置１００の主要な機能構成を示すブロック図である。本開示の変形例を説明するために用いる画像を示した図である。

以下、本開示に係る画像認識装置、学習装置、画像認識方法、学習方法、画像認識プログラムおよび学習プログラムの実施の形態について、図面を参照しながら説明する。
［１］画像認識システムの構成
まず、本実施の形態に係る画像認識システムの構成について説明する。

図１に示すように、画像認識システム１は、画像認識装置１００、ストレージ１０１および撮影装置１０２を通信ネットワーク１０３にて接続したものである。撮影装置１０２は撮影によって画像データを生成する。撮影装置１０２が生成した画像データはストレージ１０１に格納される。

画像認識装置１００はいわゆるコンピューターであって、畳み込み型ニューラルネットワークを用いた画像認識プログラムが搭載されている。画像認識装置１００は、ストレージ１０１から画像データを読み出して畳み込み型ニューラルネットワークに入力し、画像に含まれているオブジェクトを囲んでいると予測したバウンディングボックス（BB: Bounding Box）と、当該オブジェクトが何であるかを表すラベルとともに出力する。画像認識装置１００は、ストレージ１０１から画像データと教師データを読み出して、畳み込み型ニューラルネットワークに機械学習を行わせる。教師データは、当該画像データに含まれているオブジェクトのＢＢ、確信度およびラベルである。

図２に示すように、画像認識装置１００は、ＣＰＵ（Central Processing Unit）２０１、ＲＯＭ（Read Only Memory）２０２、ＲＡＭ（Random Access Memory）２０３等を備えている。ＣＰＵ２０１は、画像認識装置１００に電源が投入される等してリセットされると、ＲＯＭ２０２からブートプログラムを読み出して起動し、ＲＡＭ２０３を作業用記憶領域として、ＨＤＤ（Hard Disk Drive）２０４から読み出した画像認識プログラム２０５やＯＳ（Operating System）２０６といったプログラムを実行する
ＮＩＣ（Network Interface Card）２０７は、通信ネットワーク１０３を経由してストレージ１０１や撮影装置１０２と通信するための処理を実行する。これによって、ストレージ１０１から画像データを読み出して、画像認識プログラム２０５による畳み込み型ニューラルネットワークを用いた画像認識を行った後、認識結果をストレージ１０１に格納することができる。また、画像認識プログラム２０５の畳み込み型ニューラルネットワークに機械学習をさせる際には、ストレージ１０１から画像データおよび教師データが読み出される。
［２］画像認識プログラム２０５
次に、画像認識装置１００が実行する画像認識プログラム２０５について説明する。

図３に示すように、画像認識プログラム２０５は、画像データ３０１を確信度処理部３０２に入力する。確信度処理部３０２は畳み込み型ニューラルネットワークとＮＭＳ（Non-Maximum Suppression）アルゴリズムとを組み合わせたものである。畳み込み型ニューラルネットワークは、特徴抽出部３１１、デコード部３１２、ＧＡＰ（Global Average Pooling）３２１およびＦＣ層（Fully Connected）３２２を備えている。

特徴抽出部３１１は、畳み込み層とプーリング層を交互に積層した構成を備えている。特徴抽出部３１１は、画像データを入力されると特徴量を抽出する。特徴抽出部３１１が抽出した特徴量は、デコード部３１２とＧＡＰ部３２１とにそれぞれ入力される。

デコード部３１２は、特徴抽出部３１１から特徴量を受け付けると、オブジェクトを囲んでいると予測したバウンディングボックス３０３ごとに、位置（ｘ座標およびｙ座標）、大きさ（幅と高さ）および確信度（バウンディングボックスがオブジェクトを囲んでいるか）を出力するとともに、当該バウンディングボックス３０３に囲まれているオブジェクトのクラス情報（当該オブジェクトが何か）を出力する。

ＮＭＳ部３１３は、デコード部３１２が出力したバウンディングボックス３０３どうしでＩｏＵ（Intersection over Union）を算出し、ＩｏＵが所定の閾値よりも大きい場合には、一方のバウンディングボックス３０３を採用して、他方のバウンディングボックス３０３を破棄する。従って、ＮＭＳ部３１３が出力するバウンディングボックス３０３どうしはＩｏＵが所定の閾値よりも小さいので、互いに異なるオブジェクトを囲んでいる可能性が高くなる。

一方、ＧＡＰ部３２１は、特徴抽出部３１１が出力した特徴量の平均値をチャネル毎に算出して出力する。ＦＣ層３２２は、ＧＡＰ部３２１が出力した平均値から閾値３０６を算出する。

確信度閾値処理部３０４は、ＮＭＳ部が出力したバウンディングボックス３０３ごとに確信度を閾値３０６と比較して、確信度が閾値３０６を超えるバウンディングボックス３０３を取捨選択する。これによって、最終的なバウンディングボックス３０３が確定する。

図４は、画像認識プログラム２０５に従って画像認識装置１００が実行する処理を表すフローチャートである。画像認識処理を実行する際には、画像認識装置１００は、図４に示すように、画像認識の対象となる画像データを特徴抽出部３１１に入力し（Ｓ４０１）、特徴抽出部３１１が出力した特徴量をデコード部３１２に入力して、オブジェクトを囲んでいると予測したバウンディングボックス３０３の情報ならびにクラス情報を出力させる（Ｓ４０２）。更に、ＮＭＳ部３１３にて、デコード部３１２が出力したバウンディングボックス３０３どうしのＩｏＵとＩｏＵの閾値とを比較して、オブジェクト毎に当該オブジェクトを囲んでいると思われるバウンディングボックス３０３を取捨する。

また、特徴抽出部３１１が出力した特徴量の平均値をＧＡＰ部３２１で求め（Ｓ４０４）、当該平均値を用いてＦＣ層３２２で閾値を算出する（Ｓ４０５）。最後に、確信度閾値処理部３０４にて、バウンディングボックス３０３毎に確信度と閾値とを比較して、確信度が閾値を超えているバウンディングボックス３０３を選択する（Ｓ４０６）。
［３］機械学習時の動作
次に、機械学習時における画像認識装置１００の動作について説明する。

図５は、機械学習時におけるデータの流れを表しており、図６は、機械学習時における画像認識装置１００の動作を表すフローチャートである。

機械学習を実行する際には、画像認識装置１００は、まず、学習回数を表す作業用の変数の値を０に初期化する（Ｓ６０１）。次に、ストレージ１０１から機械学習用の画像データを読み出して、特徴抽出部３１１に入力し、特徴量を出力させる（Ｓ６０２）。当該特徴量をデコード部３１２に入力して、オブジェクトを囲んでいると予測したバウンディングボックス３０３毎に位置、大きさおよび確信度を出力させるとともに、クラスの情報を出力させる（Ｓ６０３）。

画像認識装置１００は、ストレージ１０１からバウンディングボックスおよびクラス情報の正解（教師データ）を読み出して（Ｓ６０４）、両者をオブジェクト検出用の損失関数ｆ１に代入して第１の損失を算出する（Ｓ６０５）。

例えば、ＹＯＬＯ（You Only Look Once）を用いて、画像をＳ×Ｓ個のブリッドに分割し、グリッド毎にＢ個のバウンディングボックス３０３を予測して、第１の損失を算出する場合には、オブジェクト検出用の損失関数ｆ１として次式（１）のような損失関数を用いてもよい。

…（１）
λcoordはバウンディングボックス３０３の回帰損失に対する重みであり、λnoobjはグリッド内にオブジェクト（GT: Ground Truth）が存在しない場合に対する重みである。１^obj _ijはグリッド内にオブジェクト（GT）が存在する場合に値１をとり、グリッド内にオブジェクト（GT）が存在しない場合には値０をとる。逆に、１^noobj _ijはグリッド内にオブジェクト（GT）が存在しない場合に値１をとり、グリッド内にオブジェクト（GT）が存在する場合には値０をとる。

また、ｘ、ｙはバウンディングボックス３０３の位置を表す座標値であり、ｗ、ｈはバウンディングボックス３０３の幅と高さである。Ｃは、当該バウンディングボックス３０３に囲まれているオブジェクトが存在する否かを示す確信度である。ｐ（ｃ）はバウンディングボックス３０３に囲まれているオブジェクトがクラスｃに分類されているか否かを示す確信度である。なお、記号「＾」はＧＴの値を示している。

式（１）の第１項と第２項との和は、バウンディングボックス３０３の予測位置精度を高める損失関数である。第３項と第４項との和は、オブジェクトが存在するか否かの確信度を高める損失関数である。また、第５項はオブジェクトのクラス分類の確信度を高める損失関数である。

さて、図５、６に戻って、画像認識装置１００は、ＧＡＰ部３２１にて、特徴出部３１１が出力した特徴量の平均値を算出し（Ｓ６０６）、ＦＣ層３２２にて、ＧＡＰ部３２１が算出した平均値から閾値を算出する（Ｓ６０７）とともに、ストレージ１０１から閾値の正解（教師データ）を読み出して（Ｓ６０８）、両者を閾値予測用の損失関数ｆ２に代入して第２の損失を算出する（Ｓ６０９）。

閾値予測用の損失関数ｆ２としては、例えば、式（２）のような損失関数を用いてもよい。

（予測閾値 − 正解閾値）² …（２）
ここで、予測閾値はＦＣ層３２２が出力した閾値である。

正解閾値は、例えば、当該学習用の画像データについてデコード部３１２が出力したバウンディングボックス３０３について、再現率が所定値を超える範囲内で適合率が最大となる閾値としてもよい。ここで、再現率とは、画像に含まれているオブジェクト全体に対する、デコード部３１２が出力したバウンディングボックス３０３に囲まれているオブジェクトの割合をいう。また、適合率とは、デコード部３１２が出力したバウンディングボックス３０３全体に対する、オブジェクトを囲んでいるバウンディングボックス３０３の割合である。

このような正解閾値を用いて機械学習を実行すれば、オブジェクトの検出漏れを抑制することができる。例えば、画像認識装置１００を用いて、防犯カメラで撮影した画像を認識する場合に、不審者や侵入者などの検出漏れを抑制することができるので、高い防犯性能を達成することができる。

また、正解閾値は、当該学習用の画像データについてＣＮＮ＋ＮＭＳ３０２が出力したバウンディングボックス３０３について、適合率が所定値を超える範囲内で再現率が最大となる閾値としてもよい。このような正解閾値を用いて機械学習を実行すれば、オブジェクトの誤検出を抑制することができる。例えば、画像認識装置１００をマーケティング解析に利用する場合には、消費者行動の誤検出を抑制して、解析精度を向上させることができる。

更に、バウンディングボックス３０３の検出漏れと誤検出とをともに最小限に抑制したい場合には、次式（３）で定義するＦ値が最大になる閾値を正解閾値にしてもよい。

…（３）
次に、損失関数を用いて損失を算出する（Ｓ６１０）。損失関数は、第１の損失と第２の損失とを独立変数とする関数であって、例えば、第１の損失と第２の損失との重み付き和であってもよい。その後、損失を用いて誤差逆伝播法による機械学習を実行する（Ｓ６１１）。

誤差伝播法による機械学習を実行した後、学習回数と予め設定した回数（閾値）とを比較して、学習回数が設定回数よりも少ない場合には（Ｓ６１２：ＹＥＳ）、学習回数を１回だけ増加させた後（Ｓ６１３）、ステップＳ６０２へ進んで、上記の処理を繰り返す。学習回数が設定した回数に到達した場合には（Ｓ６１２：ＮＯ）、機械学習によって生成した学習パラメーターをストレージ１０１に保存して（Ｓ６１４）、機械学習を終了する。

なお、学習用の画像データは、撮影条件の違いに応じて、互いに閾値の正解が異なっている複数の画像データが含まれている。撮影条件とは、例えば、明るさや、被写体やカメラの振動などに起因するブレ、煙や雨、雪、霧などが被ったり、遠景に人物などが多く写り込んでいるか等であり、これら以外の撮影条件の下で撮影された画像データが含まれていてもよい。

また、画像データを加工することによって、さまざまな撮影条件を模擬した学習用の画像データを生成してもよい。特に、平均明度以外の撮影条件で撮影された画像データにおいて精度よく物体を検出するためには、撮影条件のうち平均明度以外の撮影条件が互いに異なっている複数の画像データを学習用の画像データとするのが望ましい。

また、撮影条件のうち平均明度以外の撮影条件が互いに異なっている複数の画像データには、平均明度についても互いに異なっている画像データが含まれていてもよい。言い換えると、少なくとも平均明度以外の撮影条件が互いに異なっている複数の画像データを学習用の画像データとして、撮影条件に応じた閾値を出力する機械学習を進めるのが望ましい。

このような画像データを学習用に用いて、上述のように機械学習を行えば、撮影条件などから影響を受けた画像であっても、少なくとも平均明度以外の撮影条件に応じて閾値を適切に設定することができるので、精度よくオブジェクトの位置を検出することができる。
［４］変形例
以上、本開示を実施の形態に基づいて説明してきたが、本開示が上述の実施の形態に限定されないのは勿論であり、以下のような変形例を実施することができる。
（４−１）上記実施の形態においては、ＦＣ層３２２がバウンディングボックス３０３の確信度の閾値を出力する場合を例にとって説明したが、本開示がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。

例えば、図７に示すように、ＦＣ層３２２の後段にＳｏｆｔｍａｘ部７０１を設けて、閾値が０．１から０．９までの０．１刻みの値のどれであるかの確信度（確率）７０２を出力し、最も確信度が高い閾値を採用してもよい。Ｓｏｆｔｍａｘ部７０１は、ＦＣ層３２２の出力を受け付けると、０．１から０．９までの閾値の確信度の合計が１になるように、各閾値の確信度を算出する。

このようにすれば、画像認識装置１００が出力する閾値が１や０といった外れ値を取らなくなるので、機械学習を安定化することができる。なお、閾値の候補の個数が９個に限定されないのは言うまでもなく、他の個数であってもよいし、候補となる閾値の間隔は等間隔でなくてもよい。
（４−２）上記実施の形態においては、バウンディングボックス３０３に囲まれるオブジェクトのクラスが異なっていても共通の閾値を用いる場合を例にとって説明したが、本開示がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。

例えば、図８に示すように、ＦＣ層３２２によって、オブジェクトのクラス毎に閾値３０６´を出力してもよい。この場合には、確信度閾値処理部３０４は、ＮＭＳ部が出力したバウンディングボックス３０３ごとに、当該バウンディングボックス３０３に囲まれているオブジェクトのクラスに対応する閾値３０６´を、当該バウンディングボックス３０３の確信度と比較して、バウンディングボックス３０３を取捨選択すればよい。

このようにすれば、撮影条件の変化による影響の出方や影響の程度がオブジェクトのクラスによって異なっているような場合に、オブジェクトのクラスごとに適切な閾値３０６´を採用して、オブジェクトを囲んでいるバウンディングボックス３０３を精度よく特定することができる。

例えば、夜間に撮影した画像では、車両はライトを点灯することによって背景とのコントラストが高くなるのに対して、人物は背景とのコントラストが低くなる傾向がある。このような場合には車両と人物とで閾値を異ならせることによって、同じ画像に含まれている車両と人物との両方を精度よく検出することができる。
（４−３）上記実施の形態においては、共通の特徴抽出部３１１をオブジェクトの検出と閾値の予測との両方に共用する場合を例にとって説明したが、本開示がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。

すなわち、オブジェクト検出用の特徴抽出部３１１と、閾値予測用の特徴抽出部３１１´とを別々に設けてもよい。特徴抽出部３１１として畳み込み型ニューラルネットワークを採用した場合、畳み込み層の層数が多いほど画像認識装置１００の処理負荷が高くなり、処理に時間を要するようになる。一方、画像認識装置１００の処理負荷を軽減し、処理時間を短縮することを目的として、畳み込み層の層数を少なくし過ぎると、オブジェクト検出と閾値予測との両方に有効な特徴を画像から抽出することが難しくなる。

このような問題に対して、オブジェクト検出用の特徴抽出部３１１と、閾値予測用の特徴抽出部３１１´とを別々に設ければ、画像認識装置１００の処理負荷を軽減し、処理時間を短縮しながら、オブジェクト検出と閾値予測との両方を精度よく実行することができる。

また、この場合において、畳み込み層の層数は、オブジェクト検出用の特徴抽出部３１１と閾値予測用の特徴抽出部３１１´とで異なっていてもよい。畳み込み型ニューラルネットワークの使用目的に応じて、畳み込み層の層数を最適化すれば、画像認識装置１００の処理負荷の軽減や、処理時間の短縮と、オブジェクト検出や閾値予測の精度向上とをよりよく両立させることができる。
（４−４）機械学習の初期においては、オブジェクトの検出精度が低いため、オブジェクトを囲んでいるバウンディングボックス３０３であるＴＰ（True Positive）が１つも無い場合があり得る。一方、バウンディングボックス３０３の確信度の閾値を予測するための機械学習を進めるためにはＴＰとなるバウンディングボックス３０３が必要となる。このため、機械学習の初期においては、閾値予測のための機械学習がなかなか進まない恐れがある。

このような問題に対して、閾値予測のための機械学習に先立って、オブジェクト検出のための機械学習を進めておき、ＴＰとなるバウンディングボックス３０３をある程度高い確度で検出することができるようになってから、閾値予測のための機械学習を行ってもよい。このようにすれば、閾値予測の機械学習を効率よく進めることができる。

なお、オブジェクト検出のための学習については従来技術を採用すれば、実行することができる。また、閾値予測の機械学習を行う場合の閾値の初期値には任意の値を用いることができる。
（４−５）機械学習に使用する画像データの枚数は多い方が望ましい。このためには、検出させたいオブジェクトが含まれていない画像データも機械学習に使用できると好都合である。例えば、図１０に示すように、画像１０００に、検出させたいオブジェクトを含んでいる正解のバウンディングボックス（以下、単に「正解」という。）１００１〜１００４である３つのＧＴがある場合に、画像認識装置１００がバウンディングボックス３０３の候補（以下、単に「候補」という。）１０１１〜１０１４を検出したとする。

候補１０１１と正解１００１とはＩｏＵが７５％で、候補１０１１のクラスは正解１００１のクラスと同じ「人物」である。このような場合に、ＩｏＵの閾値が３０％に設定されていると、候補１０１１はＴＰと判定される。同様に、候補１０１２と正解１００２とはＩｏＵが４０％で閾値３０％を超えており、候補１０１２のクラスもまた正解１００２のクラスと同じ「人物」であるので、候補１０１２はＴＰと判定される。

一方、候補１０１３と正解１００３とはＩｏＵが６０％で閾値３０％を超えているが、候補１０１２のクラス「人物」は正解１００２のクラス「車両」と異なっているので、候補１０１２はＦＰ（False Positive）と判定される。候補１０１４は、どの正解ともＩｏＵが閾値３０％を超えていないので、ＦＰと判定される。正解１００４は、どの候補ともＩｏＵが閾値３０％を超えていないという意味においてＴＰが存在しないので、ＦＮ（False Negative）と判定される。

機械学習用の画像データによってはＧＴまたはＴＰが存在しない場合がある。このような場合には、適合率や再現率を適切に計算することができなくなるので、閾値予測に関する機械学習が進み難くなる恐れがある。

このような問題に対して、ＧＴまたはＴＰが存在しない場合には、正解閾値を算出することなく、予め設定した値（例えば、０．５。）を用いればよい。このようにすれば、ＧＴまたはＴＰが存在しないために、正解閾値を算出することができない場合であっても、閾値予測のための機械学習を進めることができる。
（４−６）上記実施の形態においては、画像認識装置１００を用いてオブジェクト検出や閾値予測のための機械学習を行う場合を例にとって説明したが、本開示がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。例えば、機械学習を行うために、画像認識装置１００とは別の装置を用意しておき、当該別の装置で機械学習を行って生成した学習パラメーターをストレージ１０１に保存してもよい。このようにしても、画像認識装置１００にストレージ１０１から学習パラメーターを読み出させることによって画像認識を実行させることができる。
（４−７）上記実施の形態においては、損失を算出する方法として、第１の損失と第２の損失との輪を算出する場合を例にとって説明したが、本開示がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。すなわち、第１の損失と第２の損失とを独立変数とし、損失を従属変数とする関数であれば、単純和を算出する関数以外の関数を用いてもよい。損失を算出するための関数の如何に関係なく、本開示の効果を得ることができる。

本開示に係る画像認識装置、学習装置、画像認識方法、学習方法、画像認識プログラムおよび学習プログラムは、認識対象となる画像の撮影条件が変動しても、機械学習モデルを用いて精度よく画像を認識する技術として有用である。

１………画像認識システム
１００…画像認識装置
１０１…ストレージ
１０２…撮影装置
２０５…画像認識プログラム
３０３…バウンディングボックス
３０６…閾値
３１１…特徴抽出部
３１２…デコード部
３１３…ＮＭＳ部
３２１…ＧＡＰ部
３２２…ＦＣ層

Claims

画像中でのオブジェクトの位置を検出する画像認識装置であって、
画像中における前記オブジェクト位置を予測する位置予測手段と、
前記予測位置ごとに確信度を出力する確信度出力手段と、
前記確信度と比較して、当該予測位置にオブジェクトがあるか否かを判定するための閾値を予測する閾値予測手段と、
前記予測位置ごとに当該確信度を前記閾値と比較して、オブジェクトがあると判定された予測位置をオブジェクト位置として選択する位置選択手段と、を備え、
前記閾値予測手段は、機械学習モデルに画像データを入力して算出させた値を閾値の予測値とする
ことを特徴とする画像認識装置。
前記閾値予測手段は、機械学習モデルに画像データを入力し、当該画像データの撮影条件のうち、少なくとも当該画像データの平均明度以外の撮影条件に応じて算出させた値を閾値の予測値とする
ことを特徴とする請求項１に記載の画像認識装置。
前記閾値予測手段は、予め設定した複数の閾値候補から閾値を選択する
ことを特徴とする請求項１に記載の画像認識装置。
前記確信度出力手段は、前記予測位置の確信度とともに、前記予測位置ごとに当該位置にあるオブジェクトのクラスの確信度を出力し、
前記閾値予測手段は、オブジェクトのクラス毎に閾値を予測する
ことを特徴とする請求項１に記載の画像認識装置。
前記確信度出力手段は、画像データの入力を受け付ける特徴抽出部と、前記特徴抽出部の出力を入力とするデコード部と、を有する畳み込み型ニューラルネットワークに画像を入力して、前記確信度を出力させ、
前記閾値予測手段は、前記前記特徴部の出力を入力とする、前記デコード部とは別の第２のニューラルネットワークに画像データを入力して前記閾値を出力させる
ことを特徴とする請求項１から４のいずれかに記載の画像認識装置。
前記確信度出力手段は、畳み込み型ニューラルネットワークに画像を入力して、前記確信度を出力させ、
前記閾値予測手段は、前記畳み込み型ニューラルネットワークとは別のニューラルネットワークに画像データを入力して前記閾値を出力させる
ことを特徴とする請求項１から４のいずれかに記載の画像認識装置。
請求項５に記載の画像認識装置の前記畳み込み型ニューラルネットワーク並びに第２のニューラルネットワークに用いる学習パラメーターを生成する学習装置であって、
前記畳み込み型ニューラルネットワークに、画像データを入力して、前記予測位置を出力させる予測位置出力手段と、
前記第２のニューラルネットワークに、前記画像データを入力して、前記閾値を出力させる閾値出力手段と、
前記予測位置出力手段が出力した予測位置を独立変数とする第１の損失関数と、前記閾値出力手段が出力した閾値を独立変数とする第２の損失関数と、を用いて、誤差逆伝搬法によって前記学習パラメーターを更新する更新手段と、を備える
ことを特徴とする学習装置。
前記第２の損失関数は、前記閾値出力手段が出力した閾値と、教師データとして用意された閾値の正解と、差を自乗する関数である
ことを特徴とする請求項７に記載の学習装置。
前記第２の損失関数は、所定の再現率を満たすことを条件として、適合率を最大化する閾値を正解として用いて誤差を算出する
ことを特徴とする請求項７または８に記載の学習装置。
前記第２の損失関数は、所定の適合率を満たすことを条件として、再現率を最大化する閾値を正解として用いて誤差を算出する
ことを特徴とする請求項７または８に記載の学習装置。
前記第２の損失関数は、Ｆ値を最大にする閾値を正解として用いて誤差を算出する
ことを特徴とする請求項７または８に記載の学習装置。
前記予測位置出力手段並びに前記閾値出力手段はどちらも、前記画像データとして、互いに閾値の正解が異なる複数の画像データを入力する
ことを特徴とする請求項７から１１の何れかに記載の学習装置。
前記複数の画像データは、少なくとも明度以外の撮影条件が互いに異なっている画像データを含んでいる
ことを特徴とする請求項１２に記載の学習装置。
画像中でのオブジェクトの位置を検出する画像認識方法であって、
画像中における前記オブジェクト位置を予測する位置予測ステップと、
前記予測位置ごとに確信度を出力する確信度出力ステップと、
前記確信度と比較して、当該予測位置にオブジェクトがあるか否かを判定するための閾値を予測する閾値予測ステップと、
前記予測位置ごとに当該確信度を前記閾値と比較して、オブジェクトがあると判定された予測位置をオブジェクト位置として選択する位置選択ステップと、を含み、
前記閾値予測ステップは、機械学習モデルに画像データを入力して算出させた値を閾値の予測値とする
ことを特徴とする画像認識方法。
請求項５に記載の画像認識装置の前記畳み込み型ニューラルネットワーク並びに第２のニューラルネットワークに用いる学習パラメーターを生成する学習方法であって、
前記畳み込み型ニューラルネットワークに、画像データを入力して、前記予測位置を出力させる予測位置出力ステップと、
前記第２のニューラルネットワークに、前記画像データを入力して、前記閾値を出力させる閾値出力ステップと、
前記予測位置出力ステップで出力した予測位置を独立変数とする第１の損失関数と、前記閾値出力ステップで出力した閾値を独立変数とする第２の損失関数と、を用いて、誤差逆伝搬法によって前記学習パラメーターを更新する更新ステップと、を含む
ことを特徴とする学習方法。
コンピューターに画像中でのオブジェクトの位置を検出させる画像認識プログラムであって、
画像中における前記オブジェクト位置を予測する位置予測ステップと、
前記予測位置ごとに確信度を出力する確信度出力ステップと、
前記確信度と比較して、当該予測位置にオブジェクトがあるか否かを判定するための閾値を予測する閾値予測ステップと、
前記予測位置ごとに当該確信度を前記閾値と比較して、オブジェクトがあると判定された予測位置をオブジェクト位置として選択する位置選択ステップと、をコンピューターに実行させ、
前記閾値予測ステップは、機械学習モデルに画像データを入力して算出させた値を閾値の予測値とさせる
ことを特徴とする画像認識プログラム。
請求項５に記載の画像認識装置の前記畳み込み型ニューラルネットワーク並びに第２のニューラルネットワークに用いる学習パラメーターをコンピューターに生成させる学習プログラムであって、
前記畳み込み型ニューラルネットワークに、画像データを入力して、前記予測位置を出力させる予測位置出力ステップと、
前記第２のニューラルネットワークに、前記画像データを入力して、前記閾値を出力させる閾値出力ステップと、
前記予測位置出力ステップで出力した予測位置を独立変数とする第１の損失関数と、前記閾値出力ステップで出力した閾値を独立変数とする第２の損失関数と、を用いて、誤差逆伝搬法によって前記学習パラメーターを更新する更新ステップと、をコンピューターに実行させる
ことを特徴とする学習プログラム。