JP2019023801A - 画像認識装置、画像認識方法、及び画像認識プログラム - Google Patents

画像認識装置、画像認識方法、及び画像認識プログラム Download PDF

Info

Publication number
JP2019023801A
JP2019023801A JP2017142743A JP2017142743A JP2019023801A JP 2019023801 A JP2019023801 A JP 2019023801A JP 2017142743 A JP2017142743 A JP 2017142743A JP 2017142743 A JP2017142743 A JP 2017142743A JP 2019023801 A JP2019023801 A JP 2019023801A
Authority
JP
Japan
Prior art keywords
probability
category
image
absolute
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017142743A
Other languages
English (en)
Inventor
豪 入江
Takeshi Irie
豪 入江
柏野 邦夫
Kunio Kashino
邦夫 柏野
薫 平松
Kaoru Hiramatsu
薫 平松
隆行 黒住
Takayuki Kurozumi
隆行 黒住
清晴 相澤
Kiyoharu Aizawa
清晴 相澤
倫宏 水野
Michihiro Mizuno
倫宏 水野
章人 竹木
Akito Takeki
章人 竹木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017142743A priority Critical patent/JP2019023801A/ja
Publication of JP2019023801A publication Critical patent/JP2019023801A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度を高精度とすることができるようにする。【解決手段】相対的確率算出部112が、規定のカテゴリのそれぞれについて、入力画像160が前記カテゴリに属しうる確率を相対的な確率として表現する相対的確率を求め、絶対的確率算出部113が、前記規定のカテゴリのそれぞれについて、前記入力画像160が前記カテゴリに属しうる確率を表現する絶対的確率を求める。判定部114が、何れのカテゴリの前記絶対的確率も所定の閾値を超えない場合には、前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力する。【選択図】図2

Description

本発明は、画像認識方法、画像認識装置、及び画像認識プログラムに関し、特に、入力画像が学習済みのカテゴリの何れかに属するか、未学習のカテゴリに属するかを認識する画像認識方法、画像認識装置、及び画像認識プログラムに関する。
CPU/GPU等の計算機性能の向上、及び、深層学習に代表される人工知能技術の進歩により、画像認識技術は目覚ましい発展を遂げている。今、これまでの限られた応用範囲を超え、広くさまざまな実世界の問題への適用が期待されているところである。
画像認識の問題は、入力された画像が、事前に規定されたカテゴリのうちのいずれに属するかを識別器によって自動的に判定することである。ここでいうカテゴリとは、画像が表現可能な意味内容を分類・命名可能な概念を指すものであり、一般にはどのようなものによって規定されていてもよい。例えば、画像に写る物体の一般名称や固有名詞、あるいは人物の動作や事象などを含んでいる。
画像認識技術分野においては、2012年頃に畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)と呼ばれる深層学習モデルを識別器として用いることにより、極めて高精度な認識が実現できることが確認された(参考文献1)。以来、現代の画像認識技術は、多くの場合CNNを識別器として用いる構成を取るようになってきている(参考文献2)。
CNN、あるいは、別の構成を取る場合であっても、予め識別器を学習する必要がある。認識したい対象カテゴリを規定した上で、そのうちのどのカテゴリに属するかが明らかな画像(正解カテゴリが既知の画像)を学習用画像として数多く準備し、各画像が正解カテゴリに属すると判定されるように識別器のパラメータを学習する。
[参考文献1]Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton: ImageNet Classification with Deep Convolutional Neural Networks. In Proceedings of the Neural Information Processing Systems, pp. 1106-1114, 2012.
[参考文献2]Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun: Deep Residual Learning for Image Recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778., 2016
しかし、識別器による画像認識技術を、実世界に実装・動作させ、運用していく上では、このような学習の手続きには問題点がある。実世界には数多のカテゴリが存在し、それら全てを網羅するような学習用画像を事前に準備することは困難である。したがって、当然のことながら、学習したカテゴリ以外の「未学習」のカテゴリに属する画像に遭遇することになるが、ここで、先の学習技術は未学習のカテゴリを想定していないということが問題を引き起こす。
図1を用いてわかりやすく説明する。図1は、「犬」と「鳥」という2つのカテゴリについて学習を行った識別器の識別空間(実際に識別が行われるベクトル空間であり、例えばCNNを用いた場合には、その内部にある出力層直前の隠れ層をベクトル空間として見た場合などに相当する)の様子を示している。通常の学習技術は、これらの2つのカテゴリを分離すればよいと考えるため、それぞれに属する学習用画像を分離するような、図に示すような識別面を学習することになる。
一方で、もしここに、2つのカテゴリのいずれのも属さないような未学習のカテゴリ「キリン」に属する画像が入力されたとしよう。当然のことながら、識別面は識別空間を「犬」と「鳥」の2つの領域に分割するのみであるため、図1に示すように、「キリン」の画像が「犬」のカテゴリに分類されてしまうような問題が起こる。
すなわち、上記学習技術により学習した識別器は、未学習カテゴリに対して正しい認識結果を出力することができず、誤った認識結果を提示してしまうことになる。このような誤認識は、認識に対する信頼性を低下させ、利用者の利用意欲を減退させるという悪影響を及ぼすことになる。
以上論じたように、画像認識技術を実世界で運用する上では、未学習のカテゴリについても誤認識することなく、未学習であることを検知することが可能な画像認識技術の創出が不可欠であるといえよう。
従来、いくつかの発明がなされ、開示されてきている。
特許文献1では、物体そのものではなく、そのパーツを検出することで、未学習の物体についても推定可能な技術を開示している。未学習の物体に対して、どのようなパーツを含んでいるかがわかれば、既に学習済みの物体と共通するパーツを見ることで、未学習の物体に対してもおおよそどのようなものであるのかについて、推定を行うことができる。
非特許文献1では、画像特徴量空間において、各カテゴリの平均ベクトルを最頻値とした確率分布を規定し、その裾に閾値を設けることで、各カテゴリについて特徴量空間上に閉領域を形成し、これを識別器として用いる。つまり、すべてのカテゴリについて平均からの距離に対応する確率が閾値以下であった場合に未学習カテゴリであると判断することができる。
非特許文献2では、CNNの識別空間を構成する層からの出力を特徴量と見做し、非特許文献1と同様に閾値処理を行うことで未学習のカテゴリを検出することを可能にしている。
特開2016−91051号公報
Abhijit Bendale, Terrance Boult: Towards Open World Recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1893-1902. Abhijit Bendale, Terrance Boult: Towards Open Set Deep Networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1563-1572.
以上紹介した既存の技術は、いずれも学習時点では未学習のカテゴリを考慮した技術にはなっていない点が問題である。すなわち、上記既存技術は、図1の例で述べたような学習済みのカテゴリの分類に最適化した形で識別器が学習されているにすぎず、これは必ずしも未学習カテゴリに対応しやすい識別器ではない。
一般に、学習済みカテゴリに対する認識精度と、未学習のカテゴリを検出する精度はトレードオフの関係にあり、識別器が固定された下では、未学習カテゴリの検知を重視しようとすれば、その分だけ学習済みカテゴリの認識精度は劣化するし、逆もまた然りである。結果として、学習済みカテゴリの認識精度と未学習カテゴリの検知精度の双方が高精度であるような識別器を実現するためには、識別器を学習する時点でそれに適したものに近づけるような学習技術が不可欠である。
然るに、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度が高精度となるような画像認識技術の実現は、現在においても重要な課題であると言える。
本発明は、この課題を鑑みてなされたものであり、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度を高精度とすることができる画像認識装置、画像認識方法、及び画像認識プログラムを提供することを目的とする。
第1の発明に係る画像認識装置は、入力される少なくとも一つの画像である入力画像が入力された際に、規定のカテゴリの中から前記入力画像が属するカテゴリを出力するか、又は、前記入力画像が前記規定のカテゴリのいずれにも属さないかを出力する識別器を備える画像認識装置であって、前記識別器は、前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を相対的な確率として表現する相対的確率を求める相対的確率算出部と、前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を表現する絶対的確率を求める絶対的確率算出部と、何れのカテゴリの前記絶対的確率も所定の閾値を超えない場合には、前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力する判定部と、を含み、前記識別器は、学習用画像、及び、前記学習用画像が属する正解カテゴリを含む組の一つ以上からなる学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記相対的確率について、前記正解カテゴリに対応する前記相対的確率が大きければ大きいほど、小さい値を出力する相対的目的関数、及び、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記絶対的確率について、前記正解カテゴリに対応する前記絶対的確率が1に近ければ近いほど、又は、前記正解カテゴリでないカテゴリに対応する前記絶対的確率が0に近ければ近いほど、小さい値を出力する絶対的目的関数の2つの目的関数の出力値が、より小さい値となるように学習されることを特徴とする。
また、第2の発明に係る画像認識方法は、識別器が、入力される少なくとも一つの画像である入力画像が入力された際に、規定のカテゴリの中から前記入力画像が属するカテゴリを出力するか、又は、前記入力画像が前記規定のカテゴリのいずれにも属さないかを出力する画像認識方法であって、前記識別器において、相対的確率算出部が、前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を相対的な確率として表現する相対的確率を求める相対的確率算出部ステップと、絶対的確率算出部が、前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を表現する絶対的確率を求めるステップと、判定部が、何れのカテゴリの前記絶対的確率も所定の閾値を超えない場合には、前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力するステップと、を含み、前記識別器は、学習用画像、及び、前記学習用画像が属する正解カテゴリを含む組の一つ以上からなる学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記相対的確率について、前記正解カテゴリに対応する前記相対的確率が大きければ大きいほど、小さい値を出力する相対的目的関数、及び、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記絶対的確率について、前記正解カテゴリに対応する前記絶対的確率が1に近ければ近いほど、又は、前記正解カテゴリでないカテゴリに対応する前記絶対的確率が0に近ければ近いほど、小さい値を出力する絶対的目的関数の2つの目的関数の出力値が、より小さい値となるように学習されることを特徴とする。
第1の発明に係る画像認識装置及び第2の発明に係る画像認識方法によれば、識別器は、相対的確率算出部によって、規定のカテゴリのそれぞれについて、入力画像が前記カテゴリに属しうる確率を相対的な確率として表現する相対的確率を求め、絶対的確率算出部によって、規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を表現する絶対的確率を求め、判定部によって、何れのカテゴリの前記絶対的確率も所定の閾値を超えない場合には、前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力する。
そして、前記識別器は、学習用画像、及び、前記学習用画像が属する正解カテゴリを含む組の一つ以上からなる学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記相対的確率について、前記正解カテゴリに対応する前記相対的確率が大きければ大きいほど、小さい値を出力する相対的目的関数、及び、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記絶対的確率について、前記正解カテゴリに対応する前記絶対的確率が1に近ければ近いほど、又は、前記正解カテゴリでないカテゴリに対応する前記絶対的確率が0に近ければ近いほど、小さい値を出力する絶対的目的関数の2つの目的関数の出力値が、より小さい値となるように学習される。
このように、相対的確率と絶対的確率の双方を用いて学習した識別器を使い、絶対的確率を判定に用いる。識別器は一度、相対的確率に基づいて学習されているため、学習済みのカテゴリに属する画像が入力された際には正解となるカテゴリに対して高い値を出力することができ、認識精度を高く保つことができる。また、未学習カテゴリに属するような画像が入力された場合であっても、絶対的確率に基づく評価を行うことで、どの学習済みカテゴリに対しても小さい確率値を出力することができるため、未学習カテゴリであると、精度よく判定することができる。
このため、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度を高精度とすることができる。
第3の発明に係る画像認識装置は、第1の発明に係る画像認識装置であって、前記識別器は、前記相対的目的関数の出力値が小さい値となるように学習された後に、前記絶対的目的関数の出力値が小さい値となるように学習されることを特徴とする。
第4の発明に係る画像認識方法は、第2の発明に係る画像認識方法であって、前記識別器は、前記相対的目的関数の出力値が小さい値となるように学習された後に、前記絶対的目的関数の出力値が小さい値となるように学習されることを特徴とする。
第3の発明に係る画像認識装置及び第4の発明に係る画像認識方法によれば、識別器は、前記相対的目的関数の出力値が小さい値となるように学習された後に、前記絶対的目的関数の出力値が小さい値となるように学習される。
このように、先に相対的確率が期待する出力となるように学習することで、規定のカテゴリに対して高い認識精度を持つような識別器を学習した後、さらに絶対的確率に基づく学習により識別器の修正学習を行う。
このため、先に保持した規定のカテゴリに対する認識精度を保持しつつ、未学習カテゴリを判定可能な識別器を構成することが可能になるため、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度を高精度とすることができる。
第5の発明に係る画像認識装置は、第1又は第3の発明に係る画像認識装置であって、前記判定部は、前記規定のカテゴリのそれぞれについて、前記入力画像に対して計算された前記相対的確率と前記絶対的確率との積を求め、何れのカテゴリの前記積も所定の閾値を超えない場合には前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力し、前記識別器は、前記学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して前記規定のカテゴリのそれぞれについて計算した前記相対的確率と前記絶対的確率との積について、前記正解カテゴリに対応する前記積の値が大きければ大きいほど、小さい値を出力する統合目的関数の出力値が、より小さい値となるように学習されることを特徴とする。
第6の発明に係る画像認識方法は、第2又は第4の本発明に係る画像認識方法であって、前記判定部が判定することでは、前記規定のカテゴリのそれぞれについて、前記入力画像に対して計算された前記相対的確率と前記絶対的確率との積を求め、何れのカテゴリの前記積も所定の閾値を超えない場合には前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力し、前記識別器は、前記学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して前記規定のカテゴリのそれぞれについて計算した前記相対的確率と前記絶対的確率との積について、前記正解カテゴリに対応する前記積の値が大きければ大きいほど、小さい値を出力する統合目的関数の出力値が、より小さい値となるように学習されることを特徴とする。
第5の発明に係る画像認識装置及び第6の発明に係る画像認識方法によれば、前記判定部は、前記規定のカテゴリのそれぞれについて、前記入力画像に対して計算された前記相対的確率と前記絶対的確率との積を求め、何れのカテゴリの前記積も所定の閾値を超えない場合には前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力する。
そして、前記識別器は、前記学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して前記規定のカテゴリのそれぞれについて計算した前記相対的確率と前記絶対的確率との積について、前記正解カテゴリに対応する前記積の値が大きければ大きいほど、小さい値を出力する統合目的関数の出力値が、より小さい値となるように学習される。
このように、相対的確率と絶対的確率の積を判定に用いるため、学習済みのカテゴリに属する画像が入力された際には、絶対的確率と相対的確率の双方が正解となるカテゴリに対して高くなりやすいため、認識精度を高く保つことができる。また、未学習カテゴリに属する画像が入力された際には、相対的確率はいずれかの学習済みカテゴリについて高い確率を出力しうるものの、絶対的確率はどのカテゴリに対しても小さい値を取るため、その積はどの学習済みカテゴリに対しても低い値が出力されることになる。したがって、全ての学習済みカテゴリに対する出力値が低い場合には、その画像が未学習カテゴリであることを、精度よく検知することができる。
また、相対的確率と絶対的確率の双方を、相対的目的関数と絶対的目的関数を統合した統合目的関数によって学習することによって、この構成による画像認識の処理動作に最適な識別器を学習することができる。
よって、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度を高精度とすることができる。
第7の発明に係る画像認識プログラムは、前記第1、第3、又は第5の発明のうち何れか1つに係る画像認識装置の各部として機能させるための画像認識プログラムである。
以上述べたように、本発明によれば、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度を高精度とすることができる画像認識装置、画像認識方法、及び画像認識プログラムを提供することができる。
通常の学習技術により学習したCNN識別器の様子の一例を表す図である。 本発明の実施形態に係る画像認識装置100の構成の一例を示す機能ブロック図である。 本発明の実施形態に係る画像認識装置100の構成の一例を示す機能ブロック図である。 本発明の実施形態に係る画像認識装置100の構成の一例を示す機能ブロック図である。 本発明の実施の形態に係る画像認識装置100が、絶対的確率のみを基に判定を行う構成の場合の認識処理の流れを示すフローチャートである。 本発明の実施の形態に係る画像認識装置100が、対的確率と絶対的確率の積を基に判定を行う構成の場合の認識処理の流れを示すフローチャートである。 相対的確率、絶対的確率及びその積の関係を示す図である。 本発明の実施の形態に係る画像認識装置100の学習処理フローを示すフローチャートである。
以下、本発明の実施の形態について図面を用いて説明する。
<<全体構成>>
図2は、本発明の実施形態に係る画像認識装置100の構成の一例を示す機能ブロック図である。
図2に示す画像認識装置100は、識別器110を備え、さらに、入力部120、学習制御部130、及び出力部140を備える。さらに識別器110は、特徴抽出部111、相対的確率算出部112、絶対的確率算出部113、及び判定部114を備えた構成を取る。
画像認識装置100は、入力部120及び出力部140を介して外部と通信手段を介して接続されて相互に情報通信する。
入力部120からは外部からの入力、より具体的には、識別器110の学習時には学習データ150を、実際に認識を行う際には画像160を受け取る。出力部140は、入力された画像160の認識結果170を出力する。あるいは、学習済みの識別器110を構成する各部の学習済みパラメータを出力しても構わない。
識別器110を学習する際には、入力部120から入力された学習データ150は、識別器110及び学習制御部130に伝達され、学習制御部130の制御に従い、識別器110の学習処理が実行される。この結果、識別器110の各部のパラメータが決定される。
学習処理は、本発明による画像認識装置100を利用する上で、事前に少なくとも一度実行していればよく、毎回実行する必要はない。然るに、仮に一度学習処理を実行した後の識別器110を保持しているならば、学習制御部130を具備しない構成をとっても構わない(図3)。さらに、構成によっては、最終的な判定に用いる確率は絶対的確率のみとすることも可能であり、この場合にはさらに相対的確率計算部を具備しない構成をとってもよい(図4)。
本発明の構成の一例においては、学習データ150は画像認識装置100の外部から通信を用いて入力される。通信手段は任意の公知ものを用いることができるが、本実施形態においては、外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。
学習データ150には、少なくとも1組の画像ファイルとそのカテゴリ(正解カテゴリ)を示す情報が格納されているとする。さらに、各画像ファイルと正解カテゴリを一意に識別可能な識別子(例えば、ファイル固有の通し番号によるID等)が関連づけられており、任意のファイルを参照できるものであるとする。その他、メタデータとして、画像のタイトル、概要文、キーワード、フォーマット(ファイル形式、データサイズ)などを含んでいても構わないが、本発明の実施形態の一例においては利用しない。
正解カテゴリは、それに組となる画像が、予め規定された全てのカテゴリのそれぞれについて属するか否かを判断できる情報であるとする。最も単純には、その画像が属するカテゴリ名(またはそのID)が列挙されているような形式である。例えば、ある画像Aが「犬」と「鳥」を写した画像であるような場合には、正解カテゴリは{「犬」、「鳥」}という情報となる。
なお、ここで、このような正解カテゴリ情報を定義するためには、認識の対象となる(すなわち、学習の対象となる)カテゴリが予め規定されている必要がある。このような学習対象となるカテゴリを規定のカテゴリと称する。
学習済みの識別器110を用いて、実際に画像160を認識する際には、入力部120から入力された画像160は、識別器110に伝達され、特徴抽出部111、相対的確率算出部112、絶対的確率算出部113、判定部114を経て認識結果を求め、これが出力部140を介して外部に認識結果170として出力される。
なお、図2において、実線矢印、破線矢印はそれぞれ画像認識処理時、識別器110の学習時のそれぞれのデータの通信とその方向を表している。
画像認識装置100が備える各部は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像認識装置100が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
<<処理部の説明>>
本実施の形態における画像認識装置100の各処理部について説明する。なお、入力部120、出力部140については、その動作は既に詳細に説明したので、ここでは識別器110を構成する各部の詳細、並びに、学習制御部130の詳細について述べる。
なお、学習処理時と認識処理時で動作が異なるため、わかりやすさのため、まず認識処理時の場合の処理動作について説明し、後に学習処理時の処理動作について説明する。
<<<認識処理時の処理動作の詳細>>>
認識処理時には学習制御部130は関わらず、識別器110が処理を実行する。以降、少なくとも一度学習処理が実行され、識別器110のパラメータは学習済みであるとする。
識別器110の処理は、判定部114が、絶対的確率のみを基に判定を行うか(図4に示した識別器110の構成を取る)、相対的確率と絶対的確率の積を基に判定を行うか(図2又は図3に示した識別器110の構成を取る)によって異なる。
まず、特徴抽出部111は、入力された画像160を受け取り、これに対して一つ以上の特徴量を抽出し、絶対的確率算出部113(及び相対的確率算出部112)に出力する。
相対的確率算出部112は、特徴抽出部111から入力された特徴量を基に、規定のカテゴリのそれぞれについて、画像160が当該カテゴリに属しうる確率を相対的な確率として表現した相対的確率を求め、判定部114に出力する。
絶対的確率算出部113は、特徴抽出部111から入力された特徴量を基に、規定のカテゴリのそれぞれについて、画像160が当該カテゴリに属しうる確率を表現した絶対的確率を求め、判定部114に出力する。
判定部114は、先に示したように、構成に応じて2種類の処理動作を取り得る。まず、絶対的確率のみを基に判定を行う構成の場合には、何れの絶対的確率の値も所定の閾値を超えない場合に、画像160が未学習カテゴリの画像であると判定し、出力部140に出力する。また、もし閾値を超える絶対的確率が存在した場合には、画像160が属する規定のカテゴリを判定する。
一方、もし相対的確率と絶対的確率の積を基に判定を行う場合には、規定のカテゴリのそれぞれについて、相対的確率と絶対的確率の積を求め、何れのカテゴリの相対的確率と絶対的確率の積の値も所定の閾値を超えない場合に、画像160が未学習カテゴリの画像であると判定し、出力部140に出力する。また、もし閾値を超える相対的確率と絶対的確率の積が存在した場合には、画像160が属する規定のカテゴリを判定する。
判定の方法は様々であるが、例えば、規定のカテゴリの中で最大の値を取るものに対応するカテゴリに属すると判定してもよいし、あるいは、閾値を超えた全てのカテゴリに属すると判定してもよい。閾値は0以上1以下の任意の値を取ってよい。
続いて、認識処理時の処理の流れについて詳細に説明する。処理の流れについても、判定部114の処理動作に応じて2種類の流れがあり得る。
図5は、絶対的確率のみを基に判定を行う構成の場合の認識処理の流れを示すフローチャートである。
まず、画像が入力された場合に、それに対して特徴抽出処理を行い一つ以上の特徴量を抽出する(ステップS501)。
続いて、特徴量を基に、規定のカテゴリのそれぞれについて、画像が当該カテゴリに属しうる確率を表現した絶対的確率を求める(ステップS502)。
最後に、絶対的確率と所定の閾値を比較することで入力画像が未学習カテゴリの画像であると判定するか、あるいは入力画像が属する規定のカテゴリを判定し、出力する(ステップS503)。
図6は、相対的確率と絶対的確率の積を基に判定を行う構成の場合の認識処理の流れを示すフローチャートである。
まず、画像が入力された場合に、それに対して特徴抽出処理を行い一つ以上の特徴量を抽出する(ステップS601)。
続いて、抽出された特徴量を基に、規定のカテゴリのそれぞれについて、画像が当該カテゴリに属しうる確率を相対的な確率として表現した相対的確率を求める(ステップS602)。
続いて、特徴量を基に、規定のカテゴリのそれぞれについて、画像が当該カテゴリに属しうる確率を表現した絶対的確率を求める(ステップS603)。
最後に、規定のカテゴリのそれぞれについて、相対的確率及び絶対的確率の積を求め、全てのカテゴリの相対的確率及び絶対的確率の積と所定の閾値を比較することで入力画像が未学習カテゴリの画像であると判定するか、あるいは入力画像が属する規定のカテゴリを判定し、出力する(ステップS604)。具体的には、何れのカテゴリの相対的確率と絶対的確率の積の値も所定の閾値を超えない場合に、画像が未学習カテゴリの画像であると判定する。
以上の処理により、入力された画像に対して、その画像が属する規定のカテゴリを判定するか、あるいは、未学習のカテゴリに属するものであることを判定する。
<<<認識処理時の処理詳細>>>
以降、認識処理時の識別器110の各処理の詳細処理について、本実施形態における一例を説明する。
[特徴抽出]
入力された画像に対して、それを表現する一つ以上の特徴量を抽出する方法について説明する。抽出する特徴量は、画像に対して一義的に定まる、固定の次元を持つ数値の配列あるいはテンソル(本稿においては、多次元配列を指すものとする)として表現できるものであれば、任意の公知のものを用いてよい。
例えば、局所特徴量を抽出する。一般に、局所特徴量は、画像に一部領域の画像的特徴を特徴量ベクトルとして記述する記述子によって構成される。例えば参考文献3に記載のSIFTは輝度値の勾配を表現した記述子によって記述される。
[参考文献3]David G. Lowe: Distinctive Image Features from Scale-Invariant Keypoints. Int. J. Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004.
これ以外にも様々な記述子が一般に知られており、任意のものを用いて構わない。また、画像全体を領域として記述してもよいし、あるいは画像平面上格子状に領域を取っても構わない。あるいは、局所特徴量の統計量を求めても構わない。
また、必ずしも局所特徴量を用いる必要はなく、例えば、領域ごとに明るさ特徴、色特徴、形状特徴などを抽出しても構わない。
明るさ特徴としては、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出することができる。この場合、各画像はV値の量子化数(例えば、16ビット量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
色特徴としては、L*a*b*色空間における各軸(L*、a*、b*)の値を数え上げることで、ヒストグラムとして抽出することができる。各軸のヒストグラムのビンの数は、例えば、L*に対して4、a*に対して14、b*に対して14などとすればよく、この場合、3軸の合計ビン数は、4×14×14=784、すなわち784次元のベクトルとなる。
形状特徴としては、例えば参考文献4に記載のHistogram of Oriented Gradients(HOG)として知られる特徴量ベクトルを抽出すればよい。
[参考文献4]Navneet Dalal, Bill Triggs: Histograms of Oriented Gradients for Human Detection. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp. 886-893, 2005.
最も好適には、畳み込みフィルタによる特徴量を抽出する。これは、参考文献1などに記載のCNNにおける畳み込み層の出力を求めることに相当する。すなわち、所定のサイズを持った畳み込みフィルタを所定の数分だけ用意し、これらを所定のストライド(スキップ幅)で入力画像に畳み込む。結果として出力される特徴量は、サイズとストライド、畳み込みフィルタの数に依存した3階のテンソル(3次元配列)の形を取る。サイズ、ストライド、フィルタの数は任意の自然数を取ることができ、例えばサイズを3、ストライドを1、フィルタの数を64などとすればよい。
また、さらに、このような畳み込み層を一つ以上適用しても構わない。複数の畳み込み層を適用した場合であっても、結果として出力される特徴量は3階のテンソルであることに変わりはない。
加えて、結果的に特徴量が求められる構成であれば、必ずしも畳み込み層だけによって構成されている必要はない。例えば、参考文献1に記載の最大値プーリング層や、Rectangular Linear Unit(ReLU)関数等の非線形関数などを介在させても構わない。
あるいは、同じく参考文献1に記載の全結合層(線形層)や、参考文献2に記載の大局的平均値プーリング層などを用いても構わない。
以上のように、画像を表現する一つ以上の特徴量を求めることができる。
なお、言うまでもなくテンソルは1次元のベクトルに変換可能である。例えば、仮に2×3×4のサイズを持つ3階テンソルがあったとすると、このテンソルには合計24個の数値が要素として格納されているから、24次元のベクトルとして表現可能である。
さらに、一般に、任意の次元D(Dは自然数)を持つベクトルは、d×Dのサイズを持つ任意の線形な射影行列によってd次元ベクトル(dは自然数)へと変換可能である。例えば、D=10のベクトルがあったとすると、これに5×10の射影行列Aを掛けると、結果として出力されるベクトルはd=5次元のベクトルとなる。以降、断らない限り、特徴量は1次元ベクトルに変換されており、また、さらに線形な射影行列を介して、規定のカテゴリの種類と同数の次元を持つベクトルへと変換されているとして説明する。
[確率計算]
次に、抽出した特徴量に基づいて、相対的確率、絶対的確率を計算する処理について説明する。
i番目の規定のカテゴリに属する相対的確率rを求めるには、下記のソフトマックス関数を用いることができる。
なお、xはある画像に対して求められたd次元の特徴量(ベクトル)であり、xはそのi番目の要素を表す。(1)式によって計算されたr(x)は、特徴量x(に対応する画像)が、i番目の規定のカテゴリに属する確率を表すと解釈することができる。ただし、(1)式の分母から明らかな通り、この確率はd個の規定のカテゴリのうち、i番目のカテゴリに相対的にどの程度属するらしいかを表す、相対的な確率となっている。このようにして相対的確率を求めることが可能である。
同様に、i番目の既定のカテゴリに属する絶対的確率aを求めるには、下記のシグモイド関数を用いることができる。
(1)式の場合とは異なり、(2)式によって求められる確率はi番目の要素にのみ依存して決まり、他の要素には依存しない。すなわち、a(x)は、特徴量x(に対応する画像)が、i番目の規定のカテゴリに属する確率を、相対的にではなく、絶対的に評価した場合の確率を表すと解釈することができる。このようにして絶対的確率を求めることが可能である。
以上のように、相対的確率と絶対的確率を求めることができる。もちろん、絶対的確率のみを用いて判定を行う場合には、識別時には相対的確率の計算は省略してよい。
[判定]
続いて、先に求めた絶対的確率、あるいは相対的確率と絶対的確率の積から、入力画像が属する規定のカテゴリを判定するか、あるいは、規定のカテゴリのいずれにも属さないことを判定する。
まず、これを判断するために、d種類の規定のカテゴリに対する最終的な帰属確率pを求める。
絶対的確率のみを基に判定を行う場合には、次の式を用いる。
また、相対的確率と絶対的確率の積を用いて判定する場合には、次式を用いる。
これは、規定のカテゴリのそれぞれについて、相対的確率と絶対的確率の積を求めたことを意味する。
この最終的な帰属確率p(x)を用い、入力画像のカテゴリを次の手順で判定する。
1.i=1、・・・、dの全てのp(x)について、所定の閾値τよりも大きい値を取るものがあるかどうかを調べ、あった場合には2.に進み、なかった場合には「未学習のカテゴリに属する」と判定する。
2.所定の閾値τを超えたカテゴリから、選択規則Jに基づいて当該画像が属するカテゴリを選択し、選択された規定のカテゴリに属すると判定する。
ここで、選択規則Jは、一つ以上のカテゴリと、その最終的な帰属確率が与えられた下で、一つ以上のカテゴリを選択する規則を指すものである。どのようなものでも構わないが、好ましくは次のいずれかを用いる。
A.与えられたカテゴリの中で、帰属確率が最も高いものを一つ選択する。
B.与えられたカテゴリの中で、帰属確率が最も高いものから順に最大N個選択する。
C.与えられたカテゴリ全てを選択する。
なお、(4)式のように、相対的確率と絶対的確率の積を最終的な帰属確率とすることは、入力画像がd種類の規定のカテゴリのいずれかに属する場合に、その認識精度を高く保ちつつ、さらに、規定のカテゴリのいずれにも属さない、すなわち、未学習のカテゴリに属するような場合にもその判定精度を高める効果を持つ。このことについて説明する。
一般に、絶対的確率よりも相対的確率の方が認識精度は高くなりやすいことが知られている。一方、(1)式からもわかる通り、相対的確率は、d種類の規定カテゴリについての総和が1になるように正規化される。言い換えれば、他のカテゴリに属する確率と比してどのカテゴリに属するかを見積もっているのであって、独立にそれぞれのカテゴリに属する/しない確率を求めることはできない。したがって、未学習のカテゴリに属しているか否かについては、直接的な情報を与えない。
反対に、絶対的確率は、純粋にそのカテゴリに属しているらしいかどうかということを、他のカテゴリに属するか否かとは独立に見積もる。したがって、仮に、規定したカテゴリ全てに対して確率が低い場合には、その画像が属すべきカテゴリは規定のカテゴリの中に存在しないであろうことが推察できる。
以上の通り、入力された画像が規定のカテゴリに属している場合には相対的確率が、属していない場合には絶対的確率が有効であると考えられるわけであるが、当然のことながら、事前にいずれのケースに当てはまるかを伺い知ることはできない。そこで、本発明の実施形態は、(4)式に従ってこれらの積を取り、双方の利点を併せ持つ認識を実現する。つまり、仮に既定のカテゴリに属するような画像であった場合、相対的確率と絶対的確率双方が高くなり、その積は依然として相対的確率の認識力を有する。もし既定のカテゴリに属さないような場合には、相対的確率はいくつかの規定のカテゴリに対して高い値を持ってしまうものの、絶対的確率は全てのカテゴリに対してその値が小さくなるため、その積は小さく抑えられるのである。
別の観点から積の効果に関する直観的解釈を説明する。図7は、仮にd=2であった場合の、相対的確率(r(x)、r(x))、絶対的確率(a(x)、a(x))、及び、これらの積(p(x)、p(x))の取り得る値の範囲を示している。相対的確率は、和が1になるため(r(x)+r(x)=1)、取り得る値の範囲は図中の黒直線上に拘束される。また、絶対的確率はそれぞれ独立に0〜1の値を取るため、図中横線領域で示す正方形内の値を取り得る。一方、これらの積を取ると、図中斜線領域で示す三角形の内部の値を取るように制約できる。すなわち、その和は常に1以下(p(x)+p(x)≦1)になる。すなわち、p(x)+p(x)+p(x)=1となるようなp(x)≧0が存在し、これが未学習のカテゴリの確率であると仮定することができる。言い換えれば、両者の積を取ることによって、仮想的に規定のカテゴリに加え、未学習カテゴリを想定した相対的確率を求めるような効果を期待することができるのである。
以上の処理によって、規定のカテゴリの認識精度も、未学習カテゴリの判定精度も高い判定を実行することができる。
以上が、認識処理時の処理動作の一例である。
<<<学習処理時の処理動作の詳細>>>
続いて、学習処理時の処理動作について説明する。学習処理は、学習制御部130が発行する制御命令により、識別器110を動作させることによって実行される。
本発明の実施形態の一例においては、学習制御部130の制御命令は少なくとも次の2種類を用意する。
1.確率計算命令:学習データ150のうち、学習制御部130により定められた画像について、相対的確率、絶対的確率、及びこれらの積のうち、指定されたものを求める。これらの確率は、先に説明した特徴抽出処理〜判定処理を定められた画像のそれぞれに対して適用することで計算可能である。なお、画像を定める手段は、学習データ150に含まれる画像の中から一つ以上を選択する方法であればいかなるものを用いても構わないが、最も簡単には所定の数(例えば128枚)をランダムに選ぶ。
2.逆伝搬命令:目的関数(後述)に従い、参考文献1や参考文献2に記載の誤差逆伝搬法を用いて学習を行い、識別器110のパラメータを更新する。誤差逆伝搬法は、計算された目的関数に基づき、相対的確率、絶対的確率、及びこれらの積を求める上で適用される、識別器110内部に用いられる関数のパラメータを、目的関数の値が大きく又は小さくなるように更新するための方法であり、条件付微分可能であるようなパラメータを更新することができる。例えば、先に示した通り、特徴抽出にCNNの畳み込みフィルタを用いるような場合はこの条件を満たすため、利用可能である。
学習制御部130は、上記命令の結果、及び、識別器110の状態(進捗や完了)を監視・取得する機能を備えているものとする。
実際の処理の流れを、図8を用いて説明する。
まず、入力された学習データ150に対して、学習制御部130が確率計算命令を識別器110に発行し、求める確率を指定すると共に、その計算結果を取得する(ステップS801)。
続いて、確率計算命令が完了したら、学習制御部130が逆伝搬命令を識別器110に発行し、識別器110がそれに応じて誤差逆伝搬法により識別器110のパラメータを更新する(ステップS802)。
以上2つの処理を終了条件が満たされるまで繰り返す。
終了条件については任意のものを用いてよいが、例えば、「所定の回数を繰り返すまで」、「目的関数の値が一定以上変化しなくなるまで」、「目的関数の値が一定以下になるまで」、「学習データとは別に用意された検証用データを用いた場合の目的関数の値が一定以上変化しなくなるまで」、「学習データとは別に用意された検証用データを用いた場合の目的関数の値が一定以下になるまで」などとすればよい。
例えば、学習データ150の中に画像が1000枚含まれており、学習制御部130が選択する画像を50枚、終了条件を「20回繰り返すまで」とすると、学習制御部130が学習データ150の中から画像を50枚選択してステップS801とS802の処理を行い、さらに学習制御部130が画像を50枚選択してステップS801とS802の処理を行うというように上記ステップS801とS802を終了条件である20回繰り返す。
なお、上記確率計算命令において、どの確率を求めるように指定するかは、任意に定めることができる。誤差逆伝搬法においては、目的関数の構成によって更新されるパラメータとその更新値が変化するが、後に述べるように、指定される確率と利用される目的関数は1対1対応するため、どの確率が指定されるかによって、識別器110がどのように学習されるかが変化する。好ましくは、次の三つの方法により与える。
(1)まず一度、常に相対的確率を指定して、終了条件が満たされるまで学習を行った後、次に、常に絶対的確率を指定して、終了条件が満たされるまで学習を行う。
(2)常に絶対的確率、及び、相対的確率と絶対的確率の積の2種を指定して、終了条件が満たされるまで学習を行う。
(3)常に相対的確率、絶対的確率、及び、相対的確率と絶対的確率の積の3種を指定して、終了条件が満たされるまで学習を行う。
(1)の方法は、判定処理が絶対的確率のみによって判定を行う場合に適した方法である。先に相対的確率が期待する出力となるように学習することで、規定のカテゴリに対して高い認識精度を持つような識別器を学習した後、その識別器を初期識別器と考えて、さらに絶対的確率に基づく学習により識別器の修正学習を行う。こうすることで、先に保持した規定のカテゴリに対する認識精度を保持しつつ、未学習カテゴリを判定可能な識別器を構成することが可能になる。
(2)や(3)の構成を取る場合には、判定処理が相対的確率と絶対的確率の積によって判定を行う場合に適した方法である。最終的に判定に用いる相対的確率と絶対的確率の積に適した目的関数を用いて学習するので、より高精度な判定を行うことが可能になる。
目的関数は、対応する確率が期待通りに学習されるように設計される。ある学習用画像について、正解カテゴリを表す正解ベクトルをc=(c、c、・・・、c)と表す。正解ベクトルcの要素は0か1のいずれかの値を取るものとし、学習用画像が属する規定のカテゴリに対応する要素のみ1を取る。以下に各確率に対する目的関数の一例を示す。
相対的確率についての目的関数Eは、下記のように設計される。
この目的関数において、正解カテゴリ以外の要素についてはcが0となることに注意すると、正解カテゴリに対応する相対的確率が大きければ大きいほど、この目的関数は小さい値を取るようになる。すなわち、これを最小化するように識別器110を誤差逆伝搬法で更新することで、所望の相対的確率を得ることができる。
絶対的確率についての目的関数Eは、下記のように設計される。
この目的関数では、正解カテゴリであるようなカテゴリ(c=1)については右辺総和内第1項のみが残り、そうでない場合(c=0)については第2項のみが残るような形を取る。前者の場合には、対応する絶対的確率が大きければ大きいほど、後者については小さければ小さいほど、この目的関数は小さい値を取るようになる。すなわち、これを最小化するように識別器110を誤差逆伝搬法で更新することで、所望の絶対的確率を得ることができる。
相対的確率と絶対的確率の積についての目的関数E(統合目的関数)は、下記のように設計される。
(5)式と比較すれば、この目的関数が積a(x)r(x)に対して相対的確率の目的関数Eと同様の振る舞いをすることがわかるであろう。
上記の目的関数はいずれも微分可能であるから、いずれも誤差逆伝搬法を用いることができる。なお、E、E、Eの全ての目的関数を用いる必要は必ずしもない。(1)EとE、(2)Eのみ、(3)EとEのいずれかを用いれば、少なくとも本発明が望む識別器110を構成することは可能である。好ましくは(3)の構成を用いるのがよい。
また、2種以上の確率を常に指定する場合において、例えば(2)EとE、(3)EとEとEというような2以上の目的関数を用いる場合には、2以上の目的関数の和が最小化されるように識別器110を誤差逆伝搬法で更新してもよい。
すなわち、(1)の方法では、ステップS801において、学習データ150から選択された画像の各々に対して、識別器110により相対的確率を計算し、続いて、ステップS802において、計算された相対的確率と、正解カテゴリとに基づいて、相対的確率についての目的関数Eを最小化するように、識別器110のパラメータを更新する。このステップS801、S802の処理を、終了条件が満たされるまで行う。次に、学習データ150から選択された画像の各々に対して、識別器110により絶対的確率を計算し、続いて、ステップS802において、計算された絶対的確率と、正解カテゴリとに基づいて、絶対的確率についての目的関数Eを最小化するように、識別器110のパラメータを更新する。このステップS801、S802の処理を、終了条件が満たされるまで行う。
また、(2)の方法では、ステップS801において、学習データ150から選択された画像の各々に対して、識別器110により相対的確率及び絶対的確率を計算し、続いて、ステップS802において、計算された相対的確率及び絶対的確率と、正解カテゴリとに基づいて、絶対的確率についての目的関数E、及び相対的確率と絶対的確率の積についての目的関数Eの和を最小化するように、識別器110のパラメータを更新する。このステップS801、S802の処理を、終了条件が満たされるまで行う。
また、(3)の方法では、ステップS801において、学習データ150から選択された画像の各々に対して、識別器110により相対的確率及び絶対的確率を計算し、続いて、ステップS802において、計算された相対的確率及び絶対的確率と、正解カテゴリとに基づいて、相対的確率についての目的関数E、絶対的確率についての目的関数E、及び相対的確率と絶対的確率の積についての目的関数Eの和を最小化するように、識別器110のパラメータを更新する。このステップS801、S802の処理を、終了条件が満たされるまで行う。
以上の処理によって、規定のカテゴリの認識精度も、未学習カテゴリの判定精度も高い判定を実行可能な識別器110を学習することができる。
以上が、学習処理時の処理動作の一例である。
以上説明したように、本発明の実施の形態に係る画像認識装置によれば、相対的確率と絶対的確率の双方を用いて学習した識別器を使い、絶対的確率を判定に用いる。識別器は一度、相対的確率に基づいて学習されているため、学習済みのカテゴリに属する画像が入力された際には正解となるカテゴリに対して高い値を出力することができ、認識精度を高く保つことができる。また、未学習カテゴリに属するような画像が入力された場合であっても、絶対的確率に基づく評価を行うことで、どの学習済みカテゴリに対しても小さい確率値を出力することができるため、未学習カテゴリであると、精度よく判定することができる。
さらに、本発明の実施の形態では、相対的確率と絶対的確率の積を判定に用いる構成を取ることができ、この場合にはさらに高精度な認識が可能になる。学習済みのカテゴリに属する画像が入力された際には、絶対的確率と相対的確率の双方が正解となるカテゴリに対して高くなりやすいため、認識精度を高く保つことができる。また、未学習カテゴリに属する画像が入力された際には、相対的確率はいずれかの学習済みカテゴリについて高い確率を出力しうるものの、絶対的確率はどのカテゴリに対しても小さい値を取るため、その積はどの学習済みカテゴリに対しても低い値が出力されることになる。したがって、全ての学習済みカテゴリに対する出力値が低い場合には、その画像が未学習カテゴリであることを、精度よく検知することができる。
加えて、相対的確率と絶対的確率の双方を、相対的目的関数と絶対的目的関数を統合した統合目的関数によって学習することによって、この構成による画像認識の処理動作に最適な識別器を学習することができ、さらに性能を改善することが可能である。
結果、学習済みカテゴリの認識精度を保持しつつも、未学習カテゴリの検知精度が高精度となるような画像認識方法、画像認識装置、画像認識プログラムを提供することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
100 画像認識装置
110 識別器
111 特徴抽出部
112 相対的確率算出部
113 絶対的確率算出部
114 判定部
120 入力部
130 学習制御部
140 出力部
150 学習データ
160 画像
170 認識結果

Claims (7)

  1. 入力される少なくとも一つの画像である入力画像が入力された際に、規定のカテゴリの中から前記入力画像が属するカテゴリを出力するか、又は、前記入力画像が前記規定のカテゴリのいずれにも属さないかを出力する識別器を備える画像認識装置であって、
    前記識別器は、
    前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を相対的な確率として表現する相対的確率を求める相対的確率算出部と、
    前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を表現する絶対的確率を求める絶対的確率算出部と、
    何れのカテゴリの前記絶対的確率も所定の閾値を超えない場合には、前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力する判定部と、
    を含み、
    前記識別器は、学習用画像、及び、前記学習用画像が属する正解カテゴリを含む組の一つ以上からなる学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記相対的確率について、前記正解カテゴリに対応する前記相対的確率が大きければ大きいほど、小さい値を出力する相対的目的関数、及び、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記絶対的確率について、前記正解カテゴリに対応する前記絶対的確率が1に近ければ近いほど、又は、前記正解カテゴリでないカテゴリに対応する前記絶対的確率が0に近ければ近いほど、小さい値を出力する絶対的目的関数の2つの目的関数の出力値が、より小さい値となるように学習される画像認識装置。
  2. 前記識別器は、前記相対的目的関数の出力値が小さい値となるように学習された後に、前記絶対的目的関数の出力値が小さい値となるように学習される請求項1に記載の画像認識装置。
  3. 前記判定部は、前記規定のカテゴリのそれぞれについて、前記入力画像に対して計算された前記相対的確率と前記絶対的確率との積を求め、何れのカテゴリの前記積も所定の閾値を超えない場合には前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力し、
    前記識別器は、前記学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して前記規定のカテゴリのそれぞれについて計算した前記相対的確率と前記絶対的確率との積について、前記正解カテゴリに対応する前記積の値が大きければ大きいほど、小さい値を出力する統合目的関数の出力値が、より小さい値となるように学習される請求項1又は2に記載の画像認識装置。
  4. 識別器が、入力される少なくとも一つの画像である入力画像が入力された際に、規定のカテゴリの中から前記入力画像が属するカテゴリを出力するか、又は、前記入力画像が前記規定のカテゴリのいずれにも属さないかを出力する画像認識方法であって、
    前記識別器において、
    相対的確率算出部が、前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を相対的な確率として表現する相対的確率を求める相対的確率算出部ステップと、
    絶対的確率算出部が、前記規定のカテゴリのそれぞれについて、前記入力画像が前記カテゴリに属しうる確率を表現する絶対的確率を求めるステップと、
    判定部が、何れのカテゴリの前記絶対的確率も所定の閾値を超えない場合には、前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力するステップと、
    を含み、
    前記識別器は、学習用画像、及び、前記学習用画像が属する正解カテゴリを含む組の一つ以上からなる学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記相対的確率について、前記正解カテゴリに対応する前記相対的確率が大きければ大きいほど、小さい値を出力する相対的目的関数、及び、前記学習データにおける前記学習用画像のそれぞれに対して計算した前記絶対的確率について、前記正解カテゴリに対応する前記絶対的確率が1に近ければ近いほど、又は、前記正解カテゴリでないカテゴリに対応する前記絶対的確率が0に近ければ近いほど、小さい値を出力する絶対的目的関数の2つの目的関数の出力値が、より小さい値となるように学習される画像認識方法。
  5. 前記識別器は、前記相対的目的関数の出力値が小さい値となるように学習された後に、前記絶対的目的関数の出力値が小さい値となるように学習される請求項4に記載の画像認識方法。
  6. 前記判定部が判定することでは、前記規定のカテゴリのそれぞれについて、前記入力画像に対して計算された前記相対的確率と前記絶対的確率との積を求め、何れのカテゴリの前記積も所定の閾値を超えない場合には前記入力画像が前記規定のカテゴリのいずれにも属さないと判定して出力し、
    前記識別器は、前記学習データが与えられた下で、前記学習データにおける前記学習用画像のそれぞれに対して前記規定のカテゴリのそれぞれについて計算した前記相対的確率と前記絶対的確率との積について、前記正解カテゴリに対応する前記積の値が大きければ大きいほど、小さい値を出力する統合目的関数の出力値が、より小さい値となるように学習される請求項4又は5に記載の画像認識方法。
  7. コンピュータを、請求項1乃至請求項3記載の何れか1項記載の画像認識装置の各部として機能させるための画像認識プログラム。
JP2017142743A 2017-07-24 2017-07-24 画像認識装置、画像認識方法、及び画像認識プログラム Pending JP2019023801A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017142743A JP2019023801A (ja) 2017-07-24 2017-07-24 画像認識装置、画像認識方法、及び画像認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017142743A JP2019023801A (ja) 2017-07-24 2017-07-24 画像認識装置、画像認識方法、及び画像認識プログラム

Publications (1)

Publication Number Publication Date
JP2019023801A true JP2019023801A (ja) 2019-02-14

Family

ID=65368571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017142743A Pending JP2019023801A (ja) 2017-07-24 2017-07-24 画像認識装置、画像認識方法、及び画像認識プログラム

Country Status (1)

Country Link
JP (1) JP2019023801A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021018495A (ja) * 2019-07-17 2021-02-15 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN113646878A (zh) * 2019-03-28 2021-11-12 浜松光子学株式会社 检查装置及检查方法
JP7477859B2 (ja) 2020-03-13 2024-05-02 国立大学法人横浜国立大学 計算機、計算方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113646878A (zh) * 2019-03-28 2021-11-12 浜松光子学株式会社 检查装置及检查方法
CN113646878B (zh) * 2019-03-28 2024-05-17 浜松光子学株式会社 检查装置及检查方法
JP2021018495A (ja) * 2019-07-17 2021-02-15 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP7301653B2 (ja) 2019-07-17 2023-07-03 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP7477859B2 (ja) 2020-03-13 2024-05-02 国立大学法人横浜国立大学 計算機、計算方法及びプログラム

Similar Documents

Publication Publication Date Title
Guo et al. Learning to measure change: Fully convolutional siamese metric networks for scene change detection
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN107533669B (zh) 滤波器特异性作为用于神经网络的训练准则
CN111738231B (zh) 目标对象检测方法、装置、计算机设备和存储介质
EP3333768A1 (en) Method and apparatus for detecting target
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
US20150325046A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
US11443514B2 (en) Recognizing minutes-long activities in videos
US20170032247A1 (en) Media classification
US20180157892A1 (en) Eye detection method and apparatus
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
Bianco et al. Predicting image aesthetics with deep learning
CN108681746A (zh) 一种图像识别方法、装置、电子设备和计算机可读介质
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN110506274B (zh) 图像中的对象检测和表示
US11568212B2 (en) Techniques for understanding how trained neural networks operate
CN113297572A (zh) 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置
CN113743426A (zh) 一种训练方法、装置、设备以及计算机可读存储介质
JP2019023801A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Defriani et al. Recognition of regional traditional house in Indonesia using Convolutional Neural Network (CNN) method
Singh et al. Performance Analysis of CNN Models with Data Augmentation in Rice Diseases
US20230386185A1 (en) Statistical model-based false detection removal algorithm from images
KR102127855B1 (ko) 검출 반복성을 최대화 하는 특징점 선별방법
CN115641575A (zh) 一种基于稀疏候选框的叶蝉科农业害虫检测方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170726