JP2020112926A - 誤認識を抑制可能な画像認識システムおよび画像認識方法 - Google Patents

誤認識を抑制可能な画像認識システムおよび画像認識方法 Download PDF

Info

Publication number
JP2020112926A
JP2020112926A JP2019001909A JP2019001909A JP2020112926A JP 2020112926 A JP2020112926 A JP 2020112926A JP 2019001909 A JP2019001909 A JP 2019001909A JP 2019001909 A JP2019001909 A JP 2019001909A JP 2020112926 A JP2020112926 A JP 2020112926A
Authority
JP
Japan
Prior art keywords
recognition
image
recognition result
individual
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019001909A
Other languages
English (en)
Other versions
JP7269013B2 (ja
Inventor
洋一 三谷
Yoichi Mitani
洋一 三谷
安藤 晋一郎
Shinichiro Ando
晋一郎 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kawasaki Heavy Industries Ltd
Original Assignee
Kawasaki Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kawasaki Heavy Industries Ltd filed Critical Kawasaki Heavy Industries Ltd
Priority to JP2019001909A priority Critical patent/JP7269013B2/ja
Publication of JP2020112926A publication Critical patent/JP2020112926A/ja
Application granted granted Critical
Publication of JP7269013B2 publication Critical patent/JP7269013B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 深層学習(ディープラーニング)を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識を有効に抑制する。【解決手段】 画像認識システム10Aは、並列する画像認識処理部13A〜13Cと、入力画像データを画像認識処理部13A〜13Cに分配供給する入力画像分配部12と、画像認識処理部13A〜13Cのそれぞれの認識結果を統合処理する認識結果統合処理部14と、を備える。画像認識処理部13A〜13Cは、認識対象についての互いに異なる学習済の深層学習により画像認識処理を行うものである。認識結果統合処理部14は、入力画像データに含まれる認識候補についての複数の認識結果が全て一致したときには、当該認識結果を認識対象の統合認識結果として出力する。もしくは、複数の認識結果が全て一致しないときには、一致が最も多い認識結果を認識対象の統合認識結果として出力する。【選択図】 図1

Description

本発明は、深層学習(ディープラーニング)を用いた画像認識における誤認識を抑制することが可能な画像認識システムおよび画像認識方法に関する。
機械学習は、準備されたデータ集合に基づいて「機械」自身が学習することにより、当該データ集合から法則性、規則性、判断基準等(学習結果)を発見したり予測したりする技術である。機械学習の手法の一つとして、近年、深層学習(ディープラーニング)が注目されている。深層学習は、ニューラルネットワークを多層化(数十層〜数百層)したものであり、学習プロセスをより高精度化することが可能であるため、様々な分野への適用(または適用の検討)がなされている。
深層学習の代表的な適用分野としては、画像認識が挙げられる。深層学習を用いた画像認識処理は高い汎化能力を有することが知られており、例えば、認識対象X(例えば猫)について数万枚の学習用画像を準備し、これら学習用画像を用いて深層学習に学習させ、この深層学習を用いて画像認識処理システムを構築する。この画像認識処理システムに対して学習に使用していない対象X(猫)の画像を入力しても、その入力画像を適切に対象X(猫)と認識することが可能である。
ところで、機械学習を用いた画像認識処理の分野では、誤認識を抑制するために種々の手法が提案されている。例えば、特許文献1には、放射線画像中から画像認識により対象物を検出する放射線撮影装置において、機械学習を用いた画像認識を行う際の誤検出(誤認識)を抑制することを目的とする技術が提案されている。この技術では、対象物の画像を複数角度に回転させて得られた複数の回転画像を用いた機械学習により、画像認識用の学習結果データを予め取得して記憶しておき、この学習結果データに基づいて、撮影された放射線画像中から画像認識により対象物を検出している。
さらに、深層学習を用いた画像認識処理においては、予想外の誤認識が発生することも最近明らかとなっている。例えば、人間にはノイズ画像にしか見えない画像を対象Xであると認識することが知られている。あるいは、意図的に誤認識するように作成された画像を用いることで、深層学習に誤認識させることが可能であることも報告されている。
例えば、非特許文献1では、学習済のディープニューラルネットワーク(DNN)に対して、微細な摂動(perturbations)を付与した画像を認識させると、誤認識することが報告されており、このように摂動が付与されたexampleを“Adversarial Example”と称している。また、非特許文献2では、非特許文献1とは異なる手法で“Adversarial Example”を作成できることが報告されている。
特開2017−185007号公報
"Intriguing Properties of Neural Networks",Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus著、arXiv org,arXiv:1312.6199 (version 4),2013年12月21日(version 1) "Explaining and Harnessing Adversarial Examples",Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy著、arXiv org, arXiv:1412.6572 (version 3),2014年12月20日(version 1)
特許文献1では、周辺構造の状況が様々に変化することに起因する誤認識の発生を抑制することを目的としており、そのために機械学習を用いている。具体的な機械学習としては、ニューラルネットワーク、サポートベクターマシン(SVM)、ブースティング等の識別器を用いることが記載されており、具体的な一例として、アンサンブル学習の一種であるブースティングが挙げられている。しかしながら、この特許文献1の手法では、予想外の誤認識、あるいは、意図的に作成された画像の誤認識を抑制するものではない。
また、非特許文献1および非特許文献2では、前記の通り、誤認識される画像データである“Adversarial Example”を意図的に作成できることを報告しており、例えば、非特許文献2では、このような“Adversarial Example”を学習用データとして深層学習に用いることで、誤認識を抑制することを提案している。しかしながら、この手法は、他の手法で作成された“Adversarial Example”については誤認識する可能性が考えられる。
本発明はこのような課題を解決するためになされたものであって、深層学習(ディープラーニング)を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識を有効に抑制することを目的とする。
本発明に係る画像認識システムは、前記の課題を解決するために、並列する複数の画像認識処理部と、入力画像データを複数の前記画像認識処理部に分配供給する入力画像分配部と、複数の前記画像認識処理部による認識結果である、複数の個別認識結果を統合処理する認識結果統合処理部と、を備え、前記画像認識処理部は、認識対象について学習済の深層学習により画像認識処理を行い、前記入力画像データに含まれる認識候補について前記個別認識結果を生成し、複数の前記画像認識処理部におけるそれぞれの前記深層学習は互いに異なるものであり、前記認識結果統合処理部は、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力する構成である。
前記構成によれば、複数の画像認識処理部を並列して備えており、これら画像認識処理部の画像認識処理は、認識対象についての深層学習(ディープラーニング)により行われるが、それぞれの深層学習は、認識対象について互いに異なるように学習したものである。そして、これら画像認識処理部からそれぞれ得られる個別認識結果を統合する際には、これら個別認識結果が「全会一致」であるか、もしくは、「多数決」で最も一致が多い個別認識結果を選択し、統合認識結果として出力する。これにより、いずれかの画像認識処理部において、認識対象について予想外の誤認識が発生したり、認識対象の画像が誤認識させるために意図的に作成された画像であったりしても、全会一致または多数決のプロセスで誤認識を実質的に排除することができる。それゆえ、深層学習(ディープラーニング)を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識であっても有効に抑制することが可能となる。
前記構成の画像認識システムにおいては、前記画像認識処理部は、深層学習により画像認識処理を行うことにより、前記入力画像データに含まれる認識候補についての認識結果を確信度とともに生成する個別認識処理部と、生成した認識結果および確信度に基づいて前記認識結果の有効性を判定し、前記認識結果統合処理部に対して、前記認識結果とともに当該認識結果の有効性を前記個別認識結果として出力する個別認識結果判定部と、を備えており、前記認識結果統合処理部は、複数の前記個別認識結果を統合処理する際には、少なくとも前記有効性に基づいて、それぞれの個別認識結果に投票するか否かを判定するとともに、当該投票結果に基づいて前記統合認識結果を生成する構成であってもよい。
また、前記構成の画像認識システムにおいては、前記認識結果統合処理部は、複数の前記個別認識結果がいずれも有効でない場合、または、有効でない前記個別認識結果が有効である前記個別認識結果よりも多い場合には、統合認識結果として不明を出力する構成であってもよい。
また、前記構成の画像認識システムにおいては、複数の前記画像認識処理部には、それぞれ異なる教師画像を用いて学習した深層学習、異なる学習の初期値を設定した深層学習、または、中間層の層数およびセル数の少なくとも一方が異なる深層学習のいずれかが用いられる構成であってもよい。
また、前記構成の画像認識システムにおいては、さらに、前記入力画像分配部に入力画像データを供給する画像供給部と、前記認識結果統合処理部から出力される前記統合認識結果を用いて所定の処理を実行する認識結果使用部との少なくとも一方を備えている構成であってもよい。
また、本発明に係る画像認識処理方法は、認識対象についての互いに異なる学習済の深層学習により画像認識処理を行う画像認識処理部を複数並列し、これら画像認識処理部に対して入力画像データを分配供給して、それぞれの画像認識処理部が画像認識処理を行って、前記入力画像データに含まれる認識候補についての個別認識結果を複数生成し、これら個別認識結果を統合処理し、この統合処理では、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力する構成である。
本発明では、以上の構成により、深層学習(ディープラーニング)を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識を有効に抑制することができる、という効果を奏する。
(A)は、本開示の実施の形態1に係る画像認識システムの構成の一例を示すブロック図であり、(B)は、(A)に示す画像認識システムが備える画像認識処理部の具体的な構成の一例を示すブロック図である。 図1(A)に示す画像認識システムが備える認識結果統合処理部による統合処理の代表的な一例を示すフローチャートである。 本開示の実施の形態2に係る画像認識システムが備える認識結果統合処理部による統合処理の代表的な一例を示すフローチャートである。 本開示の実施の形態3に係る画像認識システムの構成例を示すブロック図である。 図4に示す画像認識システムの構成例を示すブロック図である。
以下、本発明の代表的な実施の形態を、図面を参照しながら説明する。なお、以下では全ての図を通じて同一又は相当する要素には同一の参照符号を付して、その重複する説明を省略する。
(実施の形態1)
図1(A)に示すように、本開示に係る画像認識システム10Aは、画像認識部11Aを備えており、この画像認識部11Aは、入力画像分配部12、画像認識処理部13A〜13C、認識結果統合処理部14を備えている。
入力画像分配部12には、入力画像データが供給され(図中「画像供給」)、この入力画像データを画像認識処理部13A〜13Cに分配供給する。入力画像データには、認識対象となり得る画像が含まれている可能性があるが、含まれていなくてもよい。なお、認識対象となり得る画像を便宜上「認識候補」と称する。
画像認識処理部13A〜13Cは、互いに並列するように設けられており、入力画像分配部12から分配供給された入力画像データについて画像認識処理を行い、入力画像データに含まれる認識候補について認識結果を生成する。この画像認識処理は、認識対象について学習済の深層学習により行われる。認識結果統合処理部14は、画像認識処理部13A〜13Cからそれぞれ出力される認識結果を統合処理して、最終的な認識結果である「統合認識結果」を出力する。
ここで、入力画像データに含まれる認識候補は、画像認識処理部13A〜13Cの画像認識処理により認識対象であるか否か認識されるが、説明の便宜上、この認識候補についての認識結果を「候補認識結果」と称する。画像認識処理部13A〜13Cでは、複数の候補認識結果が得られる可能性があり、この場合には、複数の候補認識結果から適切な認識結果を採用することになる。そこで、画像認識処理部13A〜13Cで採用された適切な認識結果を、候補認識結果と区別して「個別認識結果」と称する。また、画像認識処理部13A〜13Cから得られる3つの個別認識結果は、認識結果統合処理部14により統合されて、最終的な認識結果となるが、この最終的な認識結果を前記の通り「統合認識結果」と称する。
画像認識処理部13A〜13Cは、入力画像データに含まれる可能性のある認識候補について互いに異なる深層学習により画像認識処理を行う。ここでいう「異なる深層学習」とは、特に限定されないが、例えば、それぞれ異なる学習用画像を用いて学習した深層学習、異なる学習の初期値を設定した深層学習、または、中間層の層数およびセル数の少なくとも一方が異なる深層学習等を挙げることができる。あるいは、深層学習のプログラム開発環境を異なるものとしてもよい。
本実施の形態では、例えば、それぞれ異なる学習用画像を用いた深層学習を用いている。具体的には、例えば、認識対象X(例えば猫)について、30000枚の対象画像データを準備し、これらを10000枚ずつ3つの学習用画像群(第一画像群、第二画像群、および第三画像群)に分ける。第一画像認識処理部13Aでは第一画像群を使用して深層学習を行い、第二画像認識処理部13Bでは第二画像群を使用して深層学習を行い、第三画像認識処理部13Cでは第三画像群を使用して深層学習を行う。
画像認識処理部13A〜13Cにおける深層学習(ディープラーニング)の具体的な構成は特に限定されず、公知の構成を好適に用いることができる。具体的には、例えば、畳み込みニューラルネットワーク(CNN)、回帰結合型ニューラルネットワーク(RNN)あるいはLSTM(Long Short-Term Memory)、オートエンコーダ、ボルツマンマシン、敵対的生成ネットワーク(GAN)等が挙げられる。本実施の形態では、例えば、CNNを用いており、パターンマッチングを行う畳み込み層とデータ集約を行うプーリング層とを交互に並べて数十層用意すればよい。
画像認識処理部13A〜13Cは、学習済の深層学習により入力画像データに含まれる可能性のある認識候補について画像認識処理を行えばよく、その具体的な構成は特に限定されないが、例えば、図1(B)に示すように、画像認識処理部13A〜13Cとしては、個別認識処理部131および個別認識結果判定部132を備える構成を挙げることができる。
個別認識処理部131は、深層学習により認識候補についての画像認識処理を行って候補認識結果を生成するが、この画像認識処理では、当該候補認識結果とともにその確信度も生成する。個別認識結果判定部132は、生成した候補認識結果および確信度に基づいて、候補認識結果の有効性を判定し、候補認識結果とともにその有効性を認識結果統合処理部14に対して個別認識結果として出力する。
個別認識処理部131の具体的な構成は特に限定されず、前述した深層学習(例えば、CNN等)であればよいが、この個別認識処理部131では、前記の通り、候補認識結果とともにその確信度を生成する。深層学習における認識結果の確信度は、通常、百分率(パーセンテージ)で生成されるが、複数のランクとして生成されてもよい。なお、本実施の形態では、個別認識処理部131の深層学習は、1種類のみの認識対象X(例えば猫)について学習したものであるとする。
例えば、入力画像データに3つの認識候補が含まれているとして、第一の認識候補については90%の確信度が生成(90%の確信度で「猫」である)され、第二の認識候補については50%の確信度が生成(50%の確信度で「猫」である)され、第三の認識候補について20%の確信度が生成(20%の確信度で「猫」である)されてもよい。あるいは、第一の認識候補については高い確信を示すAランクとして確信度が生成され、第二の認識候補について中間的な確信を示すBランクとして確信度が生成され、第三の認識候補については、低い確信を示すCランクとして確信度が生成されてもよい。
個別認識結果判定部132の具体的な構成は特に限定されず、前記の通り、個別認識処理部131で生成された候補認識結果および確信度から、当該候補認識結果の有効性を判定する。有効性の判定手法についても特に限定されないが、例えば、(1)最も確信度の高い候補認識結果を採用する手法、(2)最も確信度の高い候補認識結果の確信度が十分に高い場合に当該候補認識結果を採用する手法、(3)最も確信度の高い候補認識結果の確信度が十分に高く、かつ、次いで確信度の高い候補認識結果との差が十分にある場合に当該候補認識結果を採用する手法等を挙げることができる。
例えば、前述したように、入力画像データに3つの認識候補が含まれているとすれば、まず(1)の手法では、個別認識結果判定部132は、確信度が最も高い第一の認識候補の候補認識結果を採用して、個別認識結果として出力すればよい。
次に(2)の手法については、複数の候補認識結果の確信度が全て低い場合には、これらの中から最も確信度の高いものを採用することが妥当でない可能性がある。そこで、(2)の手法では、個別認識結果判定部132は、候補認識結果の確信度が十分に高いか否かを閾値等によって判定し、閾値以上であれば、当該候補認識結果を採用して個別認識結果として出力すればよい。例えば、前記のように、確信度が百分率であれば、確信度50%を閾値として50%以上の確信度の候補認識結果を個別認識結果として採用すればよい。また、確信度がランクであれば、Bランク以上の候補認識結果を個別認識結果として採用すればよい。
次に(3)の手法については、複数の候補認識結果のうち確信度1位の候補認識結果と確信度2位の候補認識結果とにおいて、その確信度が僅差である場合には、1位のものをそのまま採用することが妥当でない可能性がある。そこで、(3)の手法では、個別認識結果判定部132は、(2)の手法と同様に閾値等で上位の候補認識結果が十分に確信度の高いものであることを判定するとともに、これらの確信度に十分な差が生じている場合のみ、1位の候補認識結果を採用して個別認識結果として出力すればよい。
ここで、(2)の手法および(3)の手法では、確信度が閾値未満であったり、確信度1位と2位との差が僅差であったりすれば個別認識結果として採用されない。そこで、個別認識結果判定部132では、候補認識結果の有効性についてフラグを設定すればよい。このようなフラグとしては、例えば、確信度が50%以上であれば有効となるバリッドフラグを挙げることができる。個別認識結果判定部132では、当初はバリッドフラグを初期化しておき(バリッドフラグ:0)、個別認識処理部131において、確信度が50%以上の候補認識結果が生成されればバリッドフラグが有効になる(バリッドフラグ:1)。一方、確信度が50%未満の候補認識結果が生成されればバリッドフラグは有効にならないので(バリッドフラグ:0)、当該候補認識結果は無効となる。
画像認識処理部13A〜13Cにおいて、このように候補認識結果の有効または無効を判定するのであれば、当該画像認識処理部13A〜13Cは、認識結果統合処理部14に対して、有効な候補認識結果および無効な候補認識結果のいずれも個別認識結果として出力することができる。認識結果統合処理部14は、画像認識処理部13A〜13Cから出力された複数の個別認識結果を統合処理すればよいが、このとき、個別認識結果に含まれる有効性または無効性を利用することができる。
本開示においては、認識結果統合処理部14では、個別認識結果の統合処理として、(i)複数の個別認識結果が全て一致したときには、当該個別認識結果を認識対象の統合認識結果として出力し、(ii)複数の個別認識結果が全て一致しない場合には、一致が最も多い個別認識結果を認識対象の統合認識結果として出力する。説明の便宜上、(i)のステップを「全会一致」ステップと称し、(ii)のステップを「多数決」ステップと称する。
(i)全会一致ステップおよび(ii)多数決ステップを含む統合処理の具体的な手法は特に限定されないが、本実施の形態では、例えば、個別認識結果に含まれる有効性に基づいて、それぞれの個別認識結果に投票するか否かを判定する統合処理手法を用いることができる。認識結果統合処理部14は、個別認識結果に対する投票結果に基づいて統合認識結果を生成する。
認識結果統合処理部14における投票による統合処理手法について、図2を参照して具体的に説明する。図2に示すフローチャートは、投票による統合処理手法を模式的にステップ化したものであり、この例では、ステップS11〜ステップS19の合計9ステップから構成される。もちろん、統合処理手法はこれに限定されるものではない。
認識結果統合処理部14に対しては、図1(A)に示すように、画像認識処理部13A〜13Cからそれぞれ個別認識結果が出力される。ここで、第一画像認識処理部13Aからの個別認識結果を「第一個別認識結果」と称し、第二画像認識処理部13Bからの個別認識結果を「第二個別認識結果」と称し、第三画像認識処理部13Cからの個別認識結果を「第三個別認識結果」と称する。
認識結果統合処理部14では、図2において、ステップS11およびステップS12のループで示すように、画像認識処理部13A〜13Cから出力された全ての個別認識結果について有効性を判断する。例えば、ステップS11において、第一個別認識結果が認識対象X(例えば猫)であることの有効性を判断し、有効であれば第一個別認識結果について認識対象Xに票数:1を投票する。有効でなければ第一個別認識結果については投票されない。次に、ステップS12では、全ての個別認識結果の有効性が判断されたか否かを判定する。判断済が第一個別認識結果のみであれば(ステップS12でNO)、ステップS11に戻り、第二個別認識結果について有効性を判断する。同様に第三個別認識結果についても有効性を判断する。
全ての個別認識結果について有効性が判断されれば(ステップS12でYES)、それぞれの個別認識結果の獲得票数について判断する。図2に示す例では、ステップS13において、票を獲得した個別認識結果が存在するか否か(獲得票数の有無)について判定する。票を獲得した個別認識結果が存在していれば(ステップS13でYES)、ステップS14において、全ての個別認識結果が票を獲得しているか、すなわち、個別認識結果が全会一致であるか否かを判定する。
第一〜第三個別認識結果の全てが有効であるときには、入力画像データに含まれる任意の認識候補の認識結果(候補認識結果)が認識対象Xについて3票獲得するため、この候補認識結果は全会一致で有効な個別認識結果であると判断される(ステップS14でYES)。そこで、ステップS15において、任意の認識候補が全会一致で認識対象X(例えば猫)であるという統合認識結果が生成される。
一方、第一〜第三個別認識結果のうちいずれか1つが無効であるときには、全会一致にならず(ステップS14でNO)、任意の候補認識結果が認識対象Xについて2票獲得することになる。すなわち、ステップS16において、任意の候補認識結果について、認識対象Xの得票が多いかもしくは無効となる票が多いか(無効票も含めてXが最多得票であるか)判断する。無効票よりも認識対象Xの得票が多ければ、この候補認識結果は、多数決で有効な個別認識結果であると判断される(ステップS16でYES)。そこで、ステップS17において、任意の認識候補が多数決で認識対象X(例えば猫)であるという統合認識結果が生成される。
一方、第一〜第三個別認識結果のうち2つが無効であるが1つが有効であるときにも、全会一致にならず(ステップS14でNO)、任意の候補認識結果に1票獲得することになる。得票数だけで見れば、この候補認識結果は、1票ではあるものの多数決で有効な個別認識結果であると判断することができる。しかしながら、無効票も「得票]と見て多数決を判断すれば、この候補認識結果が「無効」とした方がよい、と判断することができる。そこで、認識対象Xの得票よりも無効票が多い場合には(ステップS16でNO)、任意の認識候補について画像認識部11Aは認識対象Xであるとは認識できなかったと判断し、ステップS18において、不明という統合認識結果が生成される。
そして、第一〜第三個別認識結果のいずれも無効である場合には、任意の候補認識結果の獲得票数は0票である(ステップS13でNO)。それゆえ、この候補認識結果は無効であると判断される。この場合、任意の認識候補について画像認識部11Aは認識対象Xであるとは認識できなかったことになるので、ステップS18において、不明という統合認識結果が生成される。
ステップS15〜S18のいずれかにおいて生成された統合認識結果は、ステップS19として、認識結果統合処理部14から出力される(図1(A)参照)。この統合認識結果は、図1(A)には図示しない認識結果使用装置において使用される。なお、認識結果使用装置については後述する。
このように、本開示に係る画像認識システムまたは画像認識処理方法は、複数の画像認識処理部(例えば3つの画像認識処理部13A〜13C)を並列して備えており、これら画像認識処理部の画像認識処理は、認識対象についての深層学習(ディープラーニング)により行われるが、それぞれの深層学習は、認識対象について互いに異なるように学習したものである。そして、これら画像認識処理部からそれぞれ得られる個別認識結果を統合する際には、これら個別認識結果が「全会一致」であるか、もしくは、「多数決」で最も一致が多い個別認識結果を選択し、統合認識結果として出力する。
前述した図2に示すような得票を用いる例では、全会一致していれば、複数の画像認識処理部において、予想外または意図的な誤認識が生じていないと判断することができる。また、多数決の場合では、無効票より有効票が多ければ、無効となった個別認識結果について予想外または意図的な誤認識が生じている可能性があるものの、複数の有効な個別認識結果において一致が見られるので、これら個別認識結果は適切な画像認識であると判断することができる。
一方、個別認識結果の全てが無効であれば、予想外または意図的な誤認識が生じている可能性があるとともに、そもそも認識候補として適切でない可能性もある。それゆえ、この場合には不明という統合認識結果を出力することで、不適切な画像認識の出力を回避することができる。また、無効票が有効票より多い場合にも、全てが無効である場合と同様に、予想外または意図的な誤認識、あるいは、認識候補として適切でない可能性があるので、不明という統合認識結果を出力すればよい。ただし、1票でも有効票が得られた場合に画像認識が適切であると判断できるのであれば、無効票を無視して多数決で判断することもできる。
それゆえ、本開示に係る画像認識システムまたは画像認識処理方法では、いずれかの画像認識処理部において、認識対象について予想外の誤認識が発生したり、認識対象の画像が誤認識させるために意図的に作成された画像であったりしても、全会一致または多数決のプロセスで誤認識を実質的に排除することができる。したがって、深層学習(ディープラーニング)を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識であっても有効に抑制することが可能となる。
なお、本実施の形態1に係る画像認識システム10Aでは、画像認識処理部は合計3つ並列して備えている(画像認識処理部13A〜13C)が、2つの画像認識処理部を並列して備えてもよいし、4つ以上の画像認識処理部を並列して備えてもよい。
また、本実施の形態1に係る画像認識システム10Aを構成する、入力画像分配部12、画像認識処理部13A〜13C、認識結果統合処理部14は、深層学習の分野で公知のGPU(Graphics Processing Unit),FPGA(Field-Programmable Gate Array),ASIC(Application specific integrated circuit),CPU(Central Processing Unit)等の演算器(演算素子、演算装置)により実現される機能構成であればよいが、少なくとも深層学習を実現する画像認識処理部13A〜13C、あるいは、これに含まれる個別認識処理部131がGPU等の演算器で実現される構成であってもよい。また、画像認識システム10Aが備える一部の構成は、公知のスイッチング素子、減算器、比較器等による論理回路等として構成されてもよいし、独立した装置として構成されてもよい。
(実施の形態2)
前記実施の形態1では、画像認識処理部13A〜13Cにおける深層学習は、1種類のみの認識対象X(例えば猫)について学習したものであったが、本開示においては、画像認識処理部13A〜13Cにおける深層学習は、複数種類の認識対象について学習したものであってもよい。例えば、深層学習が、認識対象X(例えば猫)および認識対象Y(例えば犬)について学習したものであるとして、図3を参照して本実施の形態2について説明する。
本実施の形態2に係る画像認識システム10Aの構成は、前記実施の形態1で説明した通りであるが、前記の通り、深層学習が複数種類の認識対象X(猫)およびY(犬)について学習したものである。図3に示すフローチャートは、図2と同様に、認識結果統合処理部14における投票による統合処理手法を模式的にステップ化したものであり、この例では、ステップS21〜ステップS29の合計9ステップから構成される。もちろん、統合処理手法はこれに限定されるものではない。
認識結果統合処理部14では、図3において、ステップS21およびステップS22のループで示すように、画像認識処理部13A〜13Cから出力された全ての個別認識結果について有効性を判断する。このループは、図2におけるステップS11およびステップS12のループと同様であり、例えば、第一個別認識結果が認識対象X(猫)であることの有効性、並びに、認識対象Y(犬)であることの有効性を判断し、認識対象Xとして有効であれば第一個別認識結果について認識対象Xに票数:1を投票し、認識対象Yとして有効であれば第一個別認識結果について認識対象Yに票数:1を投票する。有効でなければ第一個別認識結果については投票されない。その後、第二個別認識結果および第三個別認識結果についても同様に有効性を判断する。
全ての個別認識結果について有効性が判断されれば(ステップS22でYES)、それぞれの個別認識結果の獲得票数について判断する。図3に示す例では、ステップS23において、票を獲得した個別認識結果が存在するか否か(獲得票数の有無)について判定する。票を獲得した個別認識結果が存在していれば(ステップS23でYES)、ステップS24において、全ての個別認識結果が認識対象Xについて票を獲得しているか、または、全ての個別認識結果が認識対象Yについて票を獲得しているか、すなわち、個別認識結果が全会一致であるか否かを判定する。
第一〜第三個別認識結果の全てが、例えば認識対象X(猫)として有効であるときには、入力画像データに含まれる任意の認識候補の認識結果(候補認識結果)がXについて3票獲得する。そのため、この候補認識結果は全会一致でXとして有効な個別認識結果であると判断される(ステップS24でYES)。そこで、ステップS25において、任意の認識候補が全会一致で認識対象X(猫)であるという統合認識結果が生成される。なお、認識対象Y(犬)についても同様である。
一方、第一〜第三個別認識結果が全会一致でない(ステップS24でNO)ときには、これら個別認識結果には、認識対象Xとして有効なものと認識対象Yとして有効なものとが含まれている可能性がある(票を獲得していない無効なものも含まれている可能性がある)。そこで、ステップS26において、第一〜第三個別認識結果のうち、認識対象XまたはYについて最多得票のものが存在するか否かを判断する。
例えば、任意の候補認識結果が、認識対象Xとして2票獲得かつ認識対象Yとして1票獲得している場合、認識対象Xとして2票獲得し残りが無効である場合、認識対象Yとして2票獲得かつ認識対象Xとして1票獲得している場合、認識対象Yとして2票獲得し残りが無効である場合には、多数決で認識対象Xとして有効な個別認識結果である、または、認識対象Yとして有効な個別認識結果であると判断される(ステップS26でYES)。そこで、ステップS27において、任意の認識候補が多数決で認識対象X(猫)または認識対象Yであるという統合認識結果が生成される。
ここで、第一〜第三個別認識結果の全て無効である場合には、認識対象XおよびYのいずれも1票も獲得していない(獲得票数0票)ことになる(ステップS23でNO)。それゆえ、この候補認識結果は無効であると判断され、ステップS28において不明という統合認識結果が生成される。
あるいは、第一〜第三個別認識結果のいずれかが認識対象Xとして1票を獲得し、他のいずれかが認識対象Yとして1票を獲得し、残りが無効である場合には、認識対象XまたはYのいずれかが最多得票にならない(ステップS26でNO)。同様に、認識対象Xとして1票獲得し残りが無効である場合、あるいは、認識対象Yとして1票獲得し残りが無効である場合には、無効票の方が多くなるので、認識対象XまたはYのいずれかが最多得票にならない(ステップS26でNO)。これらの場合には、候補認識結果がXであるかYであるか判断できないので、ステップS28において不明という統合認識結果が生成される。
前記の通り、ステップS25,S27,S28のいずれかにおいて統合認識結果が生成されれば、ステップS29において、この統合認識結果は、認識結果統合処理部14から認識結果使用装置に出力される。
このように、本開示に係る画像認識システムまたは画像認識処理方法においては、複数の認識対象についての深層学習を用いた複数の画像認識処理部を並列して備えてもよい。この場合でも、複数の個別認識結果を統合する際には、これら個別認識結果が「全会一致」であるか、もしくは、「多数決」で最も一致が多い個別認識結果を選択し、統合認識結果として出力すればよい。
これにより、いずれかの画像認識処理部において、認識対象について予想外の誤認識が発生したり、認識対象の画像が誤認識させるために意図的に作成された画像であったりしても、全会一致または多数決のプロセスで誤認識を実質的に排除することができる。それゆえ、深層学習を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識であっても有効に抑制することが可能となる。
(実施の形態3)
前記実施の形態1または2においては、画像認識システム10Aは、入力画像分配部12、画像認識処理部13A〜13C、認識結果統合処理部14を備える画像認識部11Aのみを備える構成であったが、本開示はこれに限定されない。例えば、図4に示すように、画像認識装置11Bと画像供給装置15と認識結果使用装置16Aを備える画像認識システム10Bであってもよい。あるいは、図5に示すように、画像認識・結果使用装置11Cおよび画像供給装置15を備える画像認識システム10Cであってもよい。
画像認識装置11Bは、前記実施の形態1または2で説明した画像認識部11Aと同様の構成である。画像供給装置15は、画像認識装置11Bまたは画像認識・結果使用装置11Cに対して入力画像データを供給するものであればよい。具体的には、例えば、静止画または動画(映像)を撮影するカメラ(撮影装置)であってもよいし、予め撮影された静止画または動画のデータを供給可能に記憶する情報端末装置(パーソナルコンピュータ、スマートホン、タブレット等)であってもよい。
認識結果使用装置16Aは、認識結果統合処理部14から出力される統合認識結果を用いて所定の処理を実行するものであればよい。具体的には、画像認識を用いた各種のアプリケーション(後述)に用いられる作動装置等が挙げられる。例えば、画像認識システム10Bまたは10Cが自動運転車両に適用される場合には、走行判断装置が挙げられ、画像認識システム10Bまたは10Cが立ち入り制限のための顔認証システムに適用される場合には、施解錠装置が挙げられる。
画像認識・結果使用装置11Cは、画像認識装置11Bと認識結果使用装置16Aとが一体化したものであり、画像認識部11Aと同様の構成(入力画像分配部12、画像認識処理部13A〜13C、認識結果統合処理部14)と、認識結果使用部16Bとを備えている。認識結果使用部16Bは、認識結果使用装置16Aと同様のものであればよい。
本実施の形態3に係る画像認識システム10B,10C、あるいは、前述した実施の形態1または2に係る画像認識システム10Aが適用可能なアプリケーションは特に限定されず、認識結果使用装置16Aの例として挙げたように、画像認識を用いた各種の制御システム、認証システム、あるいは診断システム等であればよい。
より具体的には、例えば、自動運行航空機における地上走行時の他機または設備等の周辺環境を認識するための画像認識システム、自動運転車両における他車または歩行者等の周辺環境を認識するための画像認識システム、自動運航船舶における他船舶または港湾施設等の周辺環境を認識するための画像認識システム、医療分野におけるX線画像からのがん診断システム、手荷物検査におけるX線画像からの危険物自動識別システム、高セキュリティエリアにおける立ち入り制限のための顔認証システム等を挙げることができる。
このように、本開示に係る画像認識システムまたは画像認識処理方法は、認識対象についての互いに異なる学習済の深層学習により画像認識処理を行う画像認識処理部を複数並列し、これら画像認識処理部に対して入力画像データを分配供給して、それぞれの画像認識処理部が画像認識処理を行って、前記入力画像データに含まれる認識候補についての個別認識結果を複数生成し、これら個別認識結果を統合処理するものであり、この統合処理では、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力し、複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力する構成であればよい。
それゆえ、本開示に係る画像認識システムの具体的な構成については特に限定されず、例えば、実施の形態1または2で説明した図1(A)に示す画像認識システム10Aであってもよいし、本実施の形態3で説明した図4に示す画像認識システム10B、あるいは、図5に示す画像認識システム10Cであってもよいし、実施の形態1〜3で説明した以外の構成を有するシステムであってもよい。
なお、本発明は前記実施の形態の記載に限定されるものではなく、特許請求の範囲に示した範囲内で種々の変更が可能であり、異なる実施の形態や複数の変形例にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。
本発明は、深層学習(ディープラーニング)を用いた画像認識の分野に広く好適に用いることができる。
10A〜10C:画像認識システム
11A:画像認識部
11B:画像認識装置(画像認識部)
11C:画像認識・結果使用装置(画像認識部、認識結果使用部)
12:入力画像分配部
13:画像認識処理部
13A:第一画像認識処理部
13B:第二画像認識処理部
13C:第三画像認識処理部
14:認識結果統合処理部
15:画像供給装置
16A:認識結果使用装置(認識結果使用部)
16B:認識結果使用部
131:個別認識処理部
132:個別認識結果判定部

Claims (6)

  1. 並列する複数の画像認識処理部と、
    入力画像データを複数の前記画像認識処理部に分配供給する入力画像分配部と、
    複数の前記画像認識処理部による認識結果である、複数の個別認識結果を統合処理する認識結果統合処理部と、
    を備え、
    前記画像認識処理部は、認識対象について学習済の深層学習により画像認識処理を行い、前記入力画像データに含まれる認識候補について前記個別認識結果を生成し、
    複数の前記画像認識処理部におけるそれぞれの前記深層学習は互いに異なるものであり、
    前記認識結果統合処理部は、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、
    複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力することを特徴とする、
    画像認識システム。
  2. 前記画像認識処理部は、
    深層学習により画像認識処理を行うことにより、前記入力画像データに含まれる認識候補についての認識結果を確信度とともに生成する個別認識処理部と、
    生成した認識結果および確信度に基づいて前記認識結果の有効性を判定し、前記認識結果統合処理部に対して、前記認識結果とともに当該認識結果の有効性を前記個別認識結果として出力する個別認識結果判定部と、
    を備えており、
    前記認識結果統合処理部は、複数の前記個別認識結果を統合処理する際には、少なくとも前記有効性に基づいて、それぞれの個別認識結果に投票するか否かを判定するとともに、
    当該投票結果に基づいて前記統合認識結果を生成することを特徴とする、
    請求項1に記載の画像認識システム。
  3. 前記認識結果統合処理部は、複数の前記個別認識結果がいずれも有効でない場合、または、有効でない前記個別認識結果が有効である前記個別認識結果よりも多い場合には、統合認識結果として不明を出力することを特徴とする、
    請求項2に記載の画像認識システム。
  4. 複数の前記画像認識処理部には、それぞれ異なる教師画像を用いて学習した深層学習、異なる学習の初期値を設定した深層学習、または、中間層の層数およびセル数の少なくとも一方が異なる深層学習のいずれかが用いられることを特徴とする、
    請求項1から3のいずれか1項に記載の画像認識システム。
  5. さらに、前記入力画像分配部に入力画像データを供給する画像供給部と、
    前記認識結果統合処理部から出力される前記統合認識結果を用いて所定の処理を実行する認識結果使用部との少なくとも一方を備えていることを特徴とする、
    請求項1から4のいずれか1項に記載の画像認識システム。
  6. 認識対象についての互いに異なる学習済の深層学習により画像認識処理を行う画像認識処理部を複数並列し、
    これら画像認識処理部に対して入力画像データを分配供給して、それぞれの画像認識処理部が画像認識処理を行って、前記入力画像データに含まれる認識候補についての個別認識結果を複数生成し、これら個別認識結果を統合処理し、
    この統合処理では、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、
    複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力することを特徴とする、
    画像認識処理方法。
JP2019001909A 2019-01-09 2019-01-09 誤認識を抑制可能な画像認識システムおよび画像認識方法 Active JP7269013B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019001909A JP7269013B2 (ja) 2019-01-09 2019-01-09 誤認識を抑制可能な画像認識システムおよび画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019001909A JP7269013B2 (ja) 2019-01-09 2019-01-09 誤認識を抑制可能な画像認識システムおよび画像認識方法

Publications (2)

Publication Number Publication Date
JP2020112926A true JP2020112926A (ja) 2020-07-27
JP7269013B2 JP7269013B2 (ja) 2023-05-08

Family

ID=71668129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019001909A Active JP7269013B2 (ja) 2019-01-09 2019-01-09 誤認識を抑制可能な画像認識システムおよび画像認識方法

Country Status (1)

Country Link
JP (1) JP7269013B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051969A (ja) * 1999-08-13 2001-02-23 Kdd Corp 正誤答判定機能を有するニューラルネットワーク手段
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
WO2018221599A1 (ja) * 2017-05-31 2018-12-06 カリーナシステム株式会社 手術器具検出システムおよびコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051969A (ja) * 1999-08-13 2001-02-23 Kdd Corp 正誤答判定機能を有するニューラルネットワーク手段
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
WO2018221599A1 (ja) * 2017-05-31 2018-12-06 カリーナシステム株式会社 手術器具検出システムおよびコンピュータプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PAULO SERGIO PRAMPERO, 外1名: ""Recognition of vehicles silhouette using combination of classifiers"", 1998 IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS PROCEEDINGS. IEEE WORLD CONGRESS ON COMP, JPN6022049053, 9 May 1998 (1998-05-09), US, pages 1723 - 1726, XP010286772, ISSN: 0004925266, DOI: 10.1109/IJCNN.1998.687116 *
SURESH PRASAD KANNOJIA, 外1名: ""Ensemble of Hybrid CNN-ELM Model for Image Classification"", 2018 5TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND INTEGRATED NETWORKS (SPIN), JPN6022049056, 23 February 2018 (2018-02-23), US, pages 538 - 541, XP033407759, ISSN: 0004925268, DOI: 10.1109/SPIN.2018.8474196 *
上田修功: ""アンサンブル学習"", 情報処理学会論文誌, vol. 第46巻, 第SIG 15(CVIM 12), JPN6022049055, 15 October 2005 (2005-10-15), JP, pages 11 - 20, ISSN: 0004925267 *
矢野正基, 外2名: ""深層学習を用いた画像識別タスクの精度向上テクニック"", 電子情報通信学会論文誌D, JPN6022049052, 1 November 2018 (2018-11-01), JP, pages 1 - 20, ISSN: 0004925265 *

Also Published As

Publication number Publication date
JP7269013B2 (ja) 2023-05-08

Similar Documents

Publication Publication Date Title
US11514297B2 (en) Post-training detection and identification of human-imperceptible backdoor-poisoning attacks
Li et al. Backdoor learning: A survey
CN110659485B (zh) 用于通过诱饵训练检测对抗攻击的方法和装置
Tian et al. Detecting adversarial examples through image transformation
US11475130B2 (en) Detection of test-time evasion attacks
US11609990B2 (en) Post-training detection and identification of human-imperceptible backdoor-poisoning attacks
CN112334917A (zh) 对采用人工智能的系统进行防护
Pan et al. A new general nearest neighbor classification based on the mutual neighborhood information
US11704409B2 (en) Post-training detection and identification of backdoor-poisoning attacks
US20200034524A1 (en) Method for performing user authentication and function execution simultaneously and electronic device for the same
EP4235523A1 (en) Identifying and correcting vulnerabilities in machine learning models
Wang et al. Deep attention-based imbalanced image classification
Xiao et al. Self-checking deep neural networks in deployment
Zhao et al. CAN bus intrusion detection based on auxiliary classifier GAN and out-of-distribution detection
Li et al. 3dfed: Adaptive and extensible framework for covert backdoor attack in federated learning
Chow et al. Robust object detection fusion against deception
Song et al. Deepmtd: Moving target defense for deep visual sensing against adversarial examples
Schneider et al. Towards AI forensics: Did the artificial intelligence system do it?
Zheng et al. Evolutionary ensemble generative adversarial learning for identifying terrorists among high-speed rail passengers
Oong et al. One-against-all ensemble for multiclass pattern classification
JP2020112926A (ja) 誤認識を抑制可能な画像認識システムおよび画像認識方法
Sawada et al. Whole layers transfer learning of deep neural networks for a small scale dataset
US20220171848A1 (en) System and Method for Synthesizing Dynamic Ensemble-Based Defenses to Counter Adversarial Attacks
Bunkhumpornpat et al. CORE: Core-based synthetic minority over-sampling and borderline majority under-sampling technique
Song et al. Moving target defense for deep visual sensing against adversarial examples

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230421

R150 Certificate of patent or registration of utility model

Ref document number: 7269013

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150