JP2020112926A

JP2020112926A - 誤認識を抑制可能な画像認識システムおよび画像認識方法

Info

Publication number: JP2020112926A
Application number: JP2019001909A
Authority: JP
Inventors: 洋一三谷; Yoichi Mitani; 安藤　晋一郎; Shinichiro Ando; 晋一郎安藤
Original assignee: Kawasaki Heavy Industries Ltd
Current assignee: Kawasaki Heavy Industries Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-07-27
Anticipated expiration: 2039-01-09
Also published as: JP7269013B2

Abstract

【課題】深層学習（ディープラーニング）を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識を有効に抑制する。【解決手段】画像認識システム１０Ａは、並列する画像認識処理部１３Ａ〜１３Ｃと、入力画像データを画像認識処理部１３Ａ〜１３Ｃに分配供給する入力画像分配部１２と、画像認識処理部１３Ａ〜１３Ｃのそれぞれの認識結果を統合処理する認識結果統合処理部１４と、を備える。画像認識処理部１３Ａ〜１３Ｃは、認識対象についての互いに異なる学習済の深層学習により画像認識処理を行うものである。認識結果統合処理部１４は、入力画像データに含まれる認識候補についての複数の認識結果が全て一致したときには、当該認識結果を認識対象の統合認識結果として出力する。もしくは、複数の認識結果が全て一致しないときには、一致が最も多い認識結果を認識対象の統合認識結果として出力する。【選択図】図１

Description

本発明は、深層学習（ディープラーニング）を用いた画像認識における誤認識を抑制することが可能な画像認識システムおよび画像認識方法に関する。

機械学習は、準備されたデータ集合に基づいて「機械」自身が学習することにより、当該データ集合から法則性、規則性、判断基準等（学習結果）を発見したり予測したりする技術である。機械学習の手法の一つとして、近年、深層学習（ディープラーニング）が注目されている。深層学習は、ニューラルネットワークを多層化（数十層〜数百層）したものであり、学習プロセスをより高精度化することが可能であるため、様々な分野への適用（または適用の検討）がなされている。

深層学習の代表的な適用分野としては、画像認識が挙げられる。深層学習を用いた画像認識処理は高い汎化能力を有することが知られており、例えば、認識対象Ｘ（例えば猫）について数万枚の学習用画像を準備し、これら学習用画像を用いて深層学習に学習させ、この深層学習を用いて画像認識処理システムを構築する。この画像認識処理システムに対して学習に使用していない対象Ｘ（猫）の画像を入力しても、その入力画像を適切に対象Ｘ（猫）と認識することが可能である。

ところで、機械学習を用いた画像認識処理の分野では、誤認識を抑制するために種々の手法が提案されている。例えば、特許文献１には、放射線画像中から画像認識により対象物を検出する放射線撮影装置において、機械学習を用いた画像認識を行う際の誤検出（誤認識）を抑制することを目的とする技術が提案されている。この技術では、対象物の画像を複数角度に回転させて得られた複数の回転画像を用いた機械学習により、画像認識用の学習結果データを予め取得して記憶しておき、この学習結果データに基づいて、撮影された放射線画像中から画像認識により対象物を検出している。

さらに、深層学習を用いた画像認識処理においては、予想外の誤認識が発生することも最近明らかとなっている。例えば、人間にはノイズ画像にしか見えない画像を対象Ｘであると認識することが知られている。あるいは、意図的に誤認識するように作成された画像を用いることで、深層学習に誤認識させることが可能であることも報告されている。

例えば、非特許文献１では、学習済のディープニューラルネットワーク（ＤＮＮ）に対して、微細な摂動（perturbations）を付与した画像を認識させると、誤認識することが報告されており、このように摂動が付与されたexampleを“Adversarial Example”と称している。また、非特許文献２では、非特許文献１とは異なる手法で“Adversarial Example”を作成できることが報告されている。

特開２０１７−１８５００７号公報

"Intriguing Properties of Neural Networks"，Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus著、arXiv org，arXiv:1312.6199 (version 4)，２０１３年１２月２１日（version 1) "Explaining and Harnessing Adversarial Examples"，Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy著、arXiv org, arXiv:1412.6572 (version 3)，２０１４年１２月２０日（version 1）

特許文献１では、周辺構造の状況が様々に変化することに起因する誤認識の発生を抑制することを目的としており、そのために機械学習を用いている。具体的な機械学習としては、ニューラルネットワーク、サポートベクターマシン（ＳＶＭ）、ブースティング等の識別器を用いることが記載されており、具体的な一例として、アンサンブル学習の一種であるブースティングが挙げられている。しかしながら、この特許文献１の手法では、予想外の誤認識、あるいは、意図的に作成された画像の誤認識を抑制するものではない。

また、非特許文献１および非特許文献２では、前記の通り、誤認識される画像データである“Adversarial Example”を意図的に作成できることを報告しており、例えば、非特許文献２では、このような“Adversarial Example”を学習用データとして深層学習に用いることで、誤認識を抑制することを提案している。しかしながら、この手法は、他の手法で作成された“Adversarial Example”については誤認識する可能性が考えられる。

本発明はこのような課題を解決するためになされたものであって、深層学習（ディープラーニング）を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識を有効に抑制することを目的とする。

本発明に係る画像認識システムは、前記の課題を解決するために、並列する複数の画像認識処理部と、入力画像データを複数の前記画像認識処理部に分配供給する入力画像分配部と、複数の前記画像認識処理部による認識結果である、複数の個別認識結果を統合処理する認識結果統合処理部と、を備え、前記画像認識処理部は、認識対象について学習済の深層学習により画像認識処理を行い、前記入力画像データに含まれる認識候補について前記個別認識結果を生成し、複数の前記画像認識処理部におけるそれぞれの前記深層学習は互いに異なるものであり、前記認識結果統合処理部は、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力する構成である。

前記構成によれば、複数の画像認識処理部を並列して備えており、これら画像認識処理部の画像認識処理は、認識対象についての深層学習（ディープラーニング）により行われるが、それぞれの深層学習は、認識対象について互いに異なるように学習したものである。そして、これら画像認識処理部からそれぞれ得られる個別認識結果を統合する際には、これら個別認識結果が「全会一致」であるか、もしくは、「多数決」で最も一致が多い個別認識結果を選択し、統合認識結果として出力する。これにより、いずれかの画像認識処理部において、認識対象について予想外の誤認識が発生したり、認識対象の画像が誤認識させるために意図的に作成された画像であったりしても、全会一致または多数決のプロセスで誤認識を実質的に排除することができる。それゆえ、深層学習（ディープラーニング）を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識であっても有効に抑制することが可能となる。

前記構成の画像認識システムにおいては、前記画像認識処理部は、深層学習により画像認識処理を行うことにより、前記入力画像データに含まれる認識候補についての認識結果を確信度とともに生成する個別認識処理部と、生成した認識結果および確信度に基づいて前記認識結果の有効性を判定し、前記認識結果統合処理部に対して、前記認識結果とともに当該認識結果の有効性を前記個別認識結果として出力する個別認識結果判定部と、を備えており、前記認識結果統合処理部は、複数の前記個別認識結果を統合処理する際には、少なくとも前記有効性に基づいて、それぞれの個別認識結果に投票するか否かを判定するとともに、当該投票結果に基づいて前記統合認識結果を生成する構成であってもよい。

また、前記構成の画像認識システムにおいては、前記認識結果統合処理部は、複数の前記個別認識結果がいずれも有効でない場合、または、有効でない前記個別認識結果が有効である前記個別認識結果よりも多い場合には、統合認識結果として不明を出力する構成であってもよい。

また、前記構成の画像認識システムにおいては、複数の前記画像認識処理部には、それぞれ異なる教師画像を用いて学習した深層学習、異なる学習の初期値を設定した深層学習、または、中間層の層数およびセル数の少なくとも一方が異なる深層学習のいずれかが用いられる構成であってもよい。

また、前記構成の画像認識システムにおいては、さらに、前記入力画像分配部に入力画像データを供給する画像供給部と、前記認識結果統合処理部から出力される前記統合認識結果を用いて所定の処理を実行する認識結果使用部との少なくとも一方を備えている構成であってもよい。

また、本発明に係る画像認識処理方法は、認識対象についての互いに異なる学習済の深層学習により画像認識処理を行う画像認識処理部を複数並列し、これら画像認識処理部に対して入力画像データを分配供給して、それぞれの画像認識処理部が画像認識処理を行って、前記入力画像データに含まれる認識候補についての個別認識結果を複数生成し、これら個別認識結果を統合処理し、この統合処理では、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力する構成である。

本発明では、以上の構成により、深層学習（ディープラーニング）を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識を有効に抑制することができる、という効果を奏する。

（Ａ）は、本開示の実施の形態１に係る画像認識システムの構成の一例を示すブロック図であり、（Ｂ）は、（Ａ）に示す画像認識システムが備える画像認識処理部の具体的な構成の一例を示すブロック図である。図１（Ａ）に示す画像認識システムが備える認識結果統合処理部による統合処理の代表的な一例を示すフローチャートである。本開示の実施の形態２に係る画像認識システムが備える認識結果統合処理部による統合処理の代表的な一例を示すフローチャートである。本開示の実施の形態３に係る画像認識システムの構成例を示すブロック図である。図４に示す画像認識システムの構成例を示すブロック図である。

以下、本発明の代表的な実施の形態を、図面を参照しながら説明する。なお、以下では全ての図を通じて同一又は相当する要素には同一の参照符号を付して、その重複する説明を省略する。

（実施の形態１）
図１（Ａ）に示すように、本開示に係る画像認識システム１０Ａは、画像認識部１１Ａを備えており、この画像認識部１１Ａは、入力画像分配部１２、画像認識処理部１３Ａ〜１３Ｃ、認識結果統合処理部１４を備えている。

入力画像分配部１２には、入力画像データが供給され（図中「画像供給」）、この入力画像データを画像認識処理部１３Ａ〜１３Ｃに分配供給する。入力画像データには、認識対象となり得る画像が含まれている可能性があるが、含まれていなくてもよい。なお、認識対象となり得る画像を便宜上「認識候補」と称する。

画像認識処理部１３Ａ〜１３Ｃは、互いに並列するように設けられており、入力画像分配部１２から分配供給された入力画像データについて画像認識処理を行い、入力画像データに含まれる認識候補について認識結果を生成する。この画像認識処理は、認識対象について学習済の深層学習により行われる。認識結果統合処理部１４は、画像認識処理部１３Ａ〜１３Ｃからそれぞれ出力される認識結果を統合処理して、最終的な認識結果である「統合認識結果」を出力する。

ここで、入力画像データに含まれる認識候補は、画像認識処理部１３Ａ〜１３Ｃの画像認識処理により認識対象であるか否か認識されるが、説明の便宜上、この認識候補についての認識結果を「候補認識結果」と称する。画像認識処理部１３Ａ〜１３Ｃでは、複数の候補認識結果が得られる可能性があり、この場合には、複数の候補認識結果から適切な認識結果を採用することになる。そこで、画像認識処理部１３Ａ〜１３Ｃで採用された適切な認識結果を、候補認識結果と区別して「個別認識結果」と称する。また、画像認識処理部１３Ａ〜１３Ｃから得られる３つの個別認識結果は、認識結果統合処理部１４により統合されて、最終的な認識結果となるが、この最終的な認識結果を前記の通り「統合認識結果」と称する。

画像認識処理部１３Ａ〜１３Ｃは、入力画像データに含まれる可能性のある認識候補について互いに異なる深層学習により画像認識処理を行う。ここでいう「異なる深層学習」とは、特に限定されないが、例えば、それぞれ異なる学習用画像を用いて学習した深層学習、異なる学習の初期値を設定した深層学習、または、中間層の層数およびセル数の少なくとも一方が異なる深層学習等を挙げることができる。あるいは、深層学習のプログラム開発環境を異なるものとしてもよい。

本実施の形態では、例えば、それぞれ異なる学習用画像を用いた深層学習を用いている。具体的には、例えば、認識対象Ｘ（例えば猫）について、３００００枚の対象画像データを準備し、これらを１００００枚ずつ３つの学習用画像群（第一画像群、第二画像群、および第三画像群）に分ける。第一画像認識処理部１３Ａでは第一画像群を使用して深層学習を行い、第二画像認識処理部１３Ｂでは第二画像群を使用して深層学習を行い、第三画像認識処理部１３Ｃでは第三画像群を使用して深層学習を行う。

画像認識処理部１３Ａ〜１３Ｃにおける深層学習（ディープラーニング）の具体的な構成は特に限定されず、公知の構成を好適に用いることができる。具体的には、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、回帰結合型ニューラルネットワーク（ＲＮＮ）あるいはＬＳＴＭ（Long Short-Term Memory）、オートエンコーダ、ボルツマンマシン、敵対的生成ネットワーク（ＧＡＮ）等が挙げられる。本実施の形態では、例えば、ＣＮＮを用いており、パターンマッチングを行う畳み込み層とデータ集約を行うプーリング層とを交互に並べて数十層用意すればよい。

画像認識処理部１３Ａ〜１３Ｃは、学習済の深層学習により入力画像データに含まれる可能性のある認識候補について画像認識処理を行えばよく、その具体的な構成は特に限定されないが、例えば、図１（Ｂ）に示すように、画像認識処理部１３Ａ〜１３Ｃとしては、個別認識処理部１３１および個別認識結果判定部１３２を備える構成を挙げることができる。

個別認識処理部１３１は、深層学習により認識候補についての画像認識処理を行って候補認識結果を生成するが、この画像認識処理では、当該候補認識結果とともにその確信度も生成する。個別認識結果判定部１３２は、生成した候補認識結果および確信度に基づいて、候補認識結果の有効性を判定し、候補認識結果とともにその有効性を認識結果統合処理部１４に対して個別認識結果として出力する。

個別認識処理部１３１の具体的な構成は特に限定されず、前述した深層学習（例えば、ＣＮＮ等）であればよいが、この個別認識処理部１３１では、前記の通り、候補認識結果とともにその確信度を生成する。深層学習における認識結果の確信度は、通常、百分率（パーセンテージ）で生成されるが、複数のランクとして生成されてもよい。なお、本実施の形態では、個別認識処理部１３１の深層学習は、１種類のみの認識対象Ｘ（例えば猫）について学習したものであるとする。

例えば、入力画像データに３つの認識候補が含まれているとして、第一の認識候補については９０％の確信度が生成（９０％の確信度で「猫」である）され、第二の認識候補については５０％の確信度が生成（５０％の確信度で「猫」である）され、第三の認識候補について２０％の確信度が生成（２０％の確信度で「猫」である）されてもよい。あるいは、第一の認識候補については高い確信を示すＡランクとして確信度が生成され、第二の認識候補について中間的な確信を示すＢランクとして確信度が生成され、第三の認識候補については、低い確信を示すＣランクとして確信度が生成されてもよい。

個別認識結果判定部１３２の具体的な構成は特に限定されず、前記の通り、個別認識処理部１３１で生成された候補認識結果および確信度から、当該候補認識結果の有効性を判定する。有効性の判定手法についても特に限定されないが、例えば、（１）最も確信度の高い候補認識結果を採用する手法、（２）最も確信度の高い候補認識結果の確信度が十分に高い場合に当該候補認識結果を採用する手法、（３）最も確信度の高い候補認識結果の確信度が十分に高く、かつ、次いで確信度の高い候補認識結果との差が十分にある場合に当該候補認識結果を採用する手法等を挙げることができる。

例えば、前述したように、入力画像データに３つの認識候補が含まれているとすれば、まず（１）の手法では、個別認識結果判定部１３２は、確信度が最も高い第一の認識候補の候補認識結果を採用して、個別認識結果として出力すればよい。

次に（２）の手法については、複数の候補認識結果の確信度が全て低い場合には、これらの中から最も確信度の高いものを採用することが妥当でない可能性がある。そこで、（２）の手法では、個別認識結果判定部１３２は、候補認識結果の確信度が十分に高いか否かを閾値等によって判定し、閾値以上であれば、当該候補認識結果を採用して個別認識結果として出力すればよい。例えば、前記のように、確信度が百分率であれば、確信度５０％を閾値として５０％以上の確信度の候補認識結果を個別認識結果として採用すればよい。また、確信度がランクであれば、Ｂランク以上の候補認識結果を個別認識結果として採用すればよい。

次に（３）の手法については、複数の候補認識結果のうち確信度１位の候補認識結果と確信度２位の候補認識結果とにおいて、その確信度が僅差である場合には、１位のものをそのまま採用することが妥当でない可能性がある。そこで、（３）の手法では、個別認識結果判定部１３２は、（２）の手法と同様に閾値等で上位の候補認識結果が十分に確信度の高いものであることを判定するとともに、これらの確信度に十分な差が生じている場合のみ、１位の候補認識結果を採用して個別認識結果として出力すればよい。

ここで、（２）の手法および（３）の手法では、確信度が閾値未満であったり、確信度１位と２位との差が僅差であったりすれば個別認識結果として採用されない。そこで、個別認識結果判定部１３２では、候補認識結果の有効性についてフラグを設定すればよい。このようなフラグとしては、例えば、確信度が５０％以上であれば有効となるバリッドフラグを挙げることができる。個別認識結果判定部１３２では、当初はバリッドフラグを初期化しておき（バリッドフラグ：０）、個別認識処理部１３１において、確信度が５０％以上の候補認識結果が生成されればバリッドフラグが有効になる（バリッドフラグ：１）。一方、確信度が５０％未満の候補認識結果が生成されればバリッドフラグは有効にならないので（バリッドフラグ：０）、当該候補認識結果は無効となる。

画像認識処理部１３Ａ〜１３Ｃにおいて、このように候補認識結果の有効または無効を判定するのであれば、当該画像認識処理部１３Ａ〜１３Ｃは、認識結果統合処理部１４に対して、有効な候補認識結果および無効な候補認識結果のいずれも個別認識結果として出力することができる。認識結果統合処理部１４は、画像認識処理部１３Ａ〜１３Ｃから出力された複数の個別認識結果を統合処理すればよいが、このとき、個別認識結果に含まれる有効性または無効性を利用することができる。

本開示においては、認識結果統合処理部１４では、個別認識結果の統合処理として、（ｉ）複数の個別認識結果が全て一致したときには、当該個別認識結果を認識対象の統合認識結果として出力し、（ｉｉ）複数の個別認識結果が全て一致しない場合には、一致が最も多い個別認識結果を認識対象の統合認識結果として出力する。説明の便宜上、（ｉ）のステップを「全会一致」ステップと称し、（ｉｉ）のステップを「多数決」ステップと称する。

（ｉ）全会一致ステップおよび（ｉｉ）多数決ステップを含む統合処理の具体的な手法は特に限定されないが、本実施の形態では、例えば、個別認識結果に含まれる有効性に基づいて、それぞれの個別認識結果に投票するか否かを判定する統合処理手法を用いることができる。認識結果統合処理部１４は、個別認識結果に対する投票結果に基づいて統合認識結果を生成する。

認識結果統合処理部１４における投票による統合処理手法について、図２を参照して具体的に説明する。図２に示すフローチャートは、投票による統合処理手法を模式的にステップ化したものであり、この例では、ステップＳ１１〜ステップＳ１９の合計９ステップから構成される。もちろん、統合処理手法はこれに限定されるものではない。

認識結果統合処理部１４に対しては、図１（Ａ）に示すように、画像認識処理部１３Ａ〜１３Ｃからそれぞれ個別認識結果が出力される。ここで、第一画像認識処理部１３Ａからの個別認識結果を「第一個別認識結果」と称し、第二画像認識処理部１３Ｂからの個別認識結果を「第二個別認識結果」と称し、第三画像認識処理部１３Ｃからの個別認識結果を「第三個別認識結果」と称する。

認識結果統合処理部１４では、図２において、ステップＳ１１およびステップＳ１２のループで示すように、画像認識処理部１３Ａ〜１３Ｃから出力された全ての個別認識結果について有効性を判断する。例えば、ステップＳ１１において、第一個別認識結果が認識対象Ｘ（例えば猫）であることの有効性を判断し、有効であれば第一個別認識結果について認識対象Ｘに票数：１を投票する。有効でなければ第一個別認識結果については投票されない。次に、ステップＳ１２では、全ての個別認識結果の有効性が判断されたか否かを判定する。判断済が第一個別認識結果のみであれば（ステップＳ１２でＮＯ）、ステップＳ１１に戻り、第二個別認識結果について有効性を判断する。同様に第三個別認識結果についても有効性を判断する。

全ての個別認識結果について有効性が判断されれば（ステップＳ１２でＹＥＳ）、それぞれの個別認識結果の獲得票数について判断する。図２に示す例では、ステップＳ１３において、票を獲得した個別認識結果が存在するか否か（獲得票数の有無）について判定する。票を獲得した個別認識結果が存在していれば（ステップＳ１３でＹＥＳ）、ステップＳ１４において、全ての個別認識結果が票を獲得しているか、すなわち、個別認識結果が全会一致であるか否かを判定する。

第一〜第三個別認識結果の全てが有効であるときには、入力画像データに含まれる任意の認識候補の認識結果（候補認識結果）が認識対象Ｘについて３票獲得するため、この候補認識結果は全会一致で有効な個別認識結果であると判断される（ステップＳ１４でＹＥＳ）。そこで、ステップＳ１５において、任意の認識候補が全会一致で認識対象Ｘ（例えば猫）であるという統合認識結果が生成される。

一方、第一〜第三個別認識結果のうちいずれか１つが無効であるときには、全会一致にならず（ステップＳ１４でＮＯ）、任意の候補認識結果が認識対象Ｘについて２票獲得することになる。すなわち、ステップＳ１６において、任意の候補認識結果について、認識対象Ｘの得票が多いかもしくは無効となる票が多いか（無効票も含めてＸが最多得票であるか）判断する。無効票よりも認識対象Ｘの得票が多ければ、この候補認識結果は、多数決で有効な個別認識結果であると判断される（ステップＳ１６でＹＥＳ）。そこで、ステップＳ１７において、任意の認識候補が多数決で認識対象Ｘ（例えば猫）であるという統合認識結果が生成される。

一方、第一〜第三個別認識結果のうち２つが無効であるが１つが有効であるときにも、全会一致にならず（ステップＳ１４でＮＯ）、任意の候補認識結果に１票獲得することになる。得票数だけで見れば、この候補認識結果は、１票ではあるものの多数決で有効な個別認識結果であると判断することができる。しかしながら、無効票も「得票］と見て多数決を判断すれば、この候補認識結果が「無効」とした方がよい、と判断することができる。そこで、認識対象Ｘの得票よりも無効票が多い場合には（ステップＳ１６でＮＯ）、任意の認識候補について画像認識部１１Ａは認識対象Ｘであるとは認識できなかったと判断し、ステップＳ１８において、不明という統合認識結果が生成される。

そして、第一〜第三個別認識結果のいずれも無効である場合には、任意の候補認識結果の獲得票数は０票である（ステップＳ１３でＮＯ）。それゆえ、この候補認識結果は無効であると判断される。この場合、任意の認識候補について画像認識部１１Ａは認識対象Ｘであるとは認識できなかったことになるので、ステップＳ１８において、不明という統合認識結果が生成される。

ステップＳ１５〜Ｓ１８のいずれかにおいて生成された統合認識結果は、ステップＳ１９として、認識結果統合処理部１４から出力される（図１（Ａ）参照）。この統合認識結果は、図１（Ａ）には図示しない認識結果使用装置において使用される。なお、認識結果使用装置については後述する。

このように、本開示に係る画像認識システムまたは画像認識処理方法は、複数の画像認識処理部（例えば３つの画像認識処理部１３Ａ〜１３Ｃ）を並列して備えており、これら画像認識処理部の画像認識処理は、認識対象についての深層学習（ディープラーニング）により行われるが、それぞれの深層学習は、認識対象について互いに異なるように学習したものである。そして、これら画像認識処理部からそれぞれ得られる個別認識結果を統合する際には、これら個別認識結果が「全会一致」であるか、もしくは、「多数決」で最も一致が多い個別認識結果を選択し、統合認識結果として出力する。

前述した図２に示すような得票を用いる例では、全会一致していれば、複数の画像認識処理部において、予想外または意図的な誤認識が生じていないと判断することができる。また、多数決の場合では、無効票より有効票が多ければ、無効となった個別認識結果について予想外または意図的な誤認識が生じている可能性があるものの、複数の有効な個別認識結果において一致が見られるので、これら個別認識結果は適切な画像認識であると判断することができる。

一方、個別認識結果の全てが無効であれば、予想外または意図的な誤認識が生じている可能性があるとともに、そもそも認識候補として適切でない可能性もある。それゆえ、この場合には不明という統合認識結果を出力することで、不適切な画像認識の出力を回避することができる。また、無効票が有効票より多い場合にも、全てが無効である場合と同様に、予想外または意図的な誤認識、あるいは、認識候補として適切でない可能性があるので、不明という統合認識結果を出力すればよい。ただし、１票でも有効票が得られた場合に画像認識が適切であると判断できるのであれば、無効票を無視して多数決で判断することもできる。

それゆえ、本開示に係る画像認識システムまたは画像認識処理方法では、いずれかの画像認識処理部において、認識対象について予想外の誤認識が発生したり、認識対象の画像が誤認識させるために意図的に作成された画像であったりしても、全会一致または多数決のプロセスで誤認識を実質的に排除することができる。したがって、深層学習（ディープラーニング）を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識であっても有効に抑制することが可能となる。

なお、本実施の形態１に係る画像認識システム１０Ａでは、画像認識処理部は合計３つ並列して備えている（画像認識処理部１３Ａ〜１３Ｃ）が、２つの画像認識処理部を並列して備えてもよいし、４つ以上の画像認識処理部を並列して備えてもよい。

また、本実施の形態１に係る画像認識システム１０Ａを構成する、入力画像分配部１２、画像認識処理部１３Ａ〜１３Ｃ、認識結果統合処理部１４は、深層学習の分野で公知のＧＰＵ（Graphics Processing Unit），ＦＰＧＡ（Field-Programmable Gate Array），ＡＳＩＣ（Application specific integrated circuit），ＣＰＵ（Central Processing Unit）等の演算器（演算素子、演算装置）により実現される機能構成であればよいが、少なくとも深層学習を実現する画像認識処理部１３Ａ〜１３Ｃ、あるいは、これに含まれる個別認識処理部１３１がＧＰＵ等の演算器で実現される構成であってもよい。また、画像認識システム１０Ａが備える一部の構成は、公知のスイッチング素子、減算器、比較器等による論理回路等として構成されてもよいし、独立した装置として構成されてもよい。

（実施の形態２）
前記実施の形態１では、画像認識処理部１３Ａ〜１３Ｃにおける深層学習は、１種類のみの認識対象Ｘ（例えば猫）について学習したものであったが、本開示においては、画像認識処理部１３Ａ〜１３Ｃにおける深層学習は、複数種類の認識対象について学習したものであってもよい。例えば、深層学習が、認識対象Ｘ（例えば猫）および認識対象Ｙ（例えば犬）について学習したものであるとして、図３を参照して本実施の形態２について説明する。

本実施の形態２に係る画像認識システム１０Ａの構成は、前記実施の形態１で説明した通りであるが、前記の通り、深層学習が複数種類の認識対象Ｘ（猫）およびＹ（犬）について学習したものである。図３に示すフローチャートは、図２と同様に、認識結果統合処理部１４における投票による統合処理手法を模式的にステップ化したものであり、この例では、ステップＳ２１〜ステップＳ２９の合計９ステップから構成される。もちろん、統合処理手法はこれに限定されるものではない。

認識結果統合処理部１４では、図３において、ステップＳ２１およびステップＳ２２のループで示すように、画像認識処理部１３Ａ〜１３Ｃから出力された全ての個別認識結果について有効性を判断する。このループは、図２におけるステップＳ１１およびステップＳ１２のループと同様であり、例えば、第一個別認識結果が認識対象Ｘ（猫）であることの有効性、並びに、認識対象Ｙ（犬）であることの有効性を判断し、認識対象Ｘとして有効であれば第一個別認識結果について認識対象Ｘに票数：１を投票し、認識対象Ｙとして有効であれば第一個別認識結果について認識対象Ｙに票数：１を投票する。有効でなければ第一個別認識結果については投票されない。その後、第二個別認識結果および第三個別認識結果についても同様に有効性を判断する。

全ての個別認識結果について有効性が判断されれば（ステップＳ２２でＹＥＳ）、それぞれの個別認識結果の獲得票数について判断する。図３に示す例では、ステップＳ２３において、票を獲得した個別認識結果が存在するか否か（獲得票数の有無）について判定する。票を獲得した個別認識結果が存在していれば（ステップＳ２３でＹＥＳ）、ステップＳ２４において、全ての個別認識結果が認識対象Ｘについて票を獲得しているか、または、全ての個別認識結果が認識対象Ｙについて票を獲得しているか、すなわち、個別認識結果が全会一致であるか否かを判定する。

第一〜第三個別認識結果の全てが、例えば認識対象Ｘ（猫）として有効であるときには、入力画像データに含まれる任意の認識候補の認識結果（候補認識結果）がＸについて３票獲得する。そのため、この候補認識結果は全会一致でＸとして有効な個別認識結果であると判断される（ステップＳ２４でＹＥＳ）。そこで、ステップＳ２５において、任意の認識候補が全会一致で認識対象Ｘ（猫）であるという統合認識結果が生成される。なお、認識対象Ｙ（犬）についても同様である。

一方、第一〜第三個別認識結果が全会一致でない（ステップＳ２４でＮＯ）ときには、これら個別認識結果には、認識対象Ｘとして有効なものと認識対象Ｙとして有効なものとが含まれている可能性がある（票を獲得していない無効なものも含まれている可能性がある）。そこで、ステップＳ２６において、第一〜第三個別認識結果のうち、認識対象ＸまたはＹについて最多得票のものが存在するか否かを判断する。

例えば、任意の候補認識結果が、認識対象Ｘとして２票獲得かつ認識対象Ｙとして１票獲得している場合、認識対象Ｘとして２票獲得し残りが無効である場合、認識対象Ｙとして２票獲得かつ認識対象Ｘとして１票獲得している場合、認識対象Ｙとして２票獲得し残りが無効である場合には、多数決で認識対象Ｘとして有効な個別認識結果である、または、認識対象Ｙとして有効な個別認識結果であると判断される（ステップＳ２６でＹＥＳ）。そこで、ステップＳ２７において、任意の認識候補が多数決で認識対象Ｘ（猫）または認識対象Ｙであるという統合認識結果が生成される。

ここで、第一〜第三個別認識結果の全て無効である場合には、認識対象ＸおよびＹのいずれも１票も獲得していない（獲得票数０票）ことになる（ステップＳ２３でＮＯ）。それゆえ、この候補認識結果は無効であると判断され、ステップＳ２８において不明という統合認識結果が生成される。

あるいは、第一〜第三個別認識結果のいずれかが認識対象Ｘとして１票を獲得し、他のいずれかが認識対象Ｙとして１票を獲得し、残りが無効である場合には、認識対象ＸまたはＹのいずれかが最多得票にならない（ステップＳ２６でＮＯ）。同様に、認識対象Ｘとして１票獲得し残りが無効である場合、あるいは、認識対象Ｙとして１票獲得し残りが無効である場合には、無効票の方が多くなるので、認識対象ＸまたはＹのいずれかが最多得票にならない（ステップＳ２６でＮＯ）。これらの場合には、候補認識結果がＸであるかＹであるか判断できないので、ステップＳ２８において不明という統合認識結果が生成される。

前記の通り、ステップＳ２５，Ｓ２７，Ｓ２８のいずれかにおいて統合認識結果が生成されれば、ステップＳ２９において、この統合認識結果は、認識結果統合処理部１４から認識結果使用装置に出力される。

このように、本開示に係る画像認識システムまたは画像認識処理方法においては、複数の認識対象についての深層学習を用いた複数の画像認識処理部を並列して備えてもよい。この場合でも、複数の個別認識結果を統合する際には、これら個別認識結果が「全会一致」であるか、もしくは、「多数決」で最も一致が多い個別認識結果を選択し、統合認識結果として出力すればよい。

これにより、いずれかの画像認識処理部において、認識対象について予想外の誤認識が発生したり、認識対象の画像が誤認識させるために意図的に作成された画像であったりしても、全会一致または多数決のプロセスで誤認識を実質的に排除することができる。それゆえ、深層学習を用いた画像認識において、予想外の誤認識または意図的に作成された画像の誤認識であっても有効に抑制することが可能となる。

（実施の形態３）
前記実施の形態１または２においては、画像認識システム１０Ａは、入力画像分配部１２、画像認識処理部１３Ａ〜１３Ｃ、認識結果統合処理部１４を備える画像認識部１１Ａのみを備える構成であったが、本開示はこれに限定されない。例えば、図４に示すように、画像認識装置１１Ｂと画像供給装置１５と認識結果使用装置１６Ａを備える画像認識システム１０Ｂであってもよい。あるいは、図５に示すように、画像認識・結果使用装置１１Ｃおよび画像供給装置１５を備える画像認識システム１０Ｃであってもよい。

画像認識装置１１Ｂは、前記実施の形態１または２で説明した画像認識部１１Ａと同様の構成である。画像供給装置１５は、画像認識装置１１Ｂまたは画像認識・結果使用装置１１Ｃに対して入力画像データを供給するものであればよい。具体的には、例えば、静止画または動画（映像）を撮影するカメラ（撮影装置）であってもよいし、予め撮影された静止画または動画のデータを供給可能に記憶する情報端末装置（パーソナルコンピュータ、スマートホン、タブレット等）であってもよい。

認識結果使用装置１６Ａは、認識結果統合処理部１４から出力される統合認識結果を用いて所定の処理を実行するものであればよい。具体的には、画像認識を用いた各種のアプリケーション（後述）に用いられる作動装置等が挙げられる。例えば、画像認識システム１０Ｂまたは１０Ｃが自動運転車両に適用される場合には、走行判断装置が挙げられ、画像認識システム１０Ｂまたは１０Ｃが立ち入り制限のための顔認証システムに適用される場合には、施解錠装置が挙げられる。

画像認識・結果使用装置１１Ｃは、画像認識装置１１Ｂと認識結果使用装置１６Ａとが一体化したものであり、画像認識部１１Ａと同様の構成（入力画像分配部１２、画像認識処理部１３Ａ〜１３Ｃ、認識結果統合処理部１４）と、認識結果使用部１６Ｂとを備えている。認識結果使用部１６Ｂは、認識結果使用装置１６Ａと同様のものであればよい。

本実施の形態３に係る画像認識システム１０Ｂ，１０Ｃ、あるいは、前述した実施の形態１または２に係る画像認識システム１０Ａが適用可能なアプリケーションは特に限定されず、認識結果使用装置１６Ａの例として挙げたように、画像認識を用いた各種の制御システム、認証システム、あるいは診断システム等であればよい。

より具体的には、例えば、自動運行航空機における地上走行時の他機または設備等の周辺環境を認識するための画像認識システム、自動運転車両における他車または歩行者等の周辺環境を認識するための画像認識システム、自動運航船舶における他船舶または港湾施設等の周辺環境を認識するための画像認識システム、医療分野におけるＸ線画像からのがん診断システム、手荷物検査におけるＸ線画像からの危険物自動識別システム、高セキュリティエリアにおける立ち入り制限のための顔認証システム等を挙げることができる。

このように、本開示に係る画像認識システムまたは画像認識処理方法は、認識対象についての互いに異なる学習済の深層学習により画像認識処理を行う画像認識処理部を複数並列し、これら画像認識処理部に対して入力画像データを分配供給して、それぞれの画像認識処理部が画像認識処理を行って、前記入力画像データに含まれる認識候補についての個別認識結果を複数生成し、これら個別認識結果を統合処理するものであり、この統合処理では、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力し、複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力する構成であればよい。

それゆえ、本開示に係る画像認識システムの具体的な構成については特に限定されず、例えば、実施の形態１または２で説明した図１（Ａ）に示す画像認識システム１０Ａであってもよいし、本実施の形態３で説明した図４に示す画像認識システム１０Ｂ、あるいは、図５に示す画像認識システム１０Ｃであってもよいし、実施の形態１〜３で説明した以外の構成を有するシステムであってもよい。

なお、本発明は前記実施の形態の記載に限定されるものではなく、特許請求の範囲に示した範囲内で種々の変更が可能であり、異なる実施の形態や複数の変形例にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。

本発明は、深層学習（ディープラーニング）を用いた画像認識の分野に広く好適に用いることができる。

１０Ａ〜１０Ｃ：画像認識システム
１１Ａ：画像認識部
１１Ｂ：画像認識装置（画像認識部）
１１Ｃ：画像認識・結果使用装置（画像認識部、認識結果使用部）
１２：入力画像分配部
１３：画像認識処理部
１３Ａ：第一画像認識処理部
１３Ｂ：第二画像認識処理部
１３Ｃ：第三画像認識処理部
１４：認識結果統合処理部
１５：画像供給装置
１６Ａ：認識結果使用装置（認識結果使用部）
１６Ｂ：認識結果使用部
１３１：個別認識処理部
１３２：個別認識結果判定部

Claims

並列する複数の画像認識処理部と、
入力画像データを複数の前記画像認識処理部に分配供給する入力画像分配部と、
複数の前記画像認識処理部による認識結果である、複数の個別認識結果を統合処理する認識結果統合処理部と、
を備え、
前記画像認識処理部は、認識対象について学習済の深層学習により画像認識処理を行い、前記入力画像データに含まれる認識候補について前記個別認識結果を生成し、
複数の前記画像認識処理部におけるそれぞれの前記深層学習は互いに異なるものであり、
前記認識結果統合処理部は、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、
複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力することを特徴とする、
画像認識システム。
前記画像認識処理部は、
深層学習により画像認識処理を行うことにより、前記入力画像データに含まれる認識候補についての認識結果を確信度とともに生成する個別認識処理部と、
生成した認識結果および確信度に基づいて前記認識結果の有効性を判定し、前記認識結果統合処理部に対して、前記認識結果とともに当該認識結果の有効性を前記個別認識結果として出力する個別認識結果判定部と、
を備えており、
前記認識結果統合処理部は、複数の前記個別認識結果を統合処理する際には、少なくとも前記有効性に基づいて、それぞれの個別認識結果に投票するか否かを判定するとともに、
当該投票結果に基づいて前記統合認識結果を生成することを特徴とする、
請求項１に記載の画像認識システム。
前記認識結果統合処理部は、複数の前記個別認識結果がいずれも有効でない場合、または、有効でない前記個別認識結果が有効である前記個別認識結果よりも多い場合には、統合認識結果として不明を出力することを特徴とする、
請求項２に記載の画像認識システム。
複数の前記画像認識処理部には、それぞれ異なる教師画像を用いて学習した深層学習、異なる学習の初期値を設定した深層学習、または、中間層の層数およびセル数の少なくとも一方が異なる深層学習のいずれかが用いられることを特徴とする、
請求項１から３のいずれか１項に記載の画像認識システム。
さらに、前記入力画像分配部に入力画像データを供給する画像供給部と、
前記認識結果統合処理部から出力される前記統合認識結果を用いて所定の処理を実行する認識結果使用部との少なくとも一方を備えていることを特徴とする、
請求項１から４のいずれか１項に記載の画像認識システム。
認識対象についての互いに異なる学習済の深層学習により画像認識処理を行う画像認識処理部を複数並列し、
これら画像認識処理部に対して入力画像データを分配供給して、それぞれの画像認識処理部が画像認識処理を行って、前記入力画像データに含まれる認識候補についての個別認識結果を複数生成し、これら個別認識結果を統合処理し、
この統合処理では、複数の前記個別認識結果が全て一致したときには、当該個別認識結果を前記認識対象の統合認識結果として出力する、もしくは、
複数の前記個別認識結果が全て一致しないときには、一致が最も多い前記個別認識結果を前記認識対象の統合認識結果として出力することを特徴とする、
画像認識処理方法。