JP6127676B2

JP6127676B2 - 画像認識装置、画像認識プログラム、記録媒体、および画像認識方法

Info

Publication number: JP6127676B2
Application number: JP2013084370A
Authority: JP
Inventors: 田中　清明; 清明田中
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2013-04-12
Filing date: 2013-04-12
Publication date: 2017-05-17
Anticipated expiration: 2033-04-12
Also published as: EP2790129A3; US20140307974A1; EP2790129A2; CN104102930B; JP2014206878A; US9396407B2; CN104102930A

Description

本発明は、画像に写る表示物体の種類を認識する画像認識装置、画像認識プログラム、記録媒体、および画像認識方法に関する。

画像に含まれる物体や文字列などを認識することは、一般的に画像認識と呼ばれる。特に、画像に含まれる物体の形状・色・動作などに基づき、その物体の種類を特定する画像認識のことを、一般物体認識と呼ぶ。

近年、一般物体認識を含む画像認識に関する研究が増加しており、精度の高い画像認識の実現が追及されている。しかしながら、画像認識の結果が正しい物体を特定することができるような精度の高い画像認識装置は未だ実現されていない。

そこで、画像認識の精度を向上させるための様々な技術が開発されている。

例えば、特許文献１には、画像情報を基に文字列の認識を行い、さらに、得られた文字認識結果を修正する認識装置が記載されている。

詳細には、特許文献１に記載された技術では、まず、画像情報に含まれる文字列について、画像識別処理を行うことにより、該文字列内の各文字の候補文字を推定する。次に、上記候補文字を組み合わせることで、上記文字列の候補としての候補文字列を作成する。その後、上記候補文字列を、単語登録情報内の単語と照合することによって、画像情報に含まれる上記文字列を特定する。

これにより、上記文字認識装置では、低負荷の処理で文字列を認識することができると、同文献には記載されている。

また、特許文献２には、頻出用語集に含まれる文字列を参照して、文字のＯＣＲ読み取り結果である文字列を修正する文字認識結果の修正方法が記載されている。同文献に開示された技術では、上記ＯＣＲ読み取り結果から、その一部をサンプルとして抽出し、さらに、上記サンプルから、予め用意した頻出用語集の登録語と類似の文字列を抽出する。次に、抽出された文字列と、上記類似の文字列とを対応付けた正誤表を作成する。その後、作成された正誤表を用いて、上記ＯＣＲ読み取り結果を修正する。

特開２０１０−９４４０号公報（２０１０年１月１４日公開）特開２０００−１１０９５号公報（２０００年１月１４日公開）

しかしながら、上記特許文献１および２に記載された技術は、いずれも画像中から文字列を認識して、認識結果を修正する技術であり、画像中から、文字列だけでなく任意の表示物体を認識して、その認識結果を修正する技術はこれまで開示されていない。
本発明は、上記課題に鑑みてなされたものであり、その目的は、画像に写る表示物体の種類を精度よく特定する画像認識装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る画像認識装置は、画像に写る表示物体の種類を認識し、上記表示物体の種類の認識結果としての確からしさを示す信頼度をそれぞれ有する１つまたは複数の認識候補を取得する画像認識装置において、上記表示物体の中から、上記認識結果を修正する対象となる１つまたは複数の変更物体を選択するとともに、上記認識結果を修正する対象ではない確定物体の種類を、上記１つまたは複数の認識候補のうちで最大の信頼度を有する認識候補の種類に確定する変更物体選択手段と、上記表示物体のうち、上記確定物体の中から、上記変更物体のペアとなるペア物体を選択するペア物体選択手段と、上記ペア物体の種類に関連付けられている物体の種類を示すペア情報リストに基づき、上記変更物体の認識結果を修正し、上記変更物体を特定する認識処理手段とを備えている。

また、上記の課題を解決するために、本発明の一態様に係る画像認識方法は、画像に写る表示物体の種類を認識し、上記表示物体の種類の認識結果としての確からしさを示す信頼度をそれぞれ有する１つまたは複数の認識候補を取得する画像認識方法において、上記表示物体の中から、上記認識結果を修正する対象となる１つまたは複数の変更物体を選択するとともに、上記認識結果を修正する対象ではない確定物体の種類を、上記１つまたは複数の認識候補のうちで最大の信頼度を有する認識候補の種類に確定する変更物体選択ステップと、上記表示物体のうち、上記確定物体の中から、上記変更物体のペアとなるペア物体を選択するペア物体選択ステップと、上記ペア物体の種類に関連付けられている物体の種類を示すペア情報リストに基づき、上記変更物体の認識結果を修正し、上記変更物体を特定する認識処理ステップとを含んでいる。

上記の各構成によれば、変更物体の認識結果を修正するために、その変更物体のペアとなるペア物体を、確定物体の中から選択する。このとき、変更物体のペア物体をどのように選択するかは任意である。

上記ペア物体は、例えば、該ペア物体と同一の画像に写っている頻度に基づいて対応付けられた物体であるペア情報のリストを有している。

従って、上記ペア情報リストを参照することによって、ペア物体と同一の画像中において認識された変更物体の種類を精度よく特定することができる。

さらに、本発明に係る画像認識装置において、上記変更物体選択手段は、上記表示物体のうち、上記１つまたは複数の認識候補の最大信頼度が所定の閾値よりも低い表示物体を、上記変更物体として選択する構成であってもよい。

上記構成によれば、１つまたは複数の認識候補の信頼度がいずれも所定の閾値より低い表示物体は変更物体となる。一方、上記１つまたは複数の認識候補の信頼度の少なくともいずれか１つが上記閾値以上である表示物体は確定物体となる。そして、上記変更物体は、上記確定物体の中から選択されたペア物体のペア情法リストに基づいて、特定されることになる。

ここで、上記最大信頼度は、上記１つまたは複数の認識候補の各信頼度のうち、最も大きい信頼度のことである。

上記閾値は、ある表示物体の認識候補が上記閾値よりも低い信頼度を有する場合、上記表示物体が上記認識候補であると特定されることが確からしいと言えないような値であってよい。

これにより、いずれの認識候補の信頼度も上記閾値より低く、確からしいと言える認識候補が存在しない表示物体を、変更物体として選択し、該表示物体の認識結果を修正することができる。

さらに、本発明に係る画像認識装置において、上記変更物体選択手段は、上記表示物体のうち、上記１つまたは複数の認識候補の最大信頼度が最も低い表示物体を、上記変更物体として選択する構成であってよい。

上記構成によれば、画像に表示された各表示物体の１つまたは複数の認識候補において、最大の信頼度を有しており、該表示物体として最も確からしいと考えられる最尤認識候補同士が比較される。そして、上記最尤認識候補の値が最も低い表示物体が、変更物体として選択される。

そのため、画像に表示された全表示物体において、いずれかの認識候補として特定されることが最も困難な表示物体を、変更物体とすることができる。

さらに、本発明に係る画像認識装置において、上記ペア物体選択手段は、上記画像において、複数の確定物体が存在する場合、上記変更物体に最も近い位置に表示された確定物体を、上記ペア物体として選択する構成であってよい。

上記構成によれば、変更物体に最も近い位置に表示された確定物体がペア物体となる。ここで、画像において、変更物体に最も近くに位置する確定物体は、その画像が撮影された空間内において、上記変更物体に最近接しているか、あるいは最近接はしていないものの上記変更物体の近傍に位置していると考えられる。

そのため、上記確定物体は、上記変更物体に対して強い関連性を有する物体である可能性が高いので、上記確定物体のペア情報リストには、上記変更物体の正しい特定結果が含まれる可能性が高いことになる。

従って、上記構成のように、画像において変更物体の最も近くに位置する確定物体を、上記ペア物体として選択することによって、上記ペア物体のペア情報リストに基づき、上記変更物体が正しく特定される可能性を向上させることができる。

さらに、本発明に係る画像認識装置において、上記ペア物体選択手段は、上記画像において、複数の確定物体が存在する場合、上記信頼度が最も高い確定物体を、上記ペア物体として選択する構成であってよい。

上記構成によれば、上記ペア物体は、信頼度が最も高い確定物体である。従って、上記ペア物体としての確定物体は、全ての確定物体において、正しく特定されている可能性が最も高い確定物体であると考えられる。

そのため、正しく特定されている可能性が最も高いペア物体のペア情報リストに基づき、上記変更物体の認識結果が修正され、上記変更物体が特定されることになる。これにより、上記変更物体が正しく特定される可能性を向上させることができる。

さらに、本発明に係る画像認識装置において、上記ペア物体選択手段は、上記画像において、複数の確定物体が存在する場合、上記複数の確定物体のうち、最多数の同一種類の確定物体のいずれかを、上記ペア物体として選択する構成であってよい。

上記構成によれば、少なくともいずれか１つの確定物体の特定結果に対応する認識候補のうち、最も多くの確定物体の認識候補である認識候補が探索される。そして、上記探索の結果として検出された認識候補に対応する確定物体が、ペア物体として選択されることになる。

上記ペア物体は、少なくともいずれか１つの確定物体の特定結果に対応する認識候補であり、さらに、上記認識候補のうち、最も多くの確定物体の認識候補である。

従って、上記確定物体の中には、上記ペア物体の特定結果と同一の物体である可能性が高い確定物体が多いことになる。このことは、上記ペア物体が正しく特定されている可能性が高いことを意味する。

ゆえに、正しく特定されている可能性が最も高いペア物体のペア情報リストに基づき、上記変更物体の認識結果が修正され、上記変更物体が特定されることになる。これにより、上記変更物体が正しく特定される可能性を向上させることができる。

さらに、本発明に係る画像認識装置において、上記認識処理手段は、上記変更物体の認識候補において、上記信頼度の高い認識候補から順に、該認識候補に対応するペア情報が上記ペア情報リストに含まれているか探索し、該認識候補に対応するペア情報を検出した場合、上記変更物体を該ペア情報として特定する構成であってよい。

上記構成によれば、信頼度の高い認識候補から順に、ペア物体のペア情報リストにその認識候補に対応するペア情報が含まれているか探索される。このようにして、対応するペア情報が検出された認識候補は、対応するペア情報が上記ペア情報リストに存在する全ての認識候補の中では、最も信頼度が高い。

従って、上記変更物体は、対応する物体が上記ペア情報リストに存在する認識候補の中では、最も信頼度が高い認識候補として特定されることになる。

これにより、対応するペア情報が上記ペア情報リストに存在する認識候補の中で、２番目以下に信頼度が高い認識候補として、上記変更物体が特定される構成と比較して、上記変更物体が正しく特定される可能性をより高くすることができる。

さらに、本発明に係る画像認識装置において、上記認識処理手段は、上記ペア情報リストにおいて優先度が高いペア情報から順に、該ペア情報に対応する認識候補が上記変更物体の認識候補として含まれているか探索し、該ペア情報に対応する認識候補を検出した場合、上記変更物体を該ペア情報として特定する構成であってよい。

ここで、ペア情報リストにおけるペア情報の優先度は、データベース中の同一画像において、上記ペア情報リストを有するペア物体が、該ペア情報と一緒に写っている頻度の高さに基づいて決定されてもよい。

あるいは、ペア情報リストにおけるペア情報の優先度は、経験的にあるいは一般的に、上記ペア情報を有するペア物体と組み合わせて配置される頻度の高さに基づいて決定されてもよい。

上記構成によれば、ペア情報リストにおいて優先度が高いペア情報から順に、変更物体の全ての認識候補の中に、該ペア情報に対応する認識候補が含まれているか探索される。このようにして、対応する認識候補が検出されたペア情報は、上記ペア情報リストにおいて、対応する認識候補が上記変更物体の認識候補として含まれる物体の中では、最も優先度が高い。

従って、上記変更物体は、対応する認識候補が上記変更物体の認識候補として含まれるペア情報の中では、最も優先度が高いペア情報として特定されることになる。

これにより、対応する認識候補が上記変更物体の認識候補として含まれるペア情報の中で、２番目以下に優先度が高いペア情報として、上記変更物体が特定される構成と比較して、上記変更物体が正しく特定される可能性をより高くすることができる。

さらに、本発明に係る画像認識装置において、上記認識処理手段は、上記ペア情報リストを参照して、上記ペア情報リストに含まれるペア情報に対応する認識候補の信頼度が大きくなるように、上記変更物体の認識候補の信頼度に対して重み付けを行った後、上記変更物体を、上記変更物体の認識候補のうち、最も信頼度の高い認識候補として特定する構成であってよい。

上記構成によれば、ペア情報リストに含まれるペア情報に対応する認識候補が検出された場合、変更物体を、該認識候補として特定する代わりに、該認識候補の信頼度が重み付けされる。

従って、ペア情報リストに含まれるペア情報に対応する認識候補の信頼度を重み付けによって増加させて、上記変更物体が該認識候補であることの確からしさを増加させることができる。

なお、ペア情報リストに含まれるペア情報の優先度に応じて、上記ペア情報に対応する認識候補の信頼度に付す重みを変化させてもよい。これにより、ペア情報リストにおいて優先度のより高いペア情報に対応する認識候補ほど、信頼度をより増加させることができることになる。

さらに、本発明に係る画像認識装置において、上記認識処理手段は、上記変更物体選択手段によって複数の変更物体が選択された場合、上記複数の変更物体において、上記１つまたは複数の認識候補の最大信頼度の高い変更物体から順に特定する構成であってよい。

上記構成によれば、信頼度の高い変更物体から順に特定される。

従って、例えば、信頼度が番高い第１の変更物体を特定した後、２番目に信頼度が高い第２の変更物体を特定する際に、先に特定された上記第１の変更物体を、上記第２の変更物体のペア物体として用いることができることになる。

ここで、最大信頼度がより高い変更物体ほど、その最大信頼度を有する認識候補である確からしさが高いことになる。従って、最大信頼度がより高い変更物体ほど、正しく特定される可能性がより高いと考えられる。逆に言えば、最大信頼度がより低い変更物体ほど、正しく特定される可能性がより低いと考えられる。

また、正しく特定される可能性がより高い変更物体を先に確定させた後、その物体をペア物体として用いて、正しく特定される可能性がより低い変更物体を確定させたほうが、正しく特定される可能性がより低い変更物体を先に確定させた後、その物体をペア物体として用いて、正しく特定される可能性がより高い変更物体を確定させることよりも、両方の変更物体が正しく特定される可能性がより高いと考えられる。

ゆえに、上記構成は、最大信頼度の低い変更物体から順に特定する構成と比較して、複数の変更物体が正しく特定される可能性がより高くなると考えられる。

さらに、本発明に係る画像認識装置において、上記認識処理手段は、上記画像において、上記確定物体が存在しない場合、上記変更物体を、該変更物体の最も信頼度の高い認識候補として特定する構成であってよい。

上記構成によれば、ある変更物体が、最も信頼度の高い認識候補として特定されることになる。例えば、最大信頼度が最も高い認識候補を有する変更物体を特定して、確定物体としてもよい。

これにより、画像には、少なくとも１つの確定物体が含まれることになる。そして、上記確定物体をペア物体として用いて、上述したように、変更物体を特定することができる。

なお、上記ペア情報リストには、過去に撮影された画像において、同一の画像内に写っている頻度が所定数よりも高い２つの表示物体が、互いに他方の表示物体に対応付けられたペア情報リストに含まれている構成であってよい。

上記構成では、例えば、まず、高性能な画像認識装置を用いて、データベース化された複数の画像を一般物体認識させる。これにより、上記複数の画像に表示された表示物体が認識され、特定されることになる。

次に、表示物体の特定結果を用いて、同一画像に写っている２つの表示物体を抽出する。これにより、ある２つの表示物体が同一画像内に写っている頻度が求められることになる。

その後、所定の枚数以上の同一画像に写っている２つの表示物体を抽出し、互いに他方の表示物体に対応付けられたペア情報リストに含める。

こうして、同一の画像に写っている頻度が所定回数以上であり、ペアとして配置されたり、組み合わせて使用されたりすると考えられる２つの表示物体を、互いに他方の表示物体に対応付けられたペア情報リストに含めることができる。

本発明の各態様に係る画像認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記画像認識装置が備える各手段として動作させることにより上記画像認識装置をコンピュータにて実現させる画像認識装置の画像認識プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明に係る画像認識装置は、画像に写る表示物体の種類を認識し、上記表示物体の種類の認識結果としての確からしさを示す信頼度をそれぞれ有する１つまたは複数の認識候補を取得する画像認識装置において、上記表示物体の中から、上記認識結果を修正する対象となる１つまたは複数の変更物体を選択するとともに、上記認識結果を修正する対象ではない確定物体の種類を、上記１つまたは複数の認識候補のうちで最大の信頼度を有する認識候補の種類に確定する変更物体選択手段と、上記表示物体のうち、上記確定物体の中から、上記変更物体のペアとなるペア物体を選択するペア物体選択手段と、上記ペア物体の種類に関連付けられている物体の種類を示すペア情報リストに基づき、上記変更物体の認識結果を修正し、上記変更物体を特定する認識処理手段とを備えている。

また、本発明に係る画像認識方法は、画像に写る表示物体の種類を認識し、上記表示物体の種類の認識結果としての確からしさを示す信頼度をそれぞれ有する１つまたは複数の認識候補を取得する画像認識方法において、上記表示物体の中から、上記認識結果を修正する対象となる１つまたは複数の変更物体を選択するとともに、上記認識結果を修正する対象ではない確定物体の種類を、上記１つまたは複数の認識候補のうちで最大の信頼度を有する認識候補の種類に確定する変更物体選択ステップと、上記表示物体のうち、上記確定物体の中から、上記変更物体のペアとなるペア物体を選択するペア物体選択ステップと、上記ペア物体の種類に関連付けられている物体の種類を示すペア情報リストに基づき、上記変更物体の認識結果を修正し、上記変更物体を特定する認識処理ステップとを含んでいる。

本発明の一態様によれば、画像に写る表示物体の種類を精度よく特定することができるという効果を奏する。

本発明の実施形態１に係る画像認識装置の構成を示す機能ブロック図である。画像の一例を示す図であり、画像における一般物体認識の一例を説明する図である。画像の一例を示す図であり、図１に示す画像認識装置による一般物体認識を説明する図である。図１に示す画像認識装置による一般物体認識を説明する他の図である。図１に示す画像認識装置による一般物体認識の流れを示すフローチャートである。

〔実施形態１〕
以下、本発明の実施形態について、図１〜図５を用いて詳細に説明する。

まず、図１を用いて、本実施形態に係る画像認識装置１の構成を説明する。図１は、画像認識装置１の構成を示す機能ブロック図である。

図１に示すように、画像認識装置１は、画像取得部１０１、一般物体認識手段１０２、変更物体特定手段１０、出力部１０６、および記憶部１０７を備えている。

画像取得部１０１は、画像認識装置１の外部、例えば画像撮影装置または画像のデータベースなどから画像を取得するものである。画像取得部１０１は、このように取得した画像を一般物体認識手段１０２に出力する。

一般物体認識手段１０２は、画像取得部１０１より出力された画像に対して、一般画像認識を実行するものである。詳細には、一般物体認識手段１０２は、上記画像に含まれる各物体について、形状・色・動作などに基づいて、その物体の種類を認識する。一般物体認識手段１０２によって認識された物体は、一般的に、１つまたは複数の認識候補を有することになる。ある物体の各認識候補は、その物体が該認識候補である確からしさ、すなわち信頼度を有する。

図２に、一般物体認識手段１０２により一般画像認識が実行される対象となる画像の一例を示す。同図において、楕円形の囲みで囲った８つの物体が、一般物体認識手段１０２により認識される。また、一般物体認識手段１０２は、８つの物体のそれぞれについて、認識候補を出力する。

変更物体特定手段１０は、一般物体認識手段１０２による物体の認識結果を修正するものである。詳細には、変更物体特定手段１０は、物体の認識結果の信頼度が低い変更物体について、その認識結果を修正し、より確からしい物体に特定する。なお、変更物体特定手段１０の詳細については後述する。

出力部１０６は、変更物体特定手段１０による画像の処理結果を外部に対して出力するものである。例えば、出力部１０６は、各種の画像アプリケーションに対して上記処理結果を出力してもよい。

記憶部１０７は、物体に対応付けられたペア情報のリストであるペア情報リストを記憶している。

（ペア情報について）
物体に対応付けられるペア情報には、特に制限は存在しないが、例えば以下のようにして決定してもよい。

データベースに記憶された撮影画像において、一般物体認識を行い、同一の画像中に存在していることが多い２つの確定物体について、一方の確定物体が、他方の確定物体のペア情報となる。

なお、上記一般物体認識の際には、（画像認識装置１よりも画像認識能力の高い）高性能な画像認識装置を用いて、上記データベース中の画像の画像認識を行うことが望ましい。これにより、画像中の物体が正しく特定されるため、正しく特定された確定物体を用いて、ペア情報を決定することができる。ここで、ペア情報を生成する際には、迅速な処理が要求されることは基本的にないないため、上記のように高性能な画像認識装置を用いることが可能である。

あるいは、一般的にまたは経験的に、組み合わせて使用されたり、ペアとして配置されたりすることが多い２つの物体について、一方の物体を他方の物体のペア情報としてもよい。

上記の構成では、机のペア情報リストには、例えば、椅子および人が含まれることになる。また、ＰＣ（パーソナルコンピュータ）のペア情報リストには、例えば、キーボードおよびマウスが含まれる。また、犬のペア情報リストには、例えば、エサ、首輪、および紐が含まれる。

（変更物体特定手段１０）
図１に示すように、変更物体特定手段１０は、変更物体選択手段１０３、ペア物体選択手段１０４、および認識処理手段１０５を含む構成である。

ここでは、変更物体特定手段１０の各構成要素につき、その詳細を順に説明する。

（１．変更物体選択手段１０３）
変更物体選択手段１０３は、画像において、一般物体認識手段１０２によって認識された物体の中から、認識結果の変更を図る対象となる物体（以下、変更物体と称する）を選択するものである。

図３において、各物体について、一般物体認識手段１０２による認識結果が示されている。例えば、物体５について、認識候補（机、猫、犬）と各認識候補の信頼度を示すスコア（８００、３００、３００）が示されている。

第１の実施例として、変更物体選択手段１０３は、所定の閾値を設定して、認識候補の信頼度を示すスコア（図３参照）の最大値が所定の閾値以下である表示物体を変更物体とする。例えば、上記閾値が５００である場合、図３に示す画像では、物体４（最大スコア４５０）および物体６（最大スコア４００）が変更物体となる。

このとき、変更物体選択手段１０３は、変更物体（物体４、物体６）以外の各物体を、それぞれの物体の最大スコアを有する認識候補として特定する。以後、特定された物体のことを確定物体と呼ぶ。

なお、画像全体において、上記閾値を超える表示物体が１つも存在しない場合、あるいは、画像において、スコアの最も大きい表示物体から所定の距離範囲内に存在する表示物体が１つも存在しない場合、変更物体選択手段１０３は、スコアが最も大きい表示物体のみを確定物体とし、それ以外の表示物体を変更物体としてもよい。

第２の実施例として、変更物体選択手段１０３は、一般物体認識手段１０２によって認識された全ての物体の最大スコアを有する認識候補同士を比較して、最もスコアの低い認識候補を特定し、その認識候補を有する物体を変更物体とする。この構成の場合、図３に示す画像では、最大スコア４００の物体６が変更物体となる。

（２．ペア物体選択手段１０４）
ペア物体選択手段１０４は、変更物体選択手段１０３によって選択された変更物体のペアとする物体（以下、ペア物体と称する）を選択するものである。ある変更物体のペア物体は、その変更物体と同一の画像内にある確定物体の中から選択される、１つまたは複数の確定物体である。

（ペア物体選択処理の具体例）
以下に、ペア物体選択手段１０４によるペア物体選択処理の実施例を示す。

[実施例１]
ペア物体選択方法の一実施例では、ペア物体選択手段１０４は、画像において、変更物体の周囲にある確定物体のうち、最もスコアの大きい識別候補を有する物体を、上記変更物体のペア物体として選択する。

[実施例２]
ペア物体選択方法の他の実施例では、ペア物体選択手段１０４は、画像において、変更物体の最も近傍にある確定物体を、ペア物体として選択する。
これにより、変更物体により近い位置にあって、変更物体との関連がより大きいと考えられる確定物体を優先して、ペア物体として選択することができる。

例えば、図３において、物体６が変更物体である場合、第１に、画像において物体６に最も近い物体５がペア物体として選択される。なお、物体５をペア物体として用いて、物体６が特定されなかった場合、次に、画像において物体６に２番目に近い物体２が新たにペア物体として選択されてもよい。

[実施例３]
ペア物体選択方法の他の一実施例では、変更物体の周囲に複数の確定物体が存在している場合、ペア物体選択手段１０４は、上記複数の確定物体のうち、最多数の確定物体を、上記ペア物体として選択する。

例えば、図３に示す画像において、物体１〜物体５が確定物体であり、物体６が変更物体であるとする。ここで、物体１〜物体５は、それぞれ、物体１：人、物体２：人、物体３：机、物体４：椅子、物体５：机であると特定されている。

従って、物体１〜物体５において、２つの物体に対応する「人」（物体１、物体２）および「机」（（物体３、物体５））が、最多数である。そのため、物体１、物体２、物体３、または物体５がペア物体となる。

例えば、ペア物体選択手段１０４は、物体１、物体２、物体３、および物体５の信頼度を参照して、最も高い信頼度を有する物体をペア物体として決定してもよい。

[実施例４]
ペア物体選択方法の他の一実施例では、ペア物体選択手段１０４は、画像中に複数の変更物体が存在する場合、認識候補の最大スコアが大きい変更物体の順で、ペア物体の選択を行う。すなわち、スコアのより高い認識候補を有する第１の変更物体と、スコアのより低い認識候補を有する第２の変更物体とがある場合、ペア物体選択手段１０４は、第２の変更物体のペア物体よりも、第１の変更物体のペア物体を先に選択する。その理由は以下のとおりである。

第１に、スコアの高い認識候補を有する変更物体は、一般物体認識手段１０２により正しく認識された認識候補を有している可能性が高い。そのため、スコアのより低い認識候補を有する第２の変更物体よりも、スコアのより高い認識候補を有する第１の変更物体の方が、認識処理手段１０５により正しく特定される可能性がより高い。

第２に、ペア物体選択手段１０４が、スコアの高い認識候補を有する第１の変更物体のペア物体を先に選択した場合、第２の変更物体のペア物体を選択する前に、第１の変更物体が特定されることになる。そのため、ペア物体選択手段１０４は、第２の変更物体のペア物体を選択する際に、特定済の第１の変更物体を、第２の変更物体のペア物体として用いることができる。

ところで、上述したように、第１の変更物体は、第２の変更物体と比較して、正しく特定される可能性が高い。そして、第１の変更物体が正しく特定されていた場合、特定済の第１の変更物体が有するペア情報には、第２の変更物体を正しく特定する情報が含まれている可能性が高い。

従って、第２の変更物体のペア物体を選択する際に、特定済の第１の変更物体をペア物体として選択した場合、認識処理手段１０５は、特定済の第１の変更物体が有するペア情報に基づき、第２の変更物体を正しく特定することができる可能性が高いことになる。

一方、ペア物体選択手段１０４が、スコアのより低い認識候補を有する第２の変更物体のペア物体を先に選択した場合、第２の変更物体は、誤って特定される可能性が高い。また、（第２の変更物体が誤って特定された後）第１の変更物体のペア物体を選択する際に、特定済の第２の変更物体をペア物体として選択した場合、認識処理手段１０５は、特定済の第２の変更物体が有するペア情報に基づき、第２の変更物体を正しく特定することが困難であると考えられる。

以上のことから、画像中に複数の変更物体が存在する場合、認識候補の最大スコアが大きい変更物体の順で、特定を行うことが望ましいことになる。

そこで、ペア物体選択手段１０４は、認識候補の最大スコアが大きい変更物体の順で、ペア物体を選択する。

例えば、図３に示す画像において、物体４および物体６が変更物体であるとする。このとき、物体４の最大スコア（４５０）は、物体６の最大スコア（４００）よりも大きい。

そのため、まず、物体４について、ペア物体処理が実行される。その後、物体４が確定されたのち、物体４をペア物体として用いて、あるいは用いずに、物体６について、ペア物体処理が実行されることになる。

（認識処理手段１０５）
認識処理手段１０５は、ペア物体のペア情報を記憶部１０７より取得し、上記ペア情報を用いて、変更物体を特定するものである。
（変更物体特定処理の具体例）
以下に、認識処理手段１０５による変更物体特定処理の実施例を示す。

[実施例１]
変更物体特定処理の一実施例では、認識処理手段１０５は、スコアの高い認識候補の順で、変更物体の認識候補に対応するペア情報が、ペア物体のペア情報リストに含まれているか探索する。その後、認識処理手段１０５は、上記探索において検出された認識候補を、変更物体の識別結果として確定する。

本実施例について、図４を用いて説明する。ここで、同図の物体５および物体６は、図３に示された物体５および物体６と同じ物体である。

例えば、図４において、変更物体が物体６であり、ペア物体が物体５であるとする。そして、物体５は、図内に示すように、ペア情報として、「椅子」「筆箱」「鉛筆」「消しゴム」ｅｔｃ．を含むペア情報リストＬを有しているとする。

この構成の場合、認識処理手段１０５は、物体６の最もスコアの高い認識候補である「犬」が、ペア物体である物体５のペア情報リストＬに含まれているか探索する。ペア情報リストに「犬」が含まれていた場合、認識処理手段１０５は、変更物体が「犬」であると確定する。

一方、ペア情報リストに「犬」が含まれていなかった場合、認識処理手段１０５は、物体６の２番目にスコアの高い認識候補である「椅子」が、物体５のペア情報リストＬに含まれているか探索する。以降の処理は、上述したのと同様に進められる。

[実施例２]
変更物体特定処理の他の実施例では、認識処理手段１０５は、ペア物体のペア情報リストに含まれる一番上のペア情報から順に、該ペア情報が変更物体の認識候補に含まれているか探索する。認識処理手段１０５は、上記探索において検出された認識候補として、変更物体を特定する。

例えば、図４において、変更物体が物体６であり、ペア物体が物体５である場合、認識処理手段１０５は、物体５のペア情報リストＬにおいて、最も優先度の高いペア情報である「椅子」が、変更物体である物体６の認識候補に含まれているか探索する。そして、物体６の認識候補として「椅子」が含まれているので、物体６は「椅子」として特定される。

なお、物体６の認識候補に「椅子」が含まれていなかった場合、物体５の２番目に優先度の高いペア情報である「筆箱」が、物体６の認識候補に含まれているか探索されることになる。以降の処理は、上述したのと同様に進められる。

以上の処理により、図４に示す例では、変更物体である物体６が「椅子」と特定されることにより、一般物体認識手段１０２による物体６の認識結果（最大スコアの「犬」）が、「椅子」に修正される。

[変形例１；スコアの重み付け]
認識処理手段１０５は、上記実施例１または２において、ペア情報に対応する認識候補を検出した後、該認識候補として変更物体を特定する代わりに、該認識候補のスコアを（例えば１．５倍に）増加させるスコア変更を行ってもよい。

この構成の場合、認識処理手段１０５は、上記スコア変更を行った後において、スコアが最も高い認識候補として、変更物体を特定することになる。

例えば、図３では、検出された「椅子」のスコアを１．５倍して、３５０から５２５に変更する。その結果、「犬」（スコア：４００）、「椅子」（スコア：５２５）、「人」（スコア：３００）で、スコアが最も高くなった「椅子」として、変更物体６が特定される。

なお、認識処理手段１０５は、変更物体特定処理を実行する前に、変更物体の認識候補を予め減らしておいてもよい。具体的には、認識処理手段１０５は、変更物体特定処理を実行する前に、変更物体の認識候補の中から、所定の閾値を超えない認識候補を除外しておいてもよい。

例えば、図３では、物体６の認識候補として、「犬」（スコア：４００）、「椅子」（スコア：３５０）、および「人」（スコア：３００）が示されている。ここで、スコアの閾値を３２５とすれば、上記認識候補のうち、「人」が除外され、物体６の認識候補として「犬」および「椅子」が残ることになる。また、スコアの閾値を３７５とすれば、上記認識候補のうち、「人」および「椅子」が除外され、物体６の認識候補として「犬」のみが残ることになる。

（変更物体特定処理のフローチャート）
以下では、図３および図５を用いて、変更物体の変更物体特定処理について説明する。図５は、識別方法の流れを示すフローチャートである。

図５に示すように、まず、外部から画像取得部１０１に対して、図３に示す画像が入力される（Ｓ１０１）。次に、一般物体認識手段１０２によって、上記画像の一般物体認識が実行され、画像中の物体１〜物体６と、それら各々の認識候補とが取得される（Ｓ１０２）。

その後、変更物体選択手段１０３は、信頼度（スコア）に基づいて変更物体を選択する（Ｓ１０３）。詳細には、変更物体選択手段１０３は、画像中の物体１〜物体６のうち、認識候補の最大スコアが閾値以下である物体を変更物体として選択する。

変更物体選択手段１０３は、画像中に変更物体があるか判定する（Ｓ１０４）。画像中に変更物体がないと判定された場合（Ｓ１０４でＮＯ）、認識処理手段１０５は、全ての表示物体について、各表示物体の最大のスコアを有する認識候補として特定した結果を出力する（Ｓ１０７）。

一方、画像中に変更物体があると判定された場合（Ｓ１０４でＹＥＳ）、ペア物体選択手段１０４は、各変更物体のペア物体をそれぞれ選択する（Ｓ１０５）。

その後、認識処理手段１０５は、ペア物体のペア情報リストおよび認識候補の信頼度（スコア）に基づいて、変更物体を特定する（Ｓ１０６）。

変更物体が残っていなければ（Ｓ１０４でＮＯ）、出力部１０６は、認識処理手段１０５による各表示物体の特定結果を、外部（例えば、画像アプリケーション）に出力する（Ｓ１０７）。

（特許文献１に記載の発明との差異）
特許文献１に記載された従来技術では、複数の単語が登録された単語登録情報に含まれる文字の出現回数に基づいて、各候補文字の重み付けを行い、その結果によって候補文字を候補から除外する。

従って、特許文献１に記載された技術は、本願発明に係る変更物体特定手段１０とは異なり、信頼度（スコア）および閾値に基づいて、認識候補を評価するものではない。

そのため、変更物体特定手段１０は、スコアの調整による認識候補の信頼度の変更、および閾値の変更による認識候補の削減などを行うことができる一方、特許文献１に記載された技術では、信頼度および／または閾値を利用して、認識候補を評価することはできないことになる。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

〔ソフトウェアによる実現例〕
最後に、画像認識装置１の各ブロック、特に変更物体特定手段１０は、集積回路（ＩＣチップ）上に形成された論理回路によってハードウェア的に実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェア的に実現してもよい。

後者の場合、画像認識装置１は、各機能を実現するプログラムの命令を実行するＣＰＵ、上記プログラムを格納したＲＯＭ（Read Only Memory）、上記プログラムを展開するＲＡＭ（Random Access Memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像認識装置１の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記画像認識装置１に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、一時的でない有形の媒体（non-transitory tangible medium）、例えば、磁気テープやカセットテープ等のテープ類、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク類、ＩＣカード（メモリカードを含む）／光カード等のカード類、マスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ（登録商標）／フラッシュＲＯＭ等の半導体メモリ類、あるいはＰＬＤ（Programmable logic device）やＦＰＧＡ（Field Programmable Gate Array）等の論理回路類などを用いることができる。

また、画像認識装置１を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（Virtual Private Network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ（Asymmetric Digital Subscriber Line）回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１無線、ＨＤＲ（High Data Rate）、ＮＦＣ（Near Field Communication）、ＤＬＮＡ（Digital Living Network Alliance）、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は、画像に写る表示物体を認識する画像認識装置等に利用することができる。

１画像認識装置
１０３変更物体選択手段
１０４ペア物体選択手段
１０５認識処理手段

Claims

画像に写る表示物体の種類を認識し、上記表示物体の種類の認識結果としての確からしさを示す信頼度をそれぞれ有する１つまたは複数の認識候補を取得する画像認識装置において、
上記表示物体の中から、上記認識結果を修正する対象となる１つまたは複数の変更物体を選択するとともに、上記認識結果を修正する対象ではない確定物体の種類を、上記１つまたは複数の認識候補のうちで最大の信頼度を有する認識候補の種類に確定する変更物体選択手段と、
上記表示物体のうち、上記確定物体の中から、上記変更物体のペアとなるペア物体を選択するペア物体選択手段と、
上記ペア物体の種類に関連付けられている物体の種類を示すペア情報リストに基づき、上記変更物体の認識結果を修正し、上記変更物体を特定する認識処理手段とを備えたことを特徴とする画像認識装置。
上記変更物体選択手段は、上記表示物体のうち、上記１つまたは複数の認識候補の最大信頼度が所定の閾値よりも低い表示物体を、上記変更物体として選択することを特徴とする請求項１に記載の画像認識装置。
上記変更物体選択手段は、上記表示物体のうち、上記１つまたは複数の認識候補の最大信頼度が最も低い表示物体を、上記変更物体として選択することを特徴とする請求項１に記載の画像認識装置。
上記変更物体選択手段は、上記画像において、上記確定物体が存在しない場合、上記変更物体を、該変更物体の最も信頼度の高い認識候補として特定することを特徴とする請求項１〜３のいずれか１項に記載の画像認識装置。
上記ペア物体選択手段は、上記画像において、複数の確定物体が存在する場合、上記信頼度が最も高い確定物体を、上記ペア物体として選択することを特徴とする請求項１〜４のいずれか１項に記載の画像認識装置。
上記ペア物体選択手段は、上記画像において、複数の確定物体が存在する場合、上記変更物体に最も近い位置に表示された確定物体を、上記ペア物体として選択することを特徴とする請求項１〜４のいずれか１項に記載の画像認識装置。
上記ペア物体選択手段は、上記画像において、複数の確定物体が存在する場合、上記複数の確定物体のうち、最多数の同一種類の確定物体のいずれかを、上記ペア物体として選択することを特徴とする請求項１〜４のいずれか１項に記載の画像認識装置。
上記認識処理手段は、上記変更物体の認識候補において、上記信頼度の高い認識候補から順に、該認識候補に対応するペア情報が上記ペア情報リストに含まれているか探索し、該認識候補に対応するペア情報を検出した場合、上記変更物体を該ペア情報として特定することを特徴とする請求項１〜７のいずれか１項に記載の画像認識装置。
上記認識処理手段は、上記ペア情報リストにおいて優先度が高いペア情報から順に、該ペア情報に対応する認識候補が上記変更物体の認識候補として含まれているか探索し、該物体に対応する認識候補を検出した場合、上記変更物体を該ペア情報として特定することを特徴とする請求項１〜７のいずれか１項に記載の画像認識装置。
上記認識処理手段は、上記ペア情報リストを参照して、上記ペア情報リストに含まれるペア情報に対応する認識候補の信頼度が大きくなるように、上記変更物体の認識候補の信頼度に対して重み付けを行った後、上記変更物体を、上記変更物体の認識候補のうち、最も信頼度の高い認識候補として特定することを特徴とする請求項１〜７のいずれか１項に記載の画像認識装置。
請求項１から１０のいずれか１項に記載の画像認識装置としてコンピュータを機能させるための画像認識プログラムであって、コンピュータを上記各手段として機能させるための画像認識プログラム。
請求項１１に記載の画像認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
画像に写る表示物体の種類を認識し、上記表示物体の種類の認識結果としての確からしさを示す信頼度をそれぞれ有する１つまたは複数の認識候補を取得する画像認識方法において、
上記表示物体の中から、上記認識結果を修正する対象となる１つまたは複数の変更物体を選択するとともに、上記認識結果を修正する対象ではない確定物体の種類を、上記１つまたは複数の認識候補のうちで最大の信頼度を有する認識候補の種類に確定する変更物体選択ステップと、
上記表示物体のうち、上記確定物体の中から、上記変更物体のペアとなるペア物体を選択するペア物体選択ステップと、
上記ペア物体の種類に関連付けられている物体の種類を示すペア情報リストに基づき、上記変更物体の認識結果を修正し、上記変更物体を特定する認識処理ステップとを含むことを特徴とする画像認識方法。