JP7812552B2

JP7812552B2 - 複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム

Info

Publication number: JP7812552B2
Application number: JP2022016781A
Authority: JP
Inventors: 和彦鷲見; 大輝小島; 卓也松本; 達哉尾代
Original assignee: Sohatsu Systems Laboratory Inc
Current assignee: Sohatsu Systems Laboratory Inc
Priority date: 2022-02-06
Filing date: 2022-02-06
Publication date: 2026-02-10
Anticipated expiration: 2042-02-06
Also published as: JP2023114477A

Description

本発明は、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、認識対象物の画像認識精度を向上する画像認識学習システム、画像認識学習方法および画像認識学習プログラムに関する。
例えば、認識対象物としては、道路を通行する車両、人体の患部などがある。

近年、いわゆるＡＩ（人工知能）が発展しつつあり、カメラなどの撮影画像に写り込んだ認識対象物を検知する画像認識処理も自動化されつつある。ＡＩを用いた自動処理ではあらかじめ機械学習を行ってＡＩ学習モデルを作成する必要である。画像認識を行うためのＡＩモデルを生成するためには、認識処理物が写り込んだ画像を学習データとして与えて機械学習が行われる。例えば、教師あり学習では、学習データとして、画像データと、その画像に対応する『正解ラベル』がセットで用いられる。
しかし、通常、画像データにあらかじめ正解ラベルが付いていることはない。そのため、機械学習に供する画像データに正解ラベルを付与することが必要となる。

ＡＩの機械学習に用いる画像データに対するラベル付け作業では、その画像に何が写っているかを示す情報を正解ラベルを逐一付与する作業が必要となっていた。つまり、従来技術では、一般には人海戦術により画像内の物体を検出するための機械学習に用いる画像データに対するラベル付け作業を行い、与える画像のどの部分にどんな物体が写っているのかを示す情報を『正解ラベル』として付与する。

従来技術では、このラベル付け作業は自動化することが困難であり、一般的には人手で行わざるを得なかった。精度の高いＡＩモデルを生成するには大量の学習データが必要である。そのため、人による膨大な作業工数が必要とされるという問題があった。

特許文献１（特開２０１７－２２４１８４号公報）には、ラベル付け作業を支援する技術が開示されている。この特許文献１において、機械学習制御部は、訓練データまたはテストデータとして選択された画像のうち、ラベル付け作業が未実施の画像を、任意の順序でいずれか一枚ずつ表示装置に表示させる。次に、機械学習制御部は、ユーザが入力装置を介して入力した上記画像を説明するテキストデータまたは数値データを受け取り、このデータを上記画像の教師データフィールドに記録する。ここで、属性特徴量が同一の画像については、機械学習制御部が同一の画像の教師データフィールドに同一のデータを記録する。これにより、ユーザによるラベル付け作業回数を低減することができるとされている。

例えば、特許文献２には、学習部と予測部を用いて省力化する技術が開示されている。正解ラベルが付与された学習データを用いた機械学習により生成する学習部と、予測モデルを用いて与えられた候補データにおける前記予測事項を予測する予測部と、候補データに対して予測された予測事項に基づき、候補データに付与する正解ラベルの候補である疑似ラベルを候補データに付与し、候補データに対する正解ラベルとして疑似ラベルが妥当か否かを作業者が逐一決定し、疑似ラベルが正解ラベルとして妥当と決定された候補データとその疑似ラベルとを、学習データに登録するラベル処理部と、予測モデルを用いて予測事項を予測した結果が所定の条件を満たすまで、学習部、予測部、およびラベル処理部に処理を繰り返させる学習管理部を有した構成となっている。

特開２０１７－２２４１８４号公報特開２０２１－０８９４９１号公報

しかし、上記従来のラベル付け作業処理技術には、改善すべき問題がある。
特許文献１の技術によれば、特徴量が同一の画像については、機械学習制御部が同一の画像の教師データフィールドに同一のデータを記録するので、特徴量が同一の画像は一度付与した正解データが候補として再利用でき、ユーザによるラベル付け作業回数を低減することができ、人手で行う作業が省力化されている。
しかし、特許文献１の技術では常に人手で確認しつつ正解ラベルを付与してゆく必要があり、認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりであれば、機械的に有力な候補が作業者に提示され、それから選択するだけで良く正解ラベル付けが省力化されるが、実際には認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりとは限らない。つまり、この特許文献１の技術で大きく省力化できるものは認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりが用意された場合に限られてしまう。この特許文献１の技術を用いて作成されたＡＩモデルは適用範囲、適用条件が相当狭いものとなってしまう。また、人手で一枚一枚の画像を確認して正解ラベルを付与しなければならない点は変わらない。

特許文献２の技術は、疑似ラベルという概念を用いて、入力された画像データに対して正解ラベルを付与する前に疑似ラベルを機械的に試行付与して自動処理を進める点において、特許文献１の技術より進歩していることは評価できる。
しかし、予測部を用いるとされているおり、この予測部が予測モデルを必要とすると考えられ、精度良い予測部をあらかじめ用意することは容易ではない。人手によって疑似ラベルが正解ラベルとして妥当か否かの二者択一の判定を経てラベル付け作業を進めるので、人手が大きく必要である点は変わらない。
また、機械学習を行う学習部と予測モデルを用いた予測部が相互に機能しあうためには、認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりであればある程度期待できるが、実際には認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりとは限らない。つまり、この特許文献２の技術で大きく省力化できるものは、やはり認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりが用意された場合に限られてしまう。この特許文献２の技術を用いて作成されたＡＩモデルは適用範囲、適用条件が相当狭いものとなってしまう。

例えば、道路を通行する車両の撮影環境や撮影条件は、照明条件と気象条件で影響を受け、可視画像では特に照明条件で大きく影響を受けるものとなり、晴れの昼間の可視画像や、車両メーカーから提供される外観の静止画像だけを用いた機械学習では明らかに不十分であり、そのような機械学習のみしか行っていないＡＩモデルでは実運用上では適用できない。つまり、晴天、曇天、雨天、夜間など多様な条件でも学習する必要がある。
上記した従来技術の特許文献１，２の技術による機械学習を適用すると、晴天、曇天、雨天、夜間などの条件ごとに学習が必要となり、条件の数だけ掛け算的に学習数を増やさざるを得ない。

同様に、例えば、人体の患部であれば、撮影画像が使用する撮像機械により撮影条件が大きく影響を受けるものとなり、患部をカメラで撮影した可視画像、患部に超音波を当ててその反射波を画像化した超音波画像、患部にＸ線を当ててその透過波を撮影して画像化したＸ線画像やＣＴ画像、患部に核磁気共鳴を起こし、その放射波を撮影して画像化したＭＲＩ画像など、多様であり、ある画像の機械学習のみしか行っていないＡＩモデルでは適用範囲が限定的である。
上記した従来技術の特許文献１，２の技術による機械学習を適用すると、可視画像、超音波画像、Ｘ線画像、ＣＴ画像、ＭＲＩ画像などの条件ごとに学習が必要となり、条件の数だけ掛け算的に学習数を増やさざるを得ない。

上記問題を解決するため、本発明は、モダリティに注目し、複数の撮影条件下におけるマルチモーダル画像を学習に用いて、認識対象物の特徴量の変化が大きい第１のモダリティと、認識対象物の特徴量の変化が小さい第２のモダリティを利用してマルチモーダル画像を用いた機械学習を行うことにより認識対象物の画像認識精度を向上する学習モデルを構築するシステム、方法、プログラムを提供するものである。

上記目的を達成するため、本発明のマルチモーダル画像を用いた画像認識学習システムは、複数の撮影条件下における認識対象物のマルチモーダル画像データを入力するマルチモーダル画像データ入力部と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第１のモダリティで撮影された画像データおよび前記第２のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部と、
前記第１のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第１のモダリティ下の正解学習処理部と、
前記第２のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記正解学習処理部による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第２のモダリティ下の疑似学習処理部と、
前記疑似学習処理部の前記第２のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第１のモダリティ下の正解学習結果を拡張する拡張学習処理部を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習システムである。

上記構成により、本発明は、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、マルチモーダル画像空間上での第１のモダリティ下での「正解学習」と、その正解学習から特徴量の似通った群を集め、第２のモダリティ下でのその正解学習群に似通った特徴の類似群に疑似ラベルをつける「疑似学習」と、その疑似学習の結果を再度第１のモダリティ下でまとめる「拡張学習」を行うことにより、初期の第１のモダリティ下での「正解学習」では正解ラベルの付いていない画像データにも第２のモダリティ空間上での類似群をまとめる「疑似学習」ができ、「正解学習」を拡張して「拡張学習」ができ、精度良いＡＩモデルを構築することができ、認識対象物の画像認識精度を向上することができる。

上記構成において、前記正解学習処理部による前記第１のモダリティ下の前記正解学習処理と、前記疑似学習処理部による前記第２のモダリティ下の疑似学習処理と、前記拡張学習処理部による前記拡張学習処理を再帰的に繰り返して前記学習モデルを構築することが好ましい。
上記構成により、マルチモーダル画像空間上での第１のモダリティ下の「正解学習」→第１のモダリティ下の「正解学習」から群を形成 →第２のモダリティ下での類似群をまとめる「疑似学習」→第１のモダリティ下での「正解学習」を拡張した「拡張学習」の流れを増やしてゆくことにより、精度良いＡＩモデルを構築することができる。

複数のモダリティは相互補完的な情報を有するケースがあり、複数の撮影条件下における認識対象物のマルチモーダル画像を用いれば、一方のモダリティでは撮影条件の変化によるテクスチャの変化が大きく特徴量の変化も大きい場合、他方のモダリティでは撮影条件の変化によるテクスチャの変化が小さく特徴量の変化も小さい場合は、後者のモダリティで学習させた結果を補完的に利用することにより前者のモダリティにおける疑似ラベル付けが可能となる。

具体的な適用対象としては、例えば、認識対象物を走行車両とし、第１のモダリティが照明条件であり、第２のモダリティが気象条件であり、マルチモーダル画像が、可視光画像と赤外線画像のセットとする。
可視光画像は照明条件の変化でテクスチャの変化が大きく特徴量の変化も大きいが、天候条件の変化でテクスチャの変化が小さく特徴量の変化も小さい。逆に、赤外線画像は照明条件の変化でテクスチャの変化が小さく特徴量の変化も小さいが、天候条件の変化でテクスチャの変化が大きく特徴量の変化も大きい。このように相互補完の関係性が利用でき、正解学習をもとに疑似学習が効率的に実行でき、疑似学習をもとに拡張学習ができる。

その他に、具体的な適用対象としては、例えば、認識対象物を生物の患部とし、第１のモダリティが、可視光吸収条件、超音波反射条件、Ｘ線吸収条件、またはＭＲＩ反応条件のいずれかであり、第２のモダリティがその第１のモダリティとは異なる残りの条件のいずれかとする例がある。患部の特性により可視光吸収条件、超音波反射条件、Ｘ線吸収条件、またはＭＲＩ反応条件が異なり、第１のモダリティと第２のモダリティをうまく選択することにより効率的な機械学習を行うことができる。

さらに応用として、マルチモーダル画像の複数の撮影条件が３以上あり、第１のモダリティと第２のモダリティの２つに加え、第３のモダリティ、第４のモダリティなど多次元化することができ、マルチモーダル画像データがそれら多次元のモダリティ下での撮影画像データもセットとして備えたものとすることもできる。この場合、マルチモーダル空間投影処理部のマルチモーダル画像空間管理機能が、３つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、正解学習処理部と疑似学習処理部と拡張学習処理部が、第１のモダリティと第２のモダリティの２つに加え、他のモダリティも取り扱うものとして、多次元化した処理を実行する。

次に、応用としては、画像中の認識対象物の認識を時系列に行って認識対象物の追跡処理も実行できる。例えば、認識対象物を走行車両とする場合は、カメラで撮影した可視光画像および赤外線カメラで撮影した赤外線画像の撮影箇所が複数個所あれば、それぞれの撮影箇所に応じて学習モデルが構築されておれば、追跡システムの構築も可能である。つまり、それぞれの撮影箇所における可視光画像または赤外線画像中から検知した走行車両画像をもとに走行車両を追跡してゆく車両追跡部を備えれば良い。

本発明のマルチモーダル画像を用いた画像認識学習方法は、
複数の撮影条件下における認識対象物のマルチモーダル画像を入力するマルチモーダル画像入力処理と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第１のモダリティで撮影された画像データおよび前記第２のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理と、
前記第１のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第１のモダリティ下の正解学習処理と、
前記第２のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記正解学習処理による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第２のモダリティ下の疑似学習処理と、
前記疑似学習処理の前記第２のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第１のモダリティ下の正解学習結果を拡張する拡張学習処理を備えたものである。

なお、上記処理ステップをコンピュータプログラムとして記述し、コンピュータで読み取り可能な保存媒体に保存して提供することも可能である。

実施例１にかかる画像認識学習システム１００の基本構成例を簡単に説明した図である。マルチモーダル画像空間投影処理部１２０の「マルチモーダル画像空間管理機能」のマルチモーダル画像空間の概念と、「投影処理機能」により認識対象物のマルチモーダル画像がプロットされる概念を簡単に示している図である。疑似学習処理部１４０による疑似学習の概念を簡単に示した図である。拡張学習処理部１５０による拡張学習による拡張された認識対象群をもとに拡張学習モデルが形成される概念を簡単に示す図である。マルチモーダル空間投影処理部１２０のキャリブレーション機能１２３によるキャリブレーション処理の実例について簡単に示す図である。正解学習モデルＤＡの構築例を示した図である。疑似学習モデルＤＢの構築例を示す図である。拡張学習モデルＤＡ（＋）の構築例を示す図である。昼間のテスト画像や夜間のテスト画像など幾つかの代表的パターンのものを入力し、正解学習モデルＤＡを用いて認識対象物をＡＩ検出させた結果を示す図である。同じテスト画像を用いて、拡張学習モデルＤＡ（＋）により認識対象物をＡＩ検出させた結果を示す図である。車両追跡システム２００を簡単に示す図である。カメラ装置２２０から得られた或るカメラ撮影画像において検出した車両ごとに認識した結果を示す図である。

以下、図面を参照しつつ、本発明の画像認識学習システムの実施例を説明する。ただし、本発明の範囲は以下の実施例に示した具体的な用途、形状、個数などには限定されないことは言うまでもない。

実施例１として、本発明のマルチモーダル画像を用いた画像認識学習システムの基本構成例を示す。
図１は、実施例１にかかる画像認識学習システム１００の基本構成例を簡単に説明した図である。
図１に示すように、画像認識学習システム１００は、マルチモーダル画像データ入力部１１０、マルチモーダル画像空間投影処理部１２０、正解学習処理部１３０、疑似学習処理部１４０、拡張学習処理部１５０、学習モデル格納部１６０を備えた構成となっている。
専用システムとして、上記した構成要素が、マイクロプログラムが組み込まれたハードウェアで提供されても良いし、また、専用システムではなく汎用のコンピュータ資源として、ＣＰＵ、ＧＰＵ、メモリ、記憶装置、プログラムなどを備え、上記した構成要素が、ＣＰＵ、ＧＰＵ、メモリ、記憶装置、プログラムの連動により構成されるものでも良い。

マルチモーダル画像データとは、複数の撮影条件下における認識対象物の画像データである。例えば、昼間晴天、昼間曇天、昼間雨天など異なる気象条件下にてカメラで撮影した「可視光画像」、夜間晴天で照明下、夜間雨天で照明下など赤外線カメラにて撮影した「赤外線画像」がある。同じ認識対象物についてこれら複数の撮影条件下における画像セットがマルチモーダル画像データとなる。
なお、病院やクリニック内で撮影された患部の「可視光画像」、「超音波画像」、「Ｘ線画像」、「ＭＲＩ画像」がある。同じ認識対象物（患部）についてこれら複数の撮影条件下における画像セットがマルチモーダル画像データとなる。

次に、以下、各構成要素を説明する。
マルチモーダル画像データ入力部１１０は、認識対象物のマルチモーダル画像データを入力する部分である。
ここでは、一例として認識対象物が走行車両の例とする。マルチモーダル画像データは昼間晴天、昼間曇天、昼間雨天など異なる気象条件下にてカメラで撮影した「可視光画像」、夜間晴天で照明下、夜間雨天で照明下など赤外線カメラにて撮影した「赤外線画像」の画像セットとする。

マルチモーダル画像空間投影処理部１２０は、マルチモーダル画像空間を管理する「マルチモーダル画像空間管理機能」１２１を備えている。さらに、マルチモーダル画像空間投影処理部１２０は、マルチモーダル画像データから第１のモダリティで撮影された画像データおよび第２のモダリティで撮影された画像データをそれぞれマルチモーダル画像空間へ投影する「投影処理機能」１２２も備えている。さらに、異なる撮影環境下で異なる撮像装置で撮影されたマルチモーダル画像データをマルチモーダル画像空間で統合的に投影するために「キャリブレーション機能」１２３も備えている。

ここで、マルチモーダル画像空間とは、複数の条件の軸と、特徴量の軸で張られた空間である。つまり、或る認識対象物のマルチモーダル画像のうちの第１のモダリティ画像は、複数の撮影条件下のある条件で撮影された画像であり、それらの撮影条件を満たすものとして条件の軸においてプロットされる。
また、撮影画像は写り具合に応じて特徴量を持っている。例えばフーリエ変換やラフィン変換した数値が特徴量として計算され、特徴量の軸においてもプロットされる。
つまり、マルチモーダル画像データは、マルチモーダル画像空間投影処理部１２０が「マルチモーダル画像空間管理機能」１２１により管理しているマルチモーダル画像空間、つまり、複数の条件の軸と、特徴量の軸で張られた空間の対応点に「投影処理機能」によりマルチモーダル画像データ入力部１１０から入力されたマルチモーダル画像データをプロットする。

ここで、マルチモーダル画像空間投影処理部１２０が異なる撮影条件で異なる撮像装置で撮影された各モダリティの画像セットであるため、各モダリティの画像を統合的に扱うための機械的な撮影条件の差異（撮影角度の違い、撮影距離の違いなど）の調整機能、つまり、キャリブレーション機能１２３が必要である。
キャリブレーション機能１２３による各モダリティの画像に混入する機械的な撮影条件の差異を調整しておかないと、同じ認識対象物でありながら、或るモダリティ下の撮影画像と、別のモダリティ下の撮影画像との間で機械的な差異が混入してしまう。例えば、可視光カメラである撮影軸である撮影距離で撮影条件が設定されて撮影した可視光画像中での認識対象物のエッジ形状と、赤外線カメラである撮影軸である撮影距離で撮影条件が設定されて撮影した赤外線画像中での認識対象物のエッジ形状とは、撮影条件が物理的には同じではないため、かならず機械的な誤差が生じてしまう。たとえ可視光カメラと赤外線カメラを所定位置に並べて撮影しても、道路に対する撮影軸が両者間で同一ではないため、かならず機械的な誤差が混入する。その機械的誤差を除去、つまりキャリブレーションしておけば認識精度が向上する。

キャリブレーション機能１２３は、以下の手順でキャリブレーションを実行する。例えば、モダリティごとに同じ背景を撮影した画像を用意する。例えば、照明条件が昼間の可視光画像（ＲＧＢ画像）の背景画像と、夜間の赤外線画像（ＩＲ画像）の背景画像を用意する。両者をスーパーインポーズすると背景画像が完全には重なり合わずに少しずれる。そのずれは撮影軸の偏移に由来している。そこで、そのずれがゼロになるように画像全体を補整すれば良い。例えばホモグラフィ変換を利用することができる。両者の背景画像が正確に対応するようにホモグラフィ変換行列［Ｈ］を求める。このホモグラフィ変換行列［Ｈ］を用いて画像変換を行うことにより可視光画像と赤外線画像間のキャリブレーションができる。
このキャリブレーションの具体例は後述する。

続いて、マルチモーダル画像空間投影処理部１２０の「マルチモーダル画像空間管理機能」１２１により管理されているマルチモーダル画像空間の概念と、「投影処理機能」１２２により認識対象物のマルチモーダル画像がプロットされる概念を説明する。
図２は、マルチモーダル画像空間投影処理部１２０の「マルチモーダル画像空間管理機能」１２１により管理されているマルチモーダル画像空間の概念と、「投影処理機能」１２２により認識対象物のマルチモーダル画像がプロットされる概念を簡単に示している図である。
図２の例では、撮影条件１の第１の条件軸と、撮影条件２の第２の条件軸と、画像データごとに計算された特徴量の特徴量軸の３つの軸により張られた空間が概念的に図示されている。
図２（ｂ）に示したように、マルチモーダル画像空間投影処理部１２０は、この複数の条件の軸と、特徴量の軸で張られたマルチモーダル画像空間を管理し、投影処理機能により、与えられた当該認識対象物のマルチモーダル画像のうちの第１のモダリティ下においてマルチモーダル画像空間にプロットする処理を実行する。

ここに、図２の例では、図２（ｂ）において、プロットされたマルチモーダル画像が×印で図示されている。なお、初期のプロットではこのように一群のものばかりのプロットではなく、プロットが散らばっていると考えられるが、ここでは説明の便宜上、図２（ｂ）のプロットでは×印で図示されたマルチモーダル画像が似通った一群を形成しているものとする。

以下、正解学習処理部１３０、疑似学習処理部１４０、拡張学習処理部１５０について順を追って説明する。
まず、正解学習処理部１３０は、マルチモーダル画像空間投影処理部１２０によってマルチモーダル画像空間に投影された結果を受け、マルチモーダル画像データの第１のモダリティにおける認識対象物の画像データを、正解ラベル付けを行って学習させるものである。この初期学習は作業者が確認しながら行うことが好ましい。
この正解学習処理部１３０の学習結果を利用すると以下のことが可能となる。例えば、複数の認識対象物のマルチモーダル画像の第１のモダリティ下のプロット結果から、似通ってまとまっている複数の認識対象物を第１のモダリティ下の１つの群として扱うことが可能となる。
つまり、正解学習処理部１３０とマルチモーダル画像空間投影処理部１２０により、正解学習をさせ、第１のモダリティ下で似通っている複数の認識対象物の一群の画像データをもとに「正解学習モデル」を形成することが可能となる。
図２（ｃ）では、この一群としてのまとまりを概念的に楕円で囲んでいる。ここに、正解学習処理部１３０により第１のモダリティ下で似通っている複数の一群の認識対象物の画像データをもとに正解学習させ、正解学習モデルＤＡを構築することができる。作成した正解学習モデルＤＡを一旦学習モデル格納部１６０に保持させる。

この時点での学習結果では次のことが言える。この正解学習処理部１３０による正解学習の結果、正解学習モデルＤＡが得られるが、この正解学習モデルＤＡは、学習に供したマルチモーダル画像と同じ条件で撮影された新規入力画像に対しては高い精度で認識対象物を検出することができる学習モデルであるが、この第１のモダリティは条件１（例えば照明条件）の変化による特徴量の変化が大きいため、学習に供したマルチモーダル画像データの撮影条件（昼間撮影）とは異なる撮影条件（夜間撮影）で撮影された新規入力画像に対しては認識対象物の検出精度が低下する学習モデルとなっている。

次に、疑似学習処理部１４０は、マルチモーダル画像データ入力部１１０から入力されたマルチモーダル画像データから、マルチモーダル画像空間投影処理部１２０によるマルチモーダル画像空間への投影結果を受け、第２のモダリティ下での疑似学習を行う。つまり、第１のモダリティ下での正解学習処理部１３０による学習結果で得た一群の認識対象物群の画像データと、第２のモダリティ下で似通った特徴量を持つ複数の認識対象物の一群の画像データをもとに疑似ラベル付けを行って疑似学習させ、「疑似正解学習モデル」を形成する。

図３は、疑似学習処理部１４０による疑似学習の概念を簡単に示した図である。
まず、図３（ａ）は、図２（ｃ）で正解学習処理部１３０により作成された正解学習モデルに反映されている認識対象群の画像データの投影結果が示されているが、ここで、図３（ｂ）に示すように、第２の条件に注目して、第２のモダリティ下で似通った特徴量を持つ一群の認識対象群の画像データを群としてまとめる。
この結果、まだ疑似扱いではあるものの、第２のモダリティ下で似通った特徴量を持つ認識対象群が得られ、それをもとに疑似学習モデルＤＢを構築する。作成した疑似学習モデルＤＢを一旦学習モデル格納部１６０に保持させる。

上記の疑似学習処理は以下のように記述できる。まず、正解学習モデルＤＡに第１のモダリティ（Ａ）の画像Ｘｉを入力して検出座標ｂｉを得る（数１）。

（ここでｉはデータのインデックス、ｌはクラスレベルを表している。）
次に、マルチモーダル画像空間投影処理部１２０により、検出座標ｂを対応する第２モダリティ（Ｂ）のマルチモーダル画像空間に投影する（数２）。

（ここでｉはデータのインデックス、Ｈはキャリブレーションのホモグラフィ変換行列、^は同次座標を表している。）
このようにして得られたｂ^ｉＢと画像の組からなるデータを学習に用いることで、第２のモダリティ（Ｂ）における疑似学習モデルＤＢを作成する。

次に、拡張学習処理部１５０は、疑似学習処理部１４０の第２のモダリティ下の疑似学習結果の群を、マルチモーダル空間投影処理部１２０によりマルチモーダル画像空間に再投影し、当該投影結果をもとにして第１のモダリティ下の正解学習結果を拡張するものである。
ここでは、拡張された正解学習結果を拡張学習結果と呼び、拡張学習処理部１５０は、それらのマルチモーダル画像空間での第１のモダリティ下で似通った特徴量を持つ一群の認識対象群を拡張し、それら画像データをもとに拡張学習モデルを構築する。作成した拡張学習モデルを学習モデル格納部１６０に保持させる。

図４は、拡張学習処理部１５０による拡張学習による拡張された認識対象群をもとに拡張学習モデルが形成される概念を簡単に示す図である。
まず、図４（ａ）は、図３（ｂ）で疑似学習処理部１４０により作成された疑似学習モデルに反映されている一群の認識対象物群（疑似認識対象群）の投影結果が示されているが、ここで、図４（ｂ）に示すように、第１の条件に注目して、第１のモダリティ下で似通った特徴量を持つものであるかどうかを確認し、認識対象群を拡張して拡張認識対象群をまとめる。
この結果、疑似扱いであった第２のモダリティ下で似通った特徴量を持つ「疑似認識対象群」が、第１のモダリティ下でも似通った特徴量を持つものとして拡張された拡張認識対象群としてオーソライズされ、それら画像データをもとに拡張学習モデルが構築される。

上記の拡張学習処理は以下のように記述できる。前提として第２のモダリティ（Ｂ）の画像データは、条件１が変化してもテクスチャがあまり変化しないという特徴があるということであったので、疑似学習モデルＤＢは条件１の領域の画像データに対しても画像検出を行うことができる。そこで、疑似学習モデルＤＢに、疑似学習においてラベル付けした撮影条件（夜間赤外線撮影）とは異なる条件１（可視光撮影）の撮影条件で撮影した第２のモダリティ（Ｂ）の画像ＸｉＢを入力して検出座標ｂ’ｉＢを得る（数３）。

（ここでｉはデータのインデックス、ｌはクラスレベルを表している。）

次に、得られた検出座標ｂ’ｉＢを、マルチモーダル画像空間投影処理部１２０によって、逆ホモグラフィ行列［Ｈ－１］を用いて対応するモダリティＡの画像ｂ^primeｉＡに投影することにより、正解学習モデルＤＡのラベル付きデータには含まれない条件１の領域のモダリティＡの画像に対して拡張することができる（数４）。

（ここでｉはデータのインデックス、Ｈはキャリブレーションのホモグラフィ変換行列、ハット^は同次座標を表している。）
このようにして得られたｂ^ｉＡを正解学習モデルＤＡの画像データの学習結果に用いることで、第１のモダリティ（Ａ）における拡張正解学習モデルＤＡ（＋）を構築する。

なお、上記流れは、正解学習処理部１３０による第１のモダリティ下のマルチモーダル画像データを用いた「正解学習群」の形成 → 疑似学習処理部１４０による第２のモダリティ下の「疑似学習群」の形成 → 拡張学習処理部１５０による第１のモダリティ下の「拡張学習群」の形成という一連の処理を、多数のマルチモーダル画像データを用いて、多数回再帰的に繰り返していけば、学習が進み、充実した学習モデルを早期に構築できる。

なお、上記の例では、第１の条件軸と第２の条件軸という第１のモダリティと第２のモダリティに注目したマルチモーダル画像データのプロットによる学習例であったが、その考えを多次元的に拡張することができる。つまり、複数の撮影条件が３以上あり、第１のモダリティと第２のモダリティの２つに加え、マルチモーダル画像データが他のモダリティ下での撮影画像データもセットとして備えたものであれば多次元的に拡張できる。
つまり、マルチモーダル空間投影処理部１２０のマルチモーダル画像空間管理機能１２１が、３つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、投影処理機能１２２がマルチモーダル画像データをその３つ以上の条件軸と画像の特徴量の特徴量軸を備えたマルチモーダル画像空間へプロットし、正解学習処理部１３０と疑似学習処理部１４０と拡張学習処理部１５０が、投影結果をもとに「正解学習」「疑似学習」「拡張学習」を行ない、「正解学習モデルＤＡ」「疑似学習モデルＤＢ」「拡張学習モデルＤＡ（＋）」の作成を行うことができる。

以上が本発明のマルチモーダル画像を用いた画像認識学習システム１００の基本構成における各構成要素の説明である。
以下、実際のマルチモーダル画像を用いて、本発明の画像認識学習システム１００の処理の実例を示す。
以下の実例において、認識対象物は走行車両とした。第１のモダリティが照明条件であり、第２のモダリティが気象条件とした。入力されるマルチモーダル画像としては可視光カメラによる可視光画像と赤外線カメラによる赤外線画像のセットとした。

［ステップ１：キャリブレーション］
図５は、マルチモーダル空間投影処理部１２０のキャリブレーション機能１２３によるキャリブレーション処理の実例について簡単に示す図である。
図５（ａ）はある撮影箇所に設置した可視光カメラで撮影した可視光画像である。図５（ｂ）は同じ撮影箇所に設置した赤外線カメラで撮影した赤外線画像である。いずれも夜間晴天の画像が例となっている。
図５（ａ）の可視光画像、図５（ｂ）の赤外線画像ともに、画像中に複数のドットが打たれているが、それらドットは道路上の同一箇所を示したものとなっている。つまり、図５（ａ）の可視光画像中のドットで表示されている箇所と同一箇所が図５（ｂ）の赤外線画像中でどの位置に表示されているかが対応付けられる。両者をスーパーインポーズするとドットが完全には重なり合わずに少しずれている。そのずれは撮影軸の偏移に由来している。そこで、そのずれがゼロになるように画像全体を補整する。ここではホモグラフィ変換を利用する。この図５（ａ）と図５（ｂ）のドットの対応が正確に一致するようにホモグラフィ変換行列を求める。このホモグラフィ変換行列［Ｈ］を用いて画像変換を行うことにより可視光画像と赤外線画像間のキャリブレーションができる。つまり、「マルチモーダル画像空間管理機能」１２１が管理するマルチモーダル画像空間における各モダリティでの撮影画像間のキャリブレーションが完了する。

［ステップ２：正解学習モデルＤＡの構築］
マルチモーダル画像データ入力部１１０からマルチモーダル画像データを入力する。入力されたマルチモーダル画像データ数は１,０００個とする。入力画像データのうち第１のモダリティ（Ａ）の画像データを「投影処理機能」１２２によりマルチモーダル画像空間にプロットする。
図６は正解学習モデルＤＡの構築例を示した図である。図６では第１のモダリティ（Ａ）の画像データ例は１例のみであるが示されている。照明条件が昼間晴天で可視光画像である。
今、第１のモダリティ（Ａ）の画像データ数１,０００個、写り込んだ車両数１８７７台であり、後部エッジをラベルとして手作業で１８７７個のラベル付与を行った。
正解学習モデルＤＡを構築した。

［ステップ３：疑似学習モデルＤＢの構築］
次に、マルチモーダル画像データ入力部１１０から入力されたマルチモーダル画像データ１,０００個のうち、第２のモダリティ（Ｂ）の画像データを「投影処理機能」１２２によりマルチモーダル画像空間にプロットする。
図７は、疑似学習モデルＤＢの構築例を示す図である。図７には１例のみであるが第２のモダリティ（Ｂ）の画像データ例が示されている。照明条件が昼間晴天で赤外線画像である。
今、第２のモダリティ（Ｂ）の画像データ数１,０００個、写り込んだ車両数１８９３台であり、後部エッジをラベルとして手作業で１８９３個の疑似ラベル付与を行った。
疑似学習モデルＤＢを構築した。

［ステップ４：拡張学習モデルＤＡ（＋）の構築］
次に、ステップ３で供された第２のモダリティ（Ｂ）の画像データを「投影処理機能」１２２により再度マルチモーダル画像空間にプロットし、第１のモダリティ（Ａ）下で学習結果を拡張する。
図８は、拡張学習モデルＤＡ（＋）の構築例を示す図である。図８には１例のみであるが画像データ例が示されている。照明条件が夜間晴天で可視光画像である。
今、ステップ３で用いた第２のモダリティ（Ｂ）の写り込んだ１８９３個の疑似ラベル付の画像データをもとに拡張学習を行った。
拡張学習モデルＤＡ（＋）を構築した。

［評価］
以下、正解学習モデルＤＡと、拡張学習モデルＤＡ（＋）の認識対象物の検出精度を比較して評価を行った。
なお、認識対象物のエッジ検出アルゴリズムには、ＹＯＬＯｖ５を利用した。学習率は１ｅ－２、ｗｅｉｇｈｔｄｅｃａｙを５ｅ－４、エポックを１００に設定し、ＳＧＤＯｐｔｉｍｉｚｅｒでモデルを学習させた。モデルのパラメータはＭＳＣＯＣＯで事前学習したｙｏｌｏｖ５Xで初期化した条件で行った。

図９は、テスト画像として、昼間のテスト画像（可視光撮影画像）や、夜間のテスト画像（可視光撮影画像）など幾つかの代表的パターンのものを入力して、正解学習モデルＤＡを用いて認識対象物をＡＩ検出させた結果を示す図である。
図９に示すように、正解学習モデルＤＡでは、夜間のテスト画像では１台も正確な検出ができておらず、これは正解学習モデルＤＡの学習データとは照明条件が大きく異なること（昼間と夜間）が理由であると考えられる。一方、昼間のテスト画像では夜間のテスト画像に比べて比較的検出できていることが分かる。

図１０は、同じテスト画像を用いて、拡張学習モデルＤＡ（＋）により認識対象物をＡＩ検出させた結果を示す図である。
図１０に示すように、拡張学習モデルＤＡ（＋）では、夜間のテスト画像でも殆どの車両が認識対象物として検出できていることが確認できた。また、昼間のテスト画像においても、図９の結果と比べても同等以上の精度で車両が認識対象物として検出できていることが確認できる。
結果として、本発明で生成した疑似ラベル付きデータを追加して疑似学習を経て拡張学習を行うことで、大幅な検出精度の向上を達成できた。

次に、テスト画像の数を増やして、定量的な分析を行った。
正解学習モデルＤＡを用いた場合は、結果としては、昼間撮影のテストデータに対する車両の認識対象物の検出精度は、０．３５８であり、夜間撮影のテストデータに対する車両の認識対象物の検出精度は、０．１０９であった。
一方、拡張学習モデルＤＡ（＋）を用いた場合は、結果としては、昼間撮影のテストデータに対する車両の認識対象物の検出精度は、０．６１２であり、夜間撮影のテストデータに対する車両の認識対象物の検出精度は、０．６６７であった。

この定量的な分析結果においては、拡張学習モデルＤＡ（＋）は、正解学習モデルＤＡよりも、夜間撮影のテストデータに対する車両の認識対象物の検出精度は大きく向上し（０．１０９→０．６６７）、昼間撮影のテストデータに対する車両の認識対象物の検出精度も十分向上している（０．３５８→０．６１２）ことが分かった。
以上、実施例１にかかる本発明のマルチモーダル画像を用いた画像認識学習システムは優れた学習モデルを構築できることが分かる。

実施例２として、認識対象物が移動する車両である場合などにおいて、追跡機能を持った車両追跡システムの例を示す。
図１１は、車両追跡システム２００を簡単に示す図である。ここでは、図１１に示すように道路近辺に設置される構造体２１０、可視光撮影カメラ２２１と赤外線撮影カメラ２２２を備えた撮影装置２２０、通過車両検知エリア２３０、車両３００が示されている。また、車両追跡部２４０が通信可能な状態で装備されている。
なお、車両３００は特に車種は問われない。また、道路には多様なものがあり得るが、図１では一例として片道２車線のものを図示した。

構造体２１０は、撮影装置２２０を取り付けるための構造物であり、道路付近に設置されている。図１の構成例では、構造体２１０はいわゆる道路横に立設された柱状の構造物であるが、道路を跨ぐように設けられた陸橋構造物などでも良い。
なお、交通速度取締システムなど他のシステムとの兼用であっても良く、また、夜間に道路を照らす照明機器などが併設されていても良い。

次に、通過車両検知エリア２３０は、道路を通過する車両を検出するため道路上に設置された検出エリアである。図１１の例では、通過車両検知エリア２３０に対応して撮影装置２２０の可視光撮影カメラ２２１と赤外線撮影カメラ２２２の撮影軸が調整されている。

車両追跡部２４０は、実施例１で示した画像認識学習システム１００を用いて、各々の撮影装置２２０の撮影箇所のマルチモーダル画像を基に学習して構築された拡張学習モデルＤＡ（＋）がすでに搭載されている。
車両追跡部２４０は、画像認識した認識対象物のエッジ形状を追跡してゆくが、追跡処理は、追跡アルゴリズムとしてテンプレートマッチングを利用した。テンプレートマッチングは、入力の探索画像と、追跡対象のテンプレート画像の類似度を計算し、最も類似度が高い領域を追跡結果とする手法である。比較手法には、（数５）で計算される照明変化にロバストなNormalized Cross Correlation(NCC) を使用する。テンプレートとして拡張学習モデルＤＡ（＋）で検出した車両の後部領域画像、検出したフレーム番号と検出順番を使用することができる。

ここで、Ｈはテンプレートの高さ、Ｗはテンプレートの幅、Ｔ（ｕ,ｖ）はテンプレート画像の座標（ｕ,ｖ）における画素値、Ｉ（ｘ,ｙ）は探索画像の座標（ｘ,ｙ）における画素値である。この（数５）は、例えばベクトルａ＝（ａ１, ａ２）、ベクトルｂ＝（ｂ１, ｂ２）としたときに，２つのベクトルがなす角の余弦を示す下記の（数６）と同じ形をしている。

つまり、正規化相互相関の値は、探索領域画像Ｔとテンプレート画像Ｉをそれぞれベクトルとみなした時に，２つのベクトルがなす角の余弦と解釈することが出来る。余弦の値はベクトルのなす角のみに依存し、ベクトルの大きさには依存しないため、照明条件の変化によるピクセル値の変化にロバストであると言える。

次に、車両追跡部２４０は、検出した車両について、車両ごとに認識し、時系列にその車両を追跡してゆく。
図１２は、カメラ装置２２０から得られた或るカメラ撮影画像において検出した車両ごとに認識した結果を示す図である。
この例では５台の車両が検出され、それぞれ３００Ａ、３００Ｂ、３００Ｃ、３００Ｄ、３００Ｅと車両ごとに認識されている。カメラ撮影画像が時系列に得られれば、車両追跡部２４０としてそれぞれの車両を追跡することができる。
車両追跡部２４０は、車両追跡の結果を交通制御センターのシステムなどにデータ送信する。

このように、実施例２にかかる車両追跡システム２００は、マルチモーダル画像を用いた画像認識学習システム１００で得た拡張学習モデルを装備して、道路に設置したカメラ装置２２０で撮影したカメラ撮影画像を解析し、映り込んでいる車両を認識しながら追跡することができる。

本発明のマルチモーダル画像を用いた画像認識学習システムは、入力画像における認識対象物を検出する学習モデルを構築するシステムに広く適用することができる。

１００画像認識学習システム
１１０マルチモーダル画像データ入力部
１２０マルチモーダル画像空間投影処理部
１３０正解学習処理部
１４０疑似学習処理部
１５０拡張学習処理部
２００車両追跡システム
２１０構造体
２２０撮影装置
２２１可視光撮影カメラ
２２２赤外線撮影カメラ
２３０通過車両検知エリア
２４０車両追跡部
３００車両

Claims

複数の撮影条件下における認識対象物のマルチモーダル画像データを用いて、前記認識対象物の特徴量の変化が大きい第１のモダリティと、前記認識対象物の特徴量の変化が小さい第２のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習システムであって、
前記第１のモダリティで撮影された画像データおよび前記第２のモダリティで撮影された前記マルチモーダル画像データを入力するマルチモーダル画像データ入力部と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、入力された前記マルチモーダル画像データを前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部と、
前記第１のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、正解ラベル付けを行って学習させる前記第１のモダリティ下の正解学習処理部と、
前記第２のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記正解学習処理部による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第２のモダリティ下の疑似学習処理部と、
前記疑似学習処理部の前記第２のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第１のモダリティ下の正解学習結果を拡張する拡張学習を行う拡張学習処理部を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習システム。
前記正解学習処理部による前記第１のモダリティ下の正解学習処理と、前記疑似学習処理部による前記第２のモダリティ下の疑似学習処理と、前記拡張学習処理部による拡張学習処理を再帰的に繰り返して拡張学習モデルを構築することを特徴とする請求項１に記載のマルチモーダル画像を用いた画像認識学習システム。
前記マルチモーダル画像の複数の前記撮影条件が３以上あり、前記第１のモダリティと前記第２のモダリティの２つに加え、前記マルチモーダル画像データが他のモダリティ下での撮影画像データもセットとして備えたものであり、
前記マルチモーダル空間投影処理部の前記マルチモーダル画像空間管理機能が、３つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、前記正解学習処理部と前記疑似学習処理部と前記拡張学習処理部が、前記第１のモダリティと前記第２のモダリティの２つに加え、前記他のモダリティも取り扱うことができることを特徴とする請求項１または２に記載のマルチモーダル画像を用いた画像認識学習システム。
前記認識対象物が走行車両であり、
前記第１のモダリティが照明条件であり、
前記第２のモダリティが気象条件であり、
前記マルチモーダル画像が、可視光画像と赤外線画像のセットであることを特徴とする請求項１または２に記載のマルチモーダル画像を用いた画像認識学習システム。
前記可視光画像を撮影するカメラ、および前記赤外線画像を撮影する赤外線カメラの設置箇所が走行路に沿って複数個所あり、それぞれの撮影箇所に応じて構築された学習モデルを備えた車両追跡部を備え、
それぞれの撮影箇所における前記可視光画像または前記赤外線画像中から検知した走行車両画像をもとに、前記車両追跡部により前記走行車両を追跡してゆくことを特徴とする請求項４に記載のマルチモーダル画像を用いた画像認識学習システム。
前記認識対象物が生物の患部であり、
前記第１のモダリティが、可視光吸収条件、超音波反射条件、Ｘ線吸収条件、またはＭＲＩ反応条件のいずれかであり、前記第２のモダリティが前記第１のモダリティとは異なる残りの条件のいずれかであり、
前記マルチモーダル画像が、可視光画像、超音波画像、Ｘ線画像、またはＭＲＩ画像のうち、前記第１のモダリティおよび前記第２のモダリティに相当する画像のセットであることを特徴とする請求項１から３のいずれかに記載のマルチモーダル画像を用いた画像認識学習システム。
複数の撮影条件下における認識対象物のマルチモーダル画像データを用いて、前記認識対象物の特徴量の変化が大きい第１のモダリティと、前記認識対象物の特徴量の変化が小さい第２のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習方法であって、
前記マルチモーダル画像データを入力するマルチモーダル画像データ入力処理と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第１のモダリティで撮影された画像データおよび前記第２のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理と、
前記第１のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第１のモダリティ下の正解学習処理と、
前記第２のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記正解学習処理による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第２のモダリティ下の疑似学習処理と、
前記疑似学習処理の前記第２のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第１のモダリティ下の正解学習結果を拡張する拡張学習処理を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習方法。
コンピュータで読み取り可能な保存媒体に保存されたコンピュータプログラムであって、前記コンピュータプログラムは、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、前記認識対象物の特徴量の変化が大きい第１のモダリティと、前記認識対象物の特徴量の変化が小さい第２のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習プログラムであって、前記画像認識学習プログラムは１つ以上のプロセッサーに以下の複数段階の処理ステップを実行させるための命令を含み、前記処理ステップは、マルチモーダル画像データを入力するマルチモーダル画像データ入力処理ステップと、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第１のモダリティで撮影された画像データおよび前記第２のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理ステップと、
前記第１のモダリティで撮影された画像データを前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第１のモダリティ下の正解学習処理ステップと、
前記第２のモダリティで撮影された画像データを前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に投影し、前記正解学習処理ステップによる前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第２のモダリティ下の疑似学習処理ステップと、
前記疑似学習処理ステップの前記第２のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第１のモダリティ下の正解学習結果を拡張する拡張学習処理ステップを備えたことを特徴とするマルチモーダル画像を用いた画像認識学習プログラム。