JP7812552B2 - 複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム - Google Patents
複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラムInfo
- Publication number
- JP7812552B2 JP7812552B2 JP2022016781A JP2022016781A JP7812552B2 JP 7812552 B2 JP7812552 B2 JP 7812552B2 JP 2022016781 A JP2022016781 A JP 2022016781A JP 2022016781 A JP2022016781 A JP 2022016781A JP 7812552 B2 JP7812552 B2 JP 7812552B2
- Authority
- JP
- Japan
- Prior art keywords
- multimodal
- learning
- modality
- image
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
例えば、認識対象物としては、道路を通行する車両、人体の患部などがある。
しかし、通常、画像データにあらかじめ正解ラベルが付いていることはない。そのため、機械学習に供する画像データに正解ラベルを付与することが必要となる。
特許文献1の技術によれば、特徴量が同一の画像については、機械学習制御部が同一の画像の教師データフィールドに同一のデータを記録するので、特徴量が同一の画像は一度付与した正解データが候補として再利用でき、ユーザによるラベル付け作業回数を低減することができ、人手で行う作業が省力化されている。
しかし、特許文献1の技術では常に人手で確認しつつ正解ラベルを付与してゆく必要があり、認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりであれば、機械的に有力な候補が作業者に提示され、それから選択するだけで良く正解ラベル付けが省力化されるが、実際には認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりとは限らない。つまり、この特許文献1の技術で大きく省力化できるものは認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりが用意された場合に限られてしまう。この特許文献1の技術を用いて作成されたAIモデルは適用範囲、適用条件が相当狭いものとなってしまう。また、人手で一枚一枚の画像を確認して正解ラベルを付与しなければならない点は変わらない。
しかし、予測部を用いるとされているおり、この予測部が予測モデルを必要とすると考えられ、精度良い予測部をあらかじめ用意することは容易ではない。人手によって疑似ラベルが正解ラベルとして妥当か否かの二者択一の判定を経てラベル付け作業を進めるので、人手が大きく必要である点は変わらない。
また、機械学習を行う学習部と予測モデルを用いた予測部が相互に機能しあうためには、認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりであればある程度期待できるが、実際には認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりとは限らない。つまり、この特許文献2の技術で大きく省力化できるものは、やはり認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりが用意された場合に限られてしまう。この特許文献2の技術を用いて作成されたAIモデルは適用範囲、適用条件が相当狭いものとなってしまう。
上記した従来技術の特許文献1,2の技術による機械学習を適用すると、晴天、曇天、雨天、夜間などの条件ごとに学習が必要となり、条件の数だけ掛け算的に学習数を増やさざるを得ない。
上記した従来技術の特許文献1,2の技術による機械学習を適用すると、可視画像、超音波画像、X線画像、CT画像、MRI画像などの条件ごとに学習が必要となり、条件の数だけ掛け算的に学習数を増やさざるを得ない。
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理部と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記正解学習処理部による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理部と、
前記疑似学習処理部の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理部を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習システムである。
上記構成により、マルチモーダル画像空間上での第1のモダリティ下の「正解学習」→第1のモダリティ下の「正解学習」から群を形成 →第2のモダリティ下での類似群をまとめる「疑似学習」→第1のモダリティ下での「正解学習」を拡張した「拡張学習」の流れを増やしてゆくことにより、精度良いAIモデルを構築することができる。
可視光画像は照明条件の変化でテクスチャの変化が大きく特徴量の変化も大きいが、天候条件の変化でテクスチャの変化が小さく特徴量の変化も小さい。逆に、赤外線画像は照明条件の変化でテクスチャの変化が小さく特徴量の変化も小さいが、天候条件の変化でテクスチャの変化が大きく特徴量の変化も大きい。このように相互補完の関係性が利用でき、正解学習をもとに疑似学習が効率的に実行でき、疑似学習をもとに拡張学習ができる。
複数の撮影条件下における認識対象物のマルチモーダル画像を入力するマルチモーダル画像入力処理と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記正解学習処理による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理と、
前記疑似学習処理の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理を備えたものである。
図1は、実施例1にかかる画像認識学習システム100の基本構成例を簡単に説明した図である。
図1に示すように、画像認識学習システム100は、マルチモーダル画像データ入力部110、マルチモーダル画像空間投影処理部120、正解学習処理部130、疑似学習処理部140、拡張学習処理部150、学習モデル格納部160を備えた構成となっている。
専用システムとして、上記した構成要素が、マイクロプログラムが組み込まれたハードウェアで提供されても良いし、また、専用システムではなく汎用のコンピュータ資源として、CPU、GPU、メモリ、記憶装置、プログラムなどを備え、上記した構成要素が、CPU、GPU、メモリ、記憶装置、プログラムの連動により構成されるものでも良い。
なお、病院やクリニック内で撮影された患部の「可視光画像」、「超音波画像」、「X線画像」、「MRI画像」がある。同じ認識対象物(患部)についてこれら複数の撮影条件下における画像セットがマルチモーダル画像データとなる。
マルチモーダル画像データ入力部110は、認識対象物のマルチモーダル画像データを入力する部分である。
ここでは、一例として認識対象物が走行車両の例とする。マルチモーダル画像データは昼間晴天、昼間曇天、昼間雨天など異なる気象条件下にてカメラで撮影した「可視光画像」、夜間晴天で照明下、夜間雨天で照明下など赤外線カメラにて撮影した「赤外線画像」の画像セットとする。
また、撮影画像は写り具合に応じて特徴量を持っている。例えばフーリエ変換やラフィン変換した数値が特徴量として計算され、特徴量の軸においてもプロットされる。
つまり、マルチモーダル画像データは、マルチモーダル画像空間投影処理部120が「マルチモーダル画像空間管理機能」121により管理しているマルチモーダル画像空間、つまり、複数の条件の軸と、特徴量の軸で張られた空間の対応点に「投影処理機能」によりマルチモーダル画像データ入力部110から入力されたマルチモーダル画像データをプロットする。
キャリブレーション機能123による各モダリティの画像に混入する機械的な撮影条件の差異を調整しておかないと、同じ認識対象物でありながら、或るモダリティ下の撮影画像と、別のモダリティ下の撮影画像との間で機械的な差異が混入してしまう。例えば、可視光カメラである撮影軸である撮影距離で撮影条件が設定されて撮影した可視光画像中での認識対象物のエッジ形状と、赤外線カメラである撮影軸である撮影距離で撮影条件が設定されて撮影した赤外線画像中での認識対象物のエッジ形状とは、撮影条件が物理的には同じではないため、かならず機械的な誤差が生じてしまう。たとえ可視光カメラと赤外線カメラを所定位置に並べて撮影しても、道路に対する撮影軸が両者間で同一ではないため、かならず機械的な誤差が混入する。その機械的誤差を除去、つまりキャリブレーションしておけば認識精度が向上する。
このキャリブレーションの具体例は後述する。
図2は、マルチモーダル画像空間投影処理部120の「マルチモーダル画像空間管理機能」121により管理されているマルチモーダル画像空間の概念と、「投影処理機能」122により認識対象物のマルチモーダル画像がプロットされる概念を簡単に示している図である。
図2の例では、撮影条件1の第1の条件軸と、撮影条件2の第2の条件軸と、画像データごとに計算された特徴量の特徴量軸の3つの軸により張られた空間が概念的に図示されている。
図2(b)に示したように、マルチモーダル画像空間投影処理部120は、この複数の条件の軸と、特徴量の軸で張られたマルチモーダル画像空間を管理し、投影処理機能により、与えられた当該認識対象物のマルチモーダル画像のうちの第1のモダリティ下においてマルチモーダル画像空間にプロットする処理を実行する。
まず、正解学習処理部130は、マルチモーダル画像空間投影処理部120によってマルチモーダル画像空間に投影された結果を受け、マルチモーダル画像データの第1のモダリティにおける認識対象物の画像データを、正解ラベル付けを行って学習させるものである。この初期学習は作業者が確認しながら行うことが好ましい。
この正解学習処理部130の学習結果を利用すると以下のことが可能となる。例えば、複数の認識対象物のマルチモーダル画像の第1のモダリティ下のプロット結果から、似通ってまとまっている複数の認識対象物を第1のモダリティ下の1つの群として扱うことが可能となる。
つまり、正解学習処理部130とマルチモーダル画像空間投影処理部120により、正解学習をさせ、第1のモダリティ下で似通っている複数の認識対象物の一群の画像データをもとに「正解学習モデル」を形成することが可能となる。
図2(c)では、この一群としてのまとまりを概念的に楕円で囲んでいる。ここに、正解学習処理部130により第1のモダリティ下で似通っている複数の一群の認識対象物の画像データをもとに正解学習させ、正解学習モデルDAを構築することができる。作成した正解学習モデルDAを一旦学習モデル格納部160に保持させる。
まず、図3(a)は、図2(c)で正解学習処理部130により作成された正解学習モデルに反映されている認識対象群の画像データの投影結果が示されているが、ここで、図3(b)に示すように、第2の条件に注目して、第2のモダリティ下で似通った特徴量を持つ一群の認識対象群の画像データを群としてまとめる。
この結果、まだ疑似扱いではあるものの、第2のモダリティ下で似通った特徴量を持つ認識対象群が得られ、それをもとに疑似学習モデルDBを構築する。作成した疑似学習モデルDBを一旦学習モデル格納部160に保持させる。
(ここでiはデータのインデックス、lはクラスレベルを表している。)
次に、マルチモーダル画像空間投影処理部120により、検出座標bを対応する第2モダリティ(B)のマルチモーダル画像空間に投影する(数2)。
(ここでiはデータのインデックス、Hはキャリブレーションのホモグラフィ変換行列、^は同次座標を表している。)
このようにして得られたb^iBと画像の組からなるデータを学習に用いることで、第2のモダリティ(B)における疑似学習モデルDBを作成する。
ここでは、拡張された正解学習結果を拡張学習結果と呼び、拡張学習処理部150は、それらのマルチモーダル画像空間での第1のモダリティ下で似通った特徴量を持つ一群の認識対象群を拡張し、それら画像データをもとに拡張学習モデルを構築する。作成した拡張学習モデルを学習モデル格納部160に保持させる。
まず、図4(a)は、図3(b)で疑似学習処理部140により作成された疑似学習モデルに反映されている一群の認識対象物群(疑似認識対象群)の投影結果が示されているが、ここで、図4(b)に示すように、第1の条件に注目して、第1のモダリティ下で似通った特徴量を持つものであるかどうかを確認し、認識対象群を拡張して拡張認識対象群をまとめる。
この結果、疑似扱いであった第2のモダリティ下で似通った特徴量を持つ「疑似認識対象群」が、第1のモダリティ下でも似通った特徴量を持つものとして拡張された拡張認識対象群としてオーソライズされ、それら画像データをもとに拡張学習モデルが構築される。
(ここでiはデータのインデックス、lはクラスレベルを表している。)
(ここでiはデータのインデックス、Hはキャリブレーションのホモグラフィ変換行列、ハット^は同次座標を表している。)
このようにして得られたb^iAを正解学習モデルDAの画像データの学習結果に用いることで、第1のモダリティ(A)における拡張正解学習モデルDA(+)を構築する。
つまり、マルチモーダル空間投影処理部120のマルチモーダル画像空間管理機能121が、3つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、投影処理機能122がマルチモーダル画像データをその3つ以上の条件軸と画像の特徴量の特徴量軸を備えたマルチモーダル画像空間へプロットし、正解学習処理部130と疑似学習処理部140と拡張学習処理部150が、投影結果をもとに「正解学習」「疑似学習」「拡張学習」を行ない、「正解学習モデルDA」「疑似学習モデルDB」「拡張学習モデルDA(+)」の作成を行うことができる。
以下、実際のマルチモーダル画像を用いて、本発明の画像認識学習システム100の処理の実例を示す。
以下の実例において、認識対象物は走行車両とした。第1のモダリティが照明条件であり、第2のモダリティが気象条件とした。入力されるマルチモーダル画像としては可視光カメラによる可視光画像と赤外線カメラによる赤外線画像のセットとした。
図5は、マルチモーダル空間投影処理部120のキャリブレーション機能123によるキャリブレーション処理の実例について簡単に示す図である。
図5(a)はある撮影箇所に設置した可視光カメラで撮影した可視光画像である。図5(b)は同じ撮影箇所に設置した赤外線カメラで撮影した赤外線画像である。いずれも夜間晴天の画像が例となっている。
図5(a)の可視光画像、図5(b)の赤外線画像ともに、画像中に複数のドットが打たれているが、それらドットは道路上の同一箇所を示したものとなっている。つまり、図5(a)の可視光画像中のドットで表示されている箇所と同一箇所が図5(b)の赤外線画像中でどの位置に表示されているかが対応付けられる。両者をスーパーインポーズするとドットが完全には重なり合わずに少しずれている。そのずれは撮影軸の偏移に由来している。そこで、そのずれがゼロになるように画像全体を補整する。ここではホモグラフィ変換を利用する。この図5(a)と図5(b)のドットの対応が正確に一致するようにホモグラフィ変換行列を求める。このホモグラフィ変換行列[H]を用いて画像変換を行うことにより可視光画像と赤外線画像間のキャリブレーションができる。つまり、「マルチモーダル画像空間管理機能」121が管理するマルチモーダル画像空間における各モダリティでの撮影画像間のキャリブレーションが完了する。
マルチモーダル画像データ入力部110からマルチモーダル画像データを入力する。入力されたマルチモーダル画像データ数は1,000個とする。入力画像データのうち第1のモダリティ(A)の画像データを「投影処理機能」122によりマルチモーダル画像空間にプロットする。
図6は正解学習モデルDAの構築例を示した図である。図6では第1のモダリティ(A)の画像データ例は1例のみであるが示されている。照明条件が昼間晴天で可視光画像である。
今、第1のモダリティ(A)の画像データ数1,000個、写り込んだ車両数1877台であり、後部エッジをラベルとして手作業で1877個のラベル付与を行った。
正解学習モデルDAを構築した。
次に、マルチモーダル画像データ入力部110から入力されたマルチモーダル画像データ1,000個のうち、第2のモダリティ(B)の画像データを「投影処理機能」122によりマルチモーダル画像空間にプロットする。
図7は、疑似学習モデルDBの構築例を示す図である。図7には1例のみであるが第2のモダリティ(B)の画像データ例が示されている。照明条件が昼間晴天で赤外線画像である。
今、第2のモダリティ(B)の画像データ数1,000個、写り込んだ車両数1893台であり、後部エッジをラベルとして手作業で1893個の疑似ラベル付与を行った。
疑似学習モデルDBを構築した。
次に、ステップ3で供された第2のモダリティ(B)の画像データを「投影処理機能」122により再度マルチモーダル画像空間にプロットし、第1のモダリティ(A)下で学習結果を拡張する。
図8は、拡張学習モデルDA(+)の構築例を示す図である。図8には1例のみであるが画像データ例が示されている。照明条件が夜間晴天で可視光画像である。
今、ステップ3で用いた第2のモダリティ(B)の写り込んだ1893個の疑似ラベル付の画像データをもとに拡張学習を行った。
拡張学習モデルDA(+)を構築した。
以下、正解学習モデルDAと、拡張学習モデルDA(+)の認識対象物の検出精度を比較して評価を行った。
なお、認識対象物のエッジ検出アルゴリズムには、YOLOv5を利用した。学習率は1e-2、weight decayを5e-4、エポックを100に設定し、SGD Optimizerでモデルを学習させた。モデルのパラメータはMS COCOで事前学習したyolov5Xで初期化した条件で行った。
図9に示すように、正解学習モデルDAでは、夜間のテスト画像では1台も正確な検出ができておらず、これは正解学習モデルDAの学習データとは照明条件が大きく異なること(昼間と夜間)が理由であると考えられる。一方、昼間のテスト画像では夜間のテスト画像に比べて比較的検出できていることが分かる。
図10に示すように、拡張学習モデルDA(+)では、夜間のテスト画像でも殆どの車両が認識対象物として検出できていることが確認できた。また、昼間のテスト画像においても、図9の結果と比べても同等以上の精度で車両が認識対象物として検出できていることが確認できる。
結果として、本発明で生成した疑似ラベル付きデータを追加して疑似学習を経て拡張学習を行うことで、大幅な検出精度の向上を達成できた。
正解学習モデルDAを用いた場合は、結果としては、昼間撮影のテストデータに対する車両の認識対象物の検出精度は、0.358であり、夜間撮影のテストデータに対する車両の認識対象物の検出精度は、0.109であった。
一方、拡張学習モデルDA(+)を用いた場合は、結果としては、昼間撮影のテストデータに対する車両の認識対象物の検出精度は、0.612であり、夜間撮影のテストデータに対する車両の認識対象物の検出精度は、0.667であった。
以上、実施例1にかかる本発明のマルチモーダル画像を用いた画像認識学習システムは優れた学習モデルを構築できることが分かる。
図11は、車両追跡システム200を簡単に示す図である。ここでは、図11に示すように道路近辺に設置される構造体210、可視光撮影カメラ221と赤外線撮影カメラ222を備えた撮影装置220、通過車両検知エリア230、車両300が示されている。また、車両追跡部240が通信可能な状態で装備されている。
なお、車両300は特に車種は問われない。また、道路には多様なものがあり得るが、図1では一例として片道2車線のものを図示した。
なお、交通速度取締システムなど他のシステムとの兼用であっても良く、また、夜間に道路を照らす照明機器などが併設されていても良い。
車両追跡部240は、画像認識した認識対象物のエッジ形状を追跡してゆくが、追跡処理は、追跡アルゴリズムとしてテンプレートマッチングを利用した。テンプレートマッチングは、入力の探索画像と、追跡対象のテンプレート画像の類似度を計算し、最も類似度が高い領域を追跡結果とする手法である。比較手法には、(数5)で計算される照明変化にロバストなNormalized Cross Correlation(NCC) を使用する。テンプレートとして拡張学習モデルDA(+)で検出した車両の後部領域画像、検出したフレーム番号と検出順番を使用することができる。
ここで、Hはテンプレートの高さ、Wはテンプレートの幅、T(u,v)はテンプレート画像の座標(u,v)における画素値、I(x,y)は探索画像の座標(x,y)における画素値である。この(数5)は、例えばベクトルa=(a1, a2)、ベクトルb=(b1, b2)としたときに,2 つのベクトルがなす角の余弦を示す下記の(数6)と同じ形をしている。
つまり、正規化相互相関の値は、探索領域画像Tとテンプレート画像Iをそれぞれベクトルとみなした時に,2つのベクトルがなす角の余弦と解釈することが出来る。余弦の値はベクトルのなす角のみに依存し、ベクトルの大きさには依存しないため、照明条件の変化によるピクセル値の変化にロバストであると言える。
図12は、カメラ装置220から得られた或るカメラ撮影画像において検出した車両ごとに認識した結果を示す図である。
この例では5台の車両が検出され、それぞれ300A、300B、300C、300D、300Eと車両ごとに認識されている。カメラ撮影画像が時系列に得られれば、車両追跡部240としてそれぞれの車両を追跡することができる。
車両追跡部240は、車両追跡の結果を交通制御センターのシステムなどにデータ送信する。
110 マルチモーダル画像データ入力部
120 マルチモーダル画像空間投影処理部
130 正解学習処理部
140 疑似学習処理部
150 拡張学習処理部
200 車両追跡システム
210 構造体
220 撮影装置
221 可視光撮影カメラ
222 赤外線撮影カメラ
230 通過車両検知エリア
240 車両追跡部
300 車両
Claims (8)
- 複数の撮影条件下における認識対象物のマルチモーダル画像データを用いて、前記認識対象物の特徴量の変化が大きい第1のモダリティと、前記認識対象物の特徴量の変化が小さい第2のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習システムであって、
前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された前記マルチモーダル画像データを入力するマルチモーダル画像データ入力部と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、入力された前記マルチモーダル画像データを前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理部と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記正解学習処理部による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理部と、
前記疑似学習処理部の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習を行う拡張学習処理部を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習システム。 - 前記正解学習処理部による前記第1のモダリティ下の正解学習処理と、前記疑似学習処理部による前記第2のモダリティ下の疑似学習処理と、前記拡張学習処理部による拡張学習処理を再帰的に繰り返して拡張学習モデルを構築することを特徴とする請求項1に記載のマルチモーダル画像を用いた画像認識学習システム。
- 前記マルチモーダル画像の複数の前記撮影条件が3以上あり、前記第1のモダリティと前記第2のモダリティの2つに加え、前記マルチモーダル画像データが他のモダリティ下での撮影画像データもセットとして備えたものであり、
前記マルチモーダル空間投影処理部の前記マルチモーダル画像空間管理機能が、3つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、前記正解学習処理部と前記疑似学習処理部と前記拡張学習処理部が、前記第1のモダリティと前記第2のモダリティの2つに加え、前記他のモダリティも取り扱うことができることを特徴とする請求項1または2に記載のマルチモーダル画像を用いた画像認識学習システム。 - 前記認識対象物が走行車両であり、
前記第1のモダリティが照明条件であり、
前記第2のモダリティが気象条件であり、
前記マルチモーダル画像が、可視光画像と赤外線画像のセットであることを特徴とする請求項1または2に記載のマルチモーダル画像を用いた画像認識学習システム。 - 前記可視光画像を撮影するカメラ、および前記赤外線画像を撮影する赤外線カメラの設置箇所が走行路に沿って複数個所あり、それぞれの撮影箇所に応じて構築された学習モデルを備えた車両追跡部を備え、
それぞれの撮影箇所における前記可視光画像または前記赤外線画像中から検知した走行車両画像をもとに、前記車両追跡部により前記走行車両を追跡してゆくことを特徴とする請求項4に記載のマルチモーダル画像を用いた画像認識学習システム。 - 前記認識対象物が生物の患部であり、
前記第1のモダリティが、可視光吸収条件、超音波反射条件、X線吸収条件、またはMRI反応条件のいずれかであり、前記第2のモダリティが前記第1のモダリティとは異なる残りの条件のいずれかであり、
前記マルチモーダル画像が、可視光画像、超音波画像、X線画像、またはMRI画像のうち、前記第1のモダリティおよび前記第2のモダリティに相当する画像のセットであることを特徴とする請求項1から3のいずれかに記載のマルチモーダル画像を用いた画像認識学習システム。 - 複数の撮影条件下における認識対象物のマルチモーダル画像データを用いて、前記認識対象物の特徴量の変化が大きい第1のモダリティと、前記認識対象物の特徴量の変化が小さい第2のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習方法であって、
前記マルチモーダル画像データを入力するマルチモーダル画像データ入力処理と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記正解学習処理による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理と、
前記疑似学習処理の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習方法。 - コンピュータで読み取り可能な保存媒体に保存されたコンピュータプログラムであって、 前記コンピュータプログラムは、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、前記認識対象物の特徴量の変化が大きい第1のモダリティと、前記認識対象物の特徴量の変化が小さい第2のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習プログラムであって、前記画像認識学習プログラムは1つ以上のプロセッサーに以下の複数段階の処理ステップを実行させるための命令を含み、前記処理ステップは、 マルチモーダル画像データを入力するマルチモーダル画像データ入力処理ステップと、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理ステップと、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理ステップと、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に投影し、前記正解学習処理ステップによる前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理ステップと、
前記疑似学習処理ステップの前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理ステップを備えたことを特徴とするマルチモーダル画像を用いた画像認識学習プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022016781A JP7812552B2 (ja) | 2022-02-06 | 2022-02-06 | 複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022016781A JP7812552B2 (ja) | 2022-02-06 | 2022-02-06 | 複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023114477A JP2023114477A (ja) | 2023-08-18 |
| JP7812552B2 true JP7812552B2 (ja) | 2026-02-10 |
Family
ID=87569814
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022016781A Active JP7812552B2 (ja) | 2022-02-06 | 2022-02-06 | 複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7812552B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119090415A (zh) * | 2024-07-29 | 2024-12-06 | 天津大学 | 一种基于无人机智能识别与bim的桥梁施工进度可视化动态监测与预警方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020064568A (ja) | 2018-10-19 | 2020-04-23 | 株式会社日立製作所 | 映像解析システム、学習装置、及びその方法 |
| US20210056718A1 (en) | 2019-08-20 | 2021-02-25 | GM Global Technology Operations LLC | Domain adaptation for analysis of images |
| US20210256315A1 (en) | 2020-02-18 | 2021-08-19 | Ping An Technology (Shenzhen) Co., Ltd. | Co-heterogeneous and adaptive 3d pathological abdominal organ segmentation using multi-source and multi-phase clinical image datasets |
-
2022
- 2022-02-06 JP JP2022016781A patent/JP7812552B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020064568A (ja) | 2018-10-19 | 2020-04-23 | 株式会社日立製作所 | 映像解析システム、学習装置、及びその方法 |
| US20210056718A1 (en) | 2019-08-20 | 2021-02-25 | GM Global Technology Operations LLC | Domain adaptation for analysis of images |
| US20210256315A1 (en) | 2020-02-18 | 2021-08-19 | Ping An Technology (Shenzhen) Co., Ltd. | Co-heterogeneous and adaptive 3d pathological abdominal organ segmentation using multi-source and multi-phase clinical image datasets |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023114477A (ja) | 2023-08-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112348846B (zh) | 图像序列上对象检测和跟踪的人工智能驱动基准真值生成 | |
| Yue et al. | A lidar point cloud generator: from a virtual world to autonomous driving | |
| US20230080133A1 (en) | 6d pose and shape estimation method | |
| Marcu et al. | A multi-stage multi-task neural network for aerial scene interpretation and geolocalization | |
| CN115205654B (zh) | 一种新型基于关键点约束的单目视觉3d目标检测方法 | |
| JP7567111B2 (ja) | 連帯的な検出と記述システムおよび方法 | |
| CN111488280B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
| Charmette et al. | Vision-based robot localization based on the efficient matching of planar features | |
| Ostankovich et al. | Application of cyclegan-based augmentation for autonomous driving at night | |
| JP2026502481A (ja) | 駐車位置検出方法及びシステム | |
| Bellusci et al. | Semantic interpretation of raw survey vehicle sensory data for lane-level HD map generation | |
| Chen et al. | Transforming traffic accident investigations: a virtual-real-fusion framework for intelligent 3D traffic accident reconstruction | |
| Li et al. | YS-SLAM: YOLACT++ based semantic visual SLAM for autonomous adaptation to dynamic environments of mobile robots | |
| JP7812552B2 (ja) | 複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム | |
| CN116476853B (zh) | 泊车模型训练方法、泊车方法、计算机设备和存储介质 | |
| CN117953205A (zh) | 基于3d点标注的多模态弱监督学习3d目标检测方法 | |
| Barra et al. | Can existing 3d monocular object detection methods work in roadside contexts? a reproducibility study | |
| CN120116963A (zh) | 基于动量感知的双模协同端到端自动驾驶轨迹预测方法 | |
| CN118097342B (zh) | 一种基于声呐的模型训练方法、估计方法、装置、设备及存储介质 | |
| CN116934830B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
| Chaudhari et al. | Enhancing lane recognition in autonomous vehicles using cross-layer refinement network | |
| US20220058484A1 (en) | Method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system | |
| Zheng et al. | RidgeVPR: A Global Positioning Framework in Sparse Feature Outdoor Environments Using Visual Place Recognition and Ridge Line Feature Matching | |
| Mi et al. | Visual SLAM and dense map reconstruction in highly dynamic environments | |
| Luttrell IV | Data collection and machine learning methods for automated pedestrian facility detection and mensuration |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250122 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250911 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20251023 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20251023 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20251030 |
|
| R155 | Notification before disposition of declining of application |
Free format text: JAPANESE INTERMEDIATE CODE: R155 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260122 |