JP2024067780A - 画像認識システム - Google Patents

画像認識システム Download PDF

Info

Publication number
JP2024067780A
JP2024067780A JP2022178106A JP2022178106A JP2024067780A JP 2024067780 A JP2024067780 A JP 2024067780A JP 2022178106 A JP2022178106 A JP 2022178106A JP 2022178106 A JP2022178106 A JP 2022178106A JP 2024067780 A JP2024067780 A JP 2024067780A
Authority
JP
Japan
Prior art keywords
image
recognition system
encoder
layer
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022178106A
Other languages
English (en)
Inventor
フック チン
Fuk Chin
ディミタル コレフ
Kolev Dimitar
宏之 辻
Hiroyuki Tsuji
守生 豊嶋
Morio Toyoshima
テイ タイン フエン チヤン
Thi Thanh Huyen Tran
トゥアン ファン アン
Tuan Pham Anh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
University of Aizu
Original Assignee
National Institute of Information and Communications Technology
University of Aizu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology, University of Aizu filed Critical National Institute of Information and Communications Technology
Priority to JP2022178106A priority Critical patent/JP2024067780A/ja
Publication of JP2024067780A publication Critical patent/JP2024067780A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像シーケンス内の移動物体を認識するディープラーニングを用いて、雲やターゲットの形や軌道を高精度で認識可能な完全自動のリアルタイムシステムが実現可能な画像認識システムを提供する。【解決手段】画像認識システム3は、画像シーケンス内の移動物体を認識するディープラーニングを用いた画像認識システムであって、入力画像1から複数チャンネルの低解像度表現画像を作成する画像処理部311を有するエンコーダ31と、エンコーダ31の画像処理部311により作成された複数チャンネルの低解像度表現画像と、入力画像1の生画像をスキップ接続させるスキップ接続画像と、入力画像1の生画像と直前の画像2との差分から得られた残差画像35との、3種類の画像のサイズを調整し、同時に入力させるデコーダ33とを備える。【選択図】図3

Description

本発明は、画像認識システムに関し、画像シーケンス内の移動物体を認識するディープラーニングを用いて雲認識の高精度化に好適な画像認識システムに関するものである。
雲量情報は、今までは主に天気予報で利用されていている。現在は、光衛星通信技術での関心が高まっていることに伴い、衛星と地上間の光リンクへの雲の影響を軽減するため、サイトダイバーシティ技術とリンク計画自動システムへの雲量情報の反映が検討されている。雲量と太陽を含む全天情報は、天気予報や衛星光通信のサイトダイバーシティには必要である。
<雲量測定について>
気象庁の気象データシステムは、雲量と雲の厚さをレーザシーロメータ(雲高計)を使って地上から測定している。また、可視もしくは赤外センサによる全天カメライメージ(WSI)も使われている。場合によっては、Sun photometerも含まれている場合がある。気象データ用衛星で地上の雲量測定もできる。
本発明者らが開発したOBSOC(Observation system of the patch of Blue Sky
for Optical Communication)システムは、天上の温度測定で雲の測定ができる。人工知能を使用していないシステムは、自動化が難しく、また、解像度が良くないと考えられる。(図19のとおり、全天イメージは5ピクセルで表す。)
<ディープラーニングを利用した雲認識システムについて>
全天カメライメージ画像をディープラーニングモデルに入力し、雲認識を行う。画像認識には、基本的に畳み込みニューラルネットワーク(CNN)がよく使われている。図16に、一例としてU-NETアーキテクチャを示す。画像はCNNエンコーダ70に入力され、その出力をデコーダ71に入力する。デコーダ71のアウトプットは認識された移動物体(オブジェクト)を含む処理済みの画像になる。CNNアーキテクチャでは、レイヤーのサイズ、枚数、利用可能なスキップ接続(Skip-connection)によって精度と複雑さが決定される。
従来、ディープラーニングを利用したシンプルな雲認識は、CNNのエンコーダとデコーダで行っている(例えば、CloudSegNet,非特許文献2)。図17に非特許文献2の最新のCNNを利用した雲認識の例を示す。この場合、エンコーダ80には300×300×3の画像をインプットして、38×38×38×8の出力画像(Coarse-grain)粗視化表現画像(Representation)になる。この粗視化表現画像をデコーダ81に入力して、画像の出力になる。
米国特許公開2019-0355128号明細書
W. Xie, D. Liu, M. Yang, S. Chen, B. Wang, Z. Wang, Y. Xia, Y. Liu, Y. Wang, and C. Zhang, "SegCloud: a novel cloud image segmentation model using a deep convolutional neural network for ground-based all- sky-view camera observation," Atmospheric Measurement Techniques, vol. 13, no. 4, pp. 1953-1961, 2020. S. Dev, A. Nautiyal, Y. H. Lee and S. Winkler, "CloudSegNet: A Deep Network for Nychthemeron Cloud Image Segmentation," in IEEE Geoscience and Remote Sensing Letters, vol. 16, no. 12, pp. 1814-1818, Dec. 2019,doi: 10.1109/LGRS.2019.2912140. J. Kim, J. K. Lee, and K. M. Lee, "Accurate image super-resolution using very deep convolutional networks," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 1646-1654. C. N. Long, J. M. Sabburg, J. Calbo, and D. Pages, "Retrieving cloud characteristics from ground-based daytime color all-sky images," Journal of Atmospheric and Oceanic Technology, vol. 23, no. 5, pp. 633-652, 2006. I. Tolstikhin, N. Houlsby, A. Kolesnikov, L. Beyer, X. Zhai, T. Unterthiner, J. Yung, A. Steiner, D. Keysers, J. Uszkoreit, M. Lucic, A. Dosovitskiy, "MLP-Mixer: An all-MLP Architecture for Vision",https://doi.org/10.48550/arXiv.2105.01601
<気象庁と衛星光通信のための雲量測定について>
気象庁と衛星光通信のための雲量測定は、レーザシーロメータ(雲高計)/LIDARを用いて行われるが、レーザシーロメータ(雲高計)/LIDARのシステムは複雑で、低解像度である。また、レーザを地上から発射するので目(例えば、航空機の搭乗員)には悪い影響を及ぼす恐れがある。
日射計(Sun photometer)は、太陽の放射輝度と空の放射輝度を測定するセンサである。日射計は、太陽高度計ともいう。本来1つの光検出器で全天の輝度を測定している。すなわち、全天カメラ画像を1ピクセルとして表している。そのため、曇っているかどうかという基本的な情報は取得できるが、高解像度の画像情報は得ることができない。例えば、OBSOCシステムの日射計で測定した昼間の日射データ(日射量)を図18(a)(b)に示す。図18(a)(b)の例では、縦軸は日射量W/m2(平方メートル)を示し、横軸は時間(分)を示している。また、図18(a)(b)中、実線は日射(太陽放射)を表し、点線は晴れの場合を予測したレベルのフィッティング曲線(図18(a))、又は参照曲線(図18(b))を表している。このOBSOCシステムのデータは、図18(a)(b)に示すように、全天、特に太陽の前に雲があると、日射計で測定できるレベルが低くなる(図18(a)中、窪んでいる部分など)。また、日射計では、雲がどこにあるか、どのぐらいの雲量かは不明確で、測定することはできない。
天上温度で雲量測定する場合は、イメージセンサに比べて高精度の情報が取得できないという問題がある。例えば、OBSOCシステムの赤外線気温計で測定したデータを図19,20に示す。図20の例は、全天カメラ画像を示し、図19の例は、天上温度測定のデータを示している。天上温度測定は、5つの赤外線気温計を使っているので、全天は5ピクセル画像で表せている。このピクセルだけでは全天をカバーすることが出来ない。また、各ピクセル画像が重なり合うので、精度も解像度も低くなる。また、赤外線気温計が使われているため、高湿度で高温の天候では測定が難しい。例えば、図19,20の沖縄測定データを見ると、画像では晴れであるが、天上温度によって、太陽のところに40%以上の雲量があると測定されている。
これらのほとんどのシステムは全天カメラと一緒に使われているので、全天カメライメージのみで雲量測定ができれば、非常にシンプルなシステムになる。
<ディープラーニングを使用している雲認識システムについて背景>
ディープラーニングは人工知能の一つの分野であり、人間の脳を模倣したニューラルネットワークを使って、コンピュータで複雑な問題を学習し解決できる技術である。ディープラーニングシステムでは、ニューラルネットワークの構造と入力データにより、出力結果が変わる。したがって、最高のパフォーマンスを達成するためには、ディープラーニングの構造化デザインと入力データを準備するための革新的な方法を探し出すことが最も重要なポイントとなる。上記の非特許文献1-3では、図16に近いCNNを使ったアーキテクチャベースで、画像1枚で雲認識を行っている。
今までの技術では、動作の伴わない個別のイメージでの雲認識システムを考えている。そのため、高精度な雲の動きの補正や雲量予想ができない。また、基本的に雲パッチ(Patch)の画像で使われているので、太陽を考慮してないシステムになり、実際の全天カメラ画像と変わり、さらなるシステム制限を引き起こしていると考えられる。移動物体であるターゲットの雲画像の例を図21(a)(b)に示す。今までの技術では、図21(a)の雲パッチ(Patch)画像で認識を行う(CloudSegNet 非特許文献2の図4)。全天カメラ画像は図21(b)に示すように、太陽の認識も必要になり、また、雲に対して太陽が影響する場合もある。
今までのニューラルネットワーク構造は複雑で、雲の形の認識や動いているターゲット認識においては効果的でなかった。従来技術を高精度化する方法は、ニューラルネットワークのレイヤーを増やすしかないが、そこには2つの問題点がある。すなわち、システムがもっと複雑になり、リアルタイム化できない、オーバーフィッティング(Overfitting)という過学習の問題が起きる可能性が高く、その場合はシステムを使えなくなるという問題がある。
従来技術を用いた全天カメラ画像での雲認識結果を図22(a)(b)に示す。非特許文献2でのCloudSegNetを使用した。Defaultは、非特許文献2でのパラメータで実施した結果である。隠れ層の次元は、「16,8,8,8,8,16」を用い、その他のパラメータはディフォルト値(レイヤ数やフィルタサイズなど)を設定して行った。その結果、正しく雲が認識されたピクセル精度(PA)が43%であったので、CNNを複雑にするためレイヤーのサイズを大きくしたlargeの検討も行った。隠れ層の次元は、「256,256,256,256,256,256」を用い、Defaultと同様に、その他のパラメータはディフォルト値(レイヤ数やフィルタサイズなど)を設定して行った。その結果、計算時間(Complexity)が2倍で、ピクセル精度(PA)が47%まで認識することができた。
以上の結果から、従来技術を用いて高精度化するには限界があるため、新しい入力データ、アーキテクチャなどが必要と考えられる。
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、画像シーケンス内の移動物体を認識するディープラーニングを用いて、雲やターゲットの形や軌道を高精度で認識可能な完全自動のリアルタイムシステムが実現可能な画像認識システムを提供することにある。
上述した課題を解決するために、第1発明に係る画像認識システムは、画像シーケンス内の移動物体を認識するディープラーニングを用いた画像認識システムであって、入力画像から複数チャンネルの低解像度表現画像を作成する画像処理部を有するエンコーダと、前記エンコーダの画像処理部により作成された複数チャンネルの低解像度表現画像と、入力画像の生画像をスキップ接続させるスキップ接続画像と、入力画像の生画像と直前の画像との差分から得られた残差画像との、3種類の画像のサイズを調整し、同時に入力させるデコーダと、を備えたことを特徴とする。
第2発明に係る画像認識システムは、第1発明において、上記残差画像は、入力画像の生画像と前の一連の画像から残差画像を計算する残差画像抽出器により得られることを特徴とする。
第3発明に係る画像認識システムは、第1発明又は第2発明において、上記残差画像抽出器は、画素単位の減算を実行することにより、残差画像を抽出することを特徴とする。
第4発明に係る画像認識システムは、第1発明において、上記移動物体は、雲、天体、災害(森林火災、マグマ、津波・洪水)、車両、バス、電車、空挺体、海上体、生産ベルト上の荷物、鳥、魚、動物、人間のいずれかであることを特徴とする。
第5発明に係る画像認識システムは、第1発明において、上記エンコーダは、ニューラルネットワークのうち、畳み込みニューラルネットワーク(CNN)、又は多層パーセプトロンニューラルネットワーク(MLP-Mixer)であることを特徴とする。
第6発明に係る画像認識システムは、第1発明又は第2の発明において、上記デコーダは、上記エンコーダの出力のアップサンプリングを行う第1の畳み込み層と、アップサンプリングされた複数チャンネルの低解像度表現画像とスキップ接続画像と残差画像とを連結する連結層と、連結された画像の画素単位の処理を行う第2の畳み込み層と、処理された第2の畳み込み層を全結合させる全結合層とを備えたことを特徴とする。
上述した構成からなる本発明によれば、画像シーケンス内の移動物体を認識するディープラーニングを用いて、雲やターゲットの形や軌道を高精度で認識可能な完全自動のリアルタイムシステムが実現可能な画像認識システムを実現することができる。
図1は、本発明を適用した雲認識システムの概略構成図である。 図2は、本発明を適用した画像認識システムの概略図である。 図3は、本発明の第1実施形態を示す画像認識システムの構成ブロック図である。 図4は、本発明の第1実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。 図5は、本発明の第1実施形態の画像認識システムにおける残差画像抽出器の概略図である。 図6は、本発明の第1実施形態の画像認識システムにおけるMLP-Mixerを使用したエンコーダの画像処理部のブロック図である。 図7は、本発明の第1実施形態の画像認識システムにおけるデコーダの画素処理部の変形例を示すブロック図である。 図8は、本発明の第2実施形態の画像認識システムの構成ブロック図である。 図9は、本発明の第2実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。 図10は、本発明の第3実施形態の画像認識システムの構成ブロック図である。 図11は、本発明の第3実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。 図12は、本発明を雲認識システムに適用した場合のパラメータ例を示す図である。 図13は、従来技術と本発明の比較結果を示す図である。 図14は、本発明を適用した環境データ情報収集システムのシステム全体構成図である。 図15は、本発明を適用した環境データ情報収集システムの環境データ情報収集部の回路ブロック図である。 図16は、従来のU-NETアーキテクチャの例を示すブロック図である。 図17は、従来のCNNを利用した雲認識システムの詳細ブロック図である。 図18は、従来の気象庁と衛星通信のための雲量測定におけるOBSOC日射計測定データ例を示す図である。 図19は、環境データ情報収集システム(OBSOC)の天上温度測定データ例を示す図である。 図20は、OBSOCの沖縄電磁波技術センターにおける全天カメラ画像例を示す図である。 図21は、移動物体であるターゲットの雲画像の種類を説明するための図である。 図22は、CloudSegNetで全天カメラ画像を用いた雲認識の結果を示す図である。 図23は、本発明の第1実施形態の画像認識システムにおけるデコーダの画素処理部の変形例を示すブロック図である。 図24は、本発明の第2実施形態の画像認識システムの構成ブロック図である。 図25は、本発明の第2実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。
以下、本発明を適用した画像認識システムについて、図面を参照しながら詳細に説明をする。
<第1実施形態>
本第1実施形態は、第1図に示すように、移動物体として空を移動する雲を全天カメラ40でリアルタイムに撮像し、撮像した入力画像シーケンスa1、a2、a3、・・・ai・・・an(nは正数)をストレージサーバ41に蓄積しておき、その蓄積した入力画像シーケンスを画像認識システム搭載のコンピュータ42により、画像シーケンス内の雲を認識するディープラーニングを用いたシステムである。以下では、本発明の画像認識システムをTransMiSSと略して用いることを併用する。
なお、本画像認識システムは汎用のコンピュータにソフトウェアで実現しても良いし、またエンコーダやデコーダを専用のハードウェアで実現しても良い。図2に本発明を適用した画像認識システムの概略構成例を示す。この画像認識システムは、画像取得用の画像センサ50と、本発明の画像認識処理を行うCPUやGPUなどのプロセッサ51と、画像認識システムソフトウェアを記憶している記憶装置52と、画像認識結果を出力するディスプレイやプリンタなどの出力装置53と、を備えている。図2の例では、雲以外の各種移動物体の画像認識に適用できる一般的な構成を示している。例えば、画像センサ50は、通信衛星に搭載されたカメラ、車両、バス、電車などを撮像する外部カメラ、車外や車窓から見える風景を撮像するカメラ、生産ベルト状の荷物の移動を監視するカメラ、屋外や自然環境の中に設置したカメラなど、各種画像取得に適した状態で移動体の画像が取得される。また、画像認識される画像は、既に取得された移動体のターゲット画像を記憶装置52に蓄積されたものを利用しても良い。
以下では、移動物体は、雲を例にして説明するが、雲に限定されない。例えば、移動物体は、天体、災害(森林火災、マグマ、津波・洪水)、車両、バス、電車、空挺体、海上体、生産ベルト上の荷物、鳥、魚、動物、人間のいずれも同様に本発明を適用できる。
<第1実施形態の構成>
図3は、本発明の第1実施形態を示す画像認識システムの構成ブロック図であり、図4は、本発明の第1実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。
本第1実施形態の画像認識システム3は、図3、図4に示すように、エンコーダ31と、複数チャンネルの低解像度画像(粗視化表現)32と、デコーダ33と、残差画像抽出器34と、残差画像35と、を有する。また、エンコーダ31は画像処理部311を有し、デコーダ33は、本発明の特徴的な画素処理部331を有する。
さらに、画素処理部331は、図4に示すように、第1畳み込み層332と、処理結果333と、連結層334と、処理結果335と、第2畳み込み層336と、処理結果337と、全連結層338と、を有する。
<第1実施形態の構成の説明>
本第1実施形態の画像認識システム3は、入力画像1から複数チャンネルの低解像度表現画像32を作成する画像処理部311を有するエンコーダ31と、エンコーダ31の画像処理部311により作成された複数チャンネルの低解像度表現画像32と、入力画像1の生画像をスキップ接続させるスキップ接続画像と、入力画像1の生画像と直前の画像2との差分から得られた残差画像35との、3種類の画像のサイズを調整し、同時に入力させるデコーダ33と、を有する。ここで、使用するエンコーダ31やデコーダ33はディープニューラルネットワーク技術を利用している。エンコーダ31には、例えば、畳み込みニューラルネットワーク(CNN)や多層パーセプトロンニューラルネットワーク(例えば、MLP-MIxer)などを利用することができる。
エンコーダ31は、画像処理部311を有し、画像処理部311により、例えば、図3に示すように、小さいサイズのチャンネル画像(またはパッチ画像)に切り出し、複数チャンネルの低解像度表現画像(またはパッチ画像)32を作成する。
複数チャンネルの低解像度表現画像32は、画像処理部311の結果である。
デコーダ33は、畳み込みニューラルネットワーク(CNN)を用いている。デコーダ33は、本発明の特徴的な構成であり、図4に示すように、3種類の入力データを使用している。すなわち、3つの入力(単一画像1、残差画像6、粗視化表現5)からの結合情報を処理することにより、予測画像の高解像度表現(細粒度表現)を再作成する。これらの画素(ピクセル)単位の処理を画素処理部331により行う。
デコーダ33の画素処理部331は、図4に示すように、エンコーダ31の出力のアップサンプリングを行う第1の畳み込み層332と、アップサンプリングされた複数チャンネルの低解像度表現画像とスキップ接続画像と残差画像とを連結する連結層334と、連結された画像の画素単位の処理を行う第2の畳み込み層336と、処理された第2の畳み込み層336を全結合させる全結合層338とを備えている。ここで、畳み込み層(convolution layer)は、機械学習の標準的な処理層である。
画像の生画像データ(スキップ接続の接続画像)と残差画像データは同じ解像度であるが、エンコーダ31の出力は低解像度なので、3種類のデータ解像度を合わせるために、最初に第1畳み込み層332の中でアップサンプリング(Up-sampling)の処理にも特徴がある。3種類のデータを合わせるので、図4に示すように、最初にエンコーダ31の出力をアップサンプリング(Up-sampling)してから、3つの入力データを連結層334で合わせてから、第2畳み込み層336と全連結層338で処理を行い、出力画像4を得る。
残差画像抽出器(Residual extractor)34は、図5に示すように、入力画像の生画像と前の一連の画像(時間tの瞬時画像より過去の画像t-1~t-5)から残差画像を計算する。この残差画像抽出器34は、画素単位(ピクセル単位)の減算を実行することにより、残差画像を抽出する。抽出された残差画像は、図3、図4に示すデコーダ33に入力し、動いているターゲット(雲)の認識精度を上げ、また、ターゲット(雲)の移動軌道を予測できるようにする。雲は動いているため、残差画像は雲の形状と位置を決定するのに役立つ。移動物体(オブジェクト)の形状/動きの検出に残差画像抽出器を使用した点も新しいと考える。
<従来のディープラーニングと本発明の相違点について>
従来のディープラーニングでは、スキップ接続(Skip-connection)は普通に使われているが、基本的に、図16のエンコーダ70でのダウンスケール処理(downscale process)の前の出力を直接デコーダ71にコピーする使用方法である(例えば、U-NETの図16に示す)。スキップ接続(Skip-connection)で画像の生データを使用している非特許文献は、非特許文献1~4のうち1件の繋いでいるのみになるが、その使用方法としては、非特許文献3に記載のように、CNNデコーダの出力と画像の生データを足して、処理画像を出力する最終段のところで利用している。これに対し、本発明では、画像の生データをデコーダに入れて、処理を行う方法である点で従来とは異なる。また、本発明では、3種類の画像データをデコーダに入力し、処理を行う。従来の処理では、非特許文献3の記載のように、エンコーダの出力をデコーダに通すが、画像の生データはデコーダの最終段に加算し、処理画像を出力する。連続した複数の画像から残差画像を作成し、雲・ターゲットの形状と位置を決定するのに利用する。
特許文献1では、1枚の画像のみをCNNで処理する。また、動き検出画像のみを別CNNで処理する。最後に結果を足して、最大プーリング(Maxレベル)を使って、アウトプットしている。本発明では、1枚画像はエンコーダで通し、エンコーダのアウトプットの粗視化表現を他の画像と同じ解像度にした後、3種類のデータをCNNデコーダに入れて同時に処理を行う。
従来技術の通り、エンコーダは、図16のCNNエンコーダ70ベースでもできるが、非特許文献5記載のように、最近開発されたMLP-MixerはCNNよりも優れた性能を持つ画像分類の手法である。本発明では実験結果の比較のために多層パーセプトロンニューラルネットワークとして、MLP-Mixerを使用した。本来、MLP-Mixerは、画像分類のため使用するが、本発明では画像セグメンテーションに使用するため、図6に示すように、エンコーダ31では、MLP Mixerの一部だけが画像処理部311として使われている。この画像処理部311は、図6に示すように、チャンネル単位全結合層312と、平坦化層313と、Nx(混合層)314と、を有する。ここで、入力画像1を小さな低解像度表現のチャンネル画像に切り出す。切り出されたチャンネル画像は、チャンネル単位全結合層312によりチャンネル単位で合わせて出力した3次元マトリクスを平坦化層313に入れ、一次元に平坦化し、チャンネル画像Nxごとに混合層314により混合される。エンコーダ31は、図6に示すように、画像処理部311と、層正規化層315と、再形成層316と、を有する。画像処理部311から出力されたチャンネル画像を層正規化層315にレイヤーノーマライズし、再形成層316で低解像度表現のチャンネル画像に形を変える。このチャンネル画像は、パッチ画像ともいう。
<第1実施形態の変形例>
図7に本第1実施形態の画像認識システムにおける変形例を示す。図7の例では、残差画像入力先を変更した。
本デコーダ60は、画素処理部601を有し、画素処理部601は、図7に示すように、第1畳み込み層602と、処理結果603と、連結層604と、処理結果605と、第2畳み込み層606と、処理結果607と、連結層608と、処理結果609と、第3畳み込み層610と、処理結果611と、全連結層612と、を有する。ここで、本デコーダ60の画素処理部601は、第1実施形態の画素処理部331に対して、連結層608と第3畳み込み層610を追加し、残差画像の入力と、第2畳み込み層606の出力を連結層608に入力させて合わせている点が異なる。
図23に本第1実施形態の画像認識システムにおけるその他の変形例を示す。図23の例では、スキップ接続先と残差画像入力先を変更した。
本デコーダ60aは、画素処理部601aを有し、画素処理部601aは、図23に示すように、第1畳み込み層602と、処理結果603と、連結層604と、処理結果605と、第2畳み込み層606と、処理結果607と、連結層608と、処理結果609と、第3畳み込み層610と、処理結果611と、全連結層612と、を有する。ここで、本デコーダ60aの画素処理部601aは、第1実施形態の画素処理部331に対して、連結層608と第3畳み込み層610を追加し、スキップ接続先の入力と、第2畳み込み層606の出力を連結層608に入力させて合わせている点が異なる。
これにより、畳み込み層を1層増やし、画素処理部601aの処理を分散させているので、処理時間の短縮につながる。画像認識の精度と処理スピードの両立が図れる。
このように、本第1実施形態及び第1実施形態の変形例によれば、全天カメラから取得した連続的なイメージ全てを入力データとして使用し、アーキテクチャとして新しいニューラルネットワーク構造を使用しているので、雲やターゲットの形や軌道を高精度で認識可能な完全自動のリアルタイムシステムを実現することができる。
<第2実施形態>
本第2実施形態の画像認識システムは、図1の画像認識システムの残差画像抽出器34と残差画像35を除いて、デコーダ入力にスキップ接続のスキップ接続画像を入力する点だけが異なるので、以下では簡単に説明する。
<第2実施形態の構成>
図8は、本発明の第2実施形態を示す画像認識システムの構成ブロック図であり、図9は、本発明の第2実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。
本第2実施形態の画像認識システム3aは、図8、図9に示すように、エンコーダ31と、複数チャンネルの低解像度画像(粗視化表現)32と、デコーダ33aと、を有する。また、エンコーダ31は画像処理部311を有し、デコーダ33aは、本発明の特徴的な画素処理部331aを有する。
<第2実施形態の構成の説明>
第1実施形態においては、デコーダ入力を3入力にしていたが、スキップ接続のスキップ接続画像と複数チャンネルの低解像度表現画像の2入力をデコーダ33aに入力させる構成とし、残差画像の入力をなしとした。これ以外は、第1実施形態と同様なので、説明を省略する。
<第2実施形態の変形例>
図24に本発明の第2実施形態の画像認識システムにおける変形例を示す。図25に本発明の第2実施形態の画像認識システムにおけるデコーダの画素処理部の変形例を示す。
本第2実施形態の画像認識システム3cは、図24、図25に示すように、エンコーダ31と、複数チャンネルの低解像度画像(粗視化表現)32と、デコーダ33cと、残差画像抽出器34と、残差画像35と、を有する。また、エンコーダ31は画像処理部311を有し、デコーダ33cは、本発明の特徴的な画素処理部331cを有する。
<第2実施形態の変形例の説明>
第2実施形態においては、デコーダ入力を2入力にしていたが、第2実施形態の変形例では、複数チャンネルの低解像度表現画像と残差画像の2入力をデコーダ33cに入力させる構成とし、スキップ接続のスキップ接続画像入力をなしとした。これ以外は、第2実施形態と同様なので、説明を省略する。
<第3実施形態>
第3実施形態は、残差画像の代わりに、動く検出画像(例えば、オプティカルフロー画像)を利用した点が、図1の第1実施形態と異なるものである。3入力をデコーダに入力せる点は同じであるが、動き検出画像は画像の前後関係の影響もあるので、若干画像処理が複雑になるが、高精度の画像認識に効果を奏する。
<第3実施形態の構成>
図10は、本発明の第3実施形態を示す画像認識システムの構成ブロック図であり、図11は、本発明の第3実施形態の画像認識システムにおけるデコーダの画素処理部のブロック図である。
本第3実施形態の画像認識システム3bは、図10に示すように、エンコーダ31と、複数チャンネルの低解像度画像(粗視化表現)32と、デコーダ33bと、動き検出画像抽出器44と、動き検出画像45と、を有する。また、エンコーダ31は画像処理部311を有し、デコーダ33bは、本発明の特徴的な画素処理部331bを有する。
さらに、画素処理部331bは、図11に示すように、第1畳み込み層332と、処理結果333と、連結層334と、処理結果335と、第2畳み込み層336と、処理結果337と、全連結層338と、を有する。
<第3実施形態の構成の説明>
本第3実施形態の画像認識システム3bは、残差画像に代えて、動き検出画像をデコーダ33bに入力させる以外は、第1実施形態の画像認識システムと同様であるので、説明を省略する。
このように、本第2実施形態、本第3実施形態によれば、本第1実施形態に加えて、全天カメラから取得した連続的なイメージ全てを入力データとして使用し、アーキテクチャとして新しいニューラルネットワーク構造を使用しているので、雲やターゲットの形や軌道を高精度で認識可能な完全自動のリアルタイムシステムを実現することができる。
なお、雲以外の移動体画像に対しても、例えば、天体、災害(森林火災、マグマ、津波・洪水)、車両、バス、電車、空挺体、海上体、生産ベルト上の荷物、鳥、魚、動物、人間のいずれの移動体画像(ターゲット)にも、上述した実施形態の画像認識処理を同様に適用して、画像認識の高精度化や自動リアルタイム処理の装置の実現をすることができる。
本発明の作用・効果
<効果の評価パラメータ>
Pixel accuracy(PA)ピクセル精度:画像の中に何%正しく認識されたピクセルを表す結果比較のため、Complexityは、同じシステムの計算時間で合わせている。
本発明者らのOBSOCデータを使って、雲認識の比較を行った。認識方法のパラメータを図12と図13に示す。CloudSegNet_defaultは、非特許文献2のようなスペックで、従来技術の雲認識方法である。CloudSegNet_largeは、従来技術の方法を複雑化(レイヤーを増やしている)して行った評価である。TransMiss_woRは、図8と図9のように、エンコーダ→デコーダの低解像度対策のため、スキップ接続(Skip-connection)の1枚画像の生データのみを追加した場合である。TransMiss_smallとTransMiss_baseは、本発明の二つの構成である。TransMiss_smallのほうは簡単な構成になる。それぞれの具体的なパラメータを図12に示す。
<本発明と従来技術の比較結果について>
<従来技術の結果>
図13に従来技術と本発明の各処理の比較結果を示す。従来方式のCloudSegNet_defaultは6ms以下で、雲のピクセル精度(PA)は43%以上である。また、従来方式を複雑化した方法のCloudSegNet_largeの場合、10ms以上で、PAは47.6%であり、ほぼ効果がないと思われる。
<本発明の結果>
画像の生データのスキップ接続(Skip-connection)を追加したTransMiss_woRIでは、雲のピクセル精度PAは84.7%になるが、計算時間(Complexity)は60ms以上になる。TransMiss_smallは、6ms以下で、CloudSegNet_defaultに近い複雑さの構成だと思われるが、ピクセル精度PAは87.2%になるので、同じ複雑さのCloudSegNet_defaultと比べると約40%以上高い効果が出ている。さらに、TransMiss_baseの場合だと、TransMiss_woRIと同じぐらいの62msとなるが、ピクセル精度PAは他処理よりも高い94.1%以上になる。雲(ターゲット)認識に対して、本発明は非常に効果がある。また、軌道予測には1枚画像ではなく、連続した複数の画像から作成する残差画像情報も大事だと考えられる。
<本発明の効果が最も発揮される利用例>
本発明者らが開発したOBSOCシステム(環境データ情報収集システム)を図14に示し、環境データ情報収集システムの環境データ情報収集部の回路ブロック図を図15に示す。詳細は、鈴木健治、他、「衛星-地上間光通信のための環境データによるサイトダイバーシティ効果解析」、第61回宇宙科学技術連合講演会講演集、2017年を参照することとし、本発明の効果が発揮される利用例として、OBSOCシステム(環境データ情報収集システム)について簡単に説明する。
環境データ情報収集システム160は、図14に示すように、観測局:環境データ情報収集装置161と、環境データ衛星通信設備162と、センター局163と、インターネット164と、電話網165と、衛星追尾アンテナ搭載地上局167と、通信衛星168と、Web公開169と、IEEE1888フェチ公開170と、から構成されている。さらに、観測局:環境データ情報収集装置161は、環境データ情報収集部1611と、全天カメラ1612と、雲量・雲高計1613と、全天日射計1614と、風向・風速計1615と、外気温度・湿度計1616と、雨量計1617と、気圧計1618と、電源部1619と、商用電源1620と、から構成されている。また、センター局163は、環境データ情報収集解析表示サーバ1631を有しており、WEB公開169などの表示・閲覧制御を行っている。
以下では、環境データ情報収集システム(OBSOC:Observation system of the patch of Blue Sky for Optical Communication)の主要な構成について説明する。
環境データ情報収集システム160は、日本列島の緯度経度の離れた10地点の観測局において環境データ情報を収集する環境データ情報収集装置161の10局とNICT小金井のセンター局163から構成される。収集された環境データ情報は地上のネットワークを介してセンター局163の表示サーバ1631に伝送される.リアルタイム環境データ情報表示例は、URLリンクのhttps://sstg.nict.go.jp/OBSOC/にアクセスすることにより、閲覧できる。日本地図上で北は北海道大樹町から南は沖縄の環境データ情報として,仰角5度以上の全天カメラ画像データ,赤外放射計を用いた雲量・雲高データ及び,各種気象データを1分値で取得している。表示サーバ1631は環境データ情報をデータベースに登録すると共に全雲量,晴天率(晴天域判定),光通信可能判定,日平均等の統計データ情報処理を行う。また,過去データの表示機能や周回衛星のTLE軌道要素を入力して可視範囲にある観測局の中から光通信可能な観測局を推定できる。
環境データ情報収集装置161の各種観測センサの諸元を以下に示す。晴天域を識別するための全天カメラ画像(1画像あたり200KB程度)、雲量・雲高計と各種気象測器のデータを収集する(1データ263バイト)。気象測器の内湿度計以外は信頼性を確保するため気象庁検定可能品を使用している。全天カメラ162の仕様は、カラーCCD魚眼レンズによる全天モニタVGA画像,仰角5度以上である。雲量・雲高計1613の仕様は、天頂及び東西南北に仰角55度方向の赤外放射温度計(それぞれ視野角約60度):雲量精度±6%,雲高範囲0m~8000m,雲高精度±200mである。外気温度・湿度計1616の温度計の仕様は、-60℃~60℃,精度20℃において0.2℃以内である。外気温度・湿度計1616の湿度計の仕様は、0%~100%RH,精度±1.8%RH(@23℃),自然通風シェルターを使用している。気圧計1618の仕様は、500~1100hPa,分解能0.01hPa,精度±0.15hPa以内である。全天日射計1614の仕様は、0~2000W/m2(平方メートル)である。風向・風速計1615の仕様は、計測範囲50m/sec Max,耐風速100m/secである。雨量計1617の仕様は、転倒ます式ヒータ付雨量計、精度:雨量20mm以下±0.5mm以内、20mmを超える時±3%である。環境データ情報収集システムを利用してリアルタイムの環境データを取得することにより、災害の被害低減に本発明を利用することができる。
図14、図15に示したOBSOCシステムにおいて、2014年から日本国内10カ所で雲画像と気象データを取得している。OBSOCシステムはCCSDS標準化のGreenBookで気象データシステムとして、紹介されている。GreenBookではサイトダイバーシティに必要となる測定器と測定方法を紹介している。現在、光地上局ネットワークはBridgecom(米国)、ESA(欧州)で開発されている。また、オーストラリア・ニュージーランドで光地上局ネットワーク開発を検討している。リアルタイム自動システムや衛星リンク計画において、雲量情報はクリティカルパラメータとなっている。ディープラーニングを使用した雲認識システムが開発できれば、サイトダイバーシティの自動システムができる。
衛星光通信分野以外では、同じ技術を気象予報における高精度な自動システムに応用できる。スコープを広げると、本発明は動いているターゲットを認識できるシステムなので、雲認識だけではなく、ドローン・車・飛行機の認識などにも応用できる。
もう一つの応用例としては、船のナビゲーションシステム開発である。現在のナビゲーションシステムは、衛星のGPS信号を使用しているが、GPS信号へのジャミングの危険性が増えている。そのため、太陽や星を使った六分儀システムの信頼性が高いと思われている。本発明の技術を使うと、全天カメライメージで六分儀システムと同等のナビゲーションが可能になる。
a1、a2、a3・・・ai・・・an 入力画像シーケンス
1 入力画像
2 前画像(直前の画像)
3、3a、3b、3c 画像認識システム
4 出力画像
5 粗視化表現(複数チャンネルの低解像度画像)
6 残差画像
31 エンコーダ
32 複数チャンネルの低解像度画像(特徴マップ)
33 デコーダ
34 残差画像抽出器
35 残差画像
40 全天カメラ
41 ストレージサーバ
42 コンピュータ
50 画像センサ
51 プロセッサ
52 記憶装置
53 出力装置
60、60a デコーダ
70 エンコーダ
71 デコーダ
80 エンコーダ
81 デコーダ
160 環境データ情報収集システム
161 観測局:環境データ情報収集装置
162 環境データ衛星通信設備
163 センター局
164 インターネット
165 電話網
167 衛星追尾アンテナ搭載地上局
168 通信衛星
169 Web公開
170 IEEE1888フェチ公開
311 画像処理部
312 チャンネル単位全結合層
313 平坦化層
314 Nx(混合層)
315 層正規化層
316 再形成層
331、331a、331b、331c 画素処理部
332 第1畳み込み層
333 処理結果
334 連結層
335 処理結果
336 第2畳み込み層
337 処理結果
338 全連結層
601、601a 画素処理部
602 第1畳み込み層
603 処理結果
604 連結層
605 処理結果
606 第2畳み込み層
607 処理結果
608 連結層
609 処理結果
610 第3畳み込み層
611 処理結果
612 全連結層
1611 環境データ情報収集部
1612 全天カメラ
1613 雲量・雲高計
1614 全天日射計
1615 風向・風速計
1616 外気温度・湿度計
1617 雨量計
1618 気圧計
1619 電源部
1620 商用電源
1631 環境データ情報収集解析表示サーバ

Claims (6)

  1. 画像シーケンス内の移動物体を認識するディープラーニングを用いた画像認識システムであって、
    入力画像から複数チャンネルの低解像度表現画像を作成する画像処理部を有するエンコーダと、
    前記エンコーダの画像処理部により作成された複数チャンネルの低解像度表現画像と、入力画像の生画像をスキップ接続させるスキップ接続画像と、入力画像の生画像と直前の画像との差分から得られた残差画像との、3種類の画像のサイズを調整し、同時に入力させるデコーダと、
    備えたことを特徴とする画像認識システム。
  2. 上記残差画像は、入力画像の生画像と前の一連の画像から残差画像を計算する残差画像抽出器により得られることを特徴とする請求項1記載の画像認識システム。
  3. 上記残差画像抽出器は、画素単位の減算を実行することにより、残差画像を抽出することを特徴とする請求項1又は2記載の画像認識システム。
  4. 上記移動物体は、雲、天体、災害(森林火災、マグマ、津波・洪水)、車両、バス、電車、空挺体、海上体、生産ベルト上の荷物、鳥、魚、動物、人間のいずれかであることを特徴とする請求項1記載の画像認識システム。
  5. 上記エンコーダは、ニューラルネットワークのうち、畳み込みニューラルネットワーク(CNN)、又は多層パーセプトロンニューラルネットワーク(MLP-Mixer)であることを特徴とする請求項1記載の画像認識システム。
  6. 上記デコーダは、上記エンコーダの出力のアップサンプリングを行う第1の畳み込み層と、アップサンプリングされた複数チャンネルの低解像度表現画像とスキップ接続画像と残差画像とを連結する連結層と、連結された画像の画素単位の処理を行う第2の畳み込み層と、処理された第2の畳み込み層を全結合させる全結合層とを備えたことを特徴とする請求項1又は2記載の画像認識システム。
JP2022178106A 2022-11-07 2022-11-07 画像認識システム Pending JP2024067780A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022178106A JP2024067780A (ja) 2022-11-07 2022-11-07 画像認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022178106A JP2024067780A (ja) 2022-11-07 2022-11-07 画像認識システム

Publications (1)

Publication Number Publication Date
JP2024067780A true JP2024067780A (ja) 2024-05-17

Family

ID=91067904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022178106A Pending JP2024067780A (ja) 2022-11-07 2022-11-07 画像認識システム

Country Status (1)

Country Link
JP (1) JP2024067780A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118269967A (zh) * 2024-05-30 2024-07-02 广汽埃安新能源汽车股份有限公司 一种车辆防撞控制方法、装置、存储介质及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118269967A (zh) * 2024-05-30 2024-07-02 广汽埃安新能源汽车股份有限公司 一种车辆防撞控制方法、装置、存储介质及设备
CN118269967B (zh) * 2024-05-30 2024-08-09 广汽埃安新能源汽车股份有限公司 一种车辆防撞控制方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
US10356317B2 (en) Wide-scale terrestrial light-field imaging of the sky
Goodman et al. The GOES-R geostationary lightning mapper (GLM)
US9952310B2 (en) Aircraft weather radar coverage supplementing system
US20020041328A1 (en) Direct broadcast imaging satellite system apparatus and method for providing real-time, continuous monitoring of earth from geostationary earth orbit and related services
Dev et al. Estimation of solar irradiance using ground-based whole sky imagers
CN113454677A (zh) 一种遥感卫星系统
EP1023673A1 (en) Apparatus and method for monitoring and reporting weather conditions
Blakeslee et al. Lightning Imaging Sensor (LIS) for the International Space Station (ISS): mission description and science goals
Paletta et al. Advances in solar forecasting: Computer vision with deep learning
CN111829964A (zh) 一种分布式遥感卫星系统
JP2024067780A (ja) 画像認識システム
Bar et al. Target detection and verification via airborne hyperspectral and high-resolution imagery processing and fusion
Meyer et al. Satellite-based high-resolution mapping of rainfall over southern Africa
WO2023150888A1 (en) System and method for firefighting and locating hotspots of a wildfire
CA2377700A1 (en) Direct broadcast imaging satellite system apparatus and method for providing real time continuous monitoring of earth from geostationary earth orbit and related services
CN117574317A (zh) 一种基于星空地多模态数据融合的山火监测方法和装置
WO2022107620A1 (ja) データ解析装置および方法、並びに、プログラム
CN111815525A (zh) 一种基于场景的辐射定标方法和系统
US20220003895A1 (en) Wind vector prediction method using artificial intelligence network and analysis apparatus
JP7520649B2 (ja) 気象情報処理装置、気象情報処理システム、気象情報処理方法及び気象情報処理プログラム
Wang et al. Framework to create cloud-free remote sensing data using passenger aircraft as the platform
Seiz Ground-and satellite-based multi-view photogrammetric determination of 3D cloud geometry
Dovis et al. Stratospheric platforms: a novel technological support for Earth observation and remote sensing applications
Raja Cloud-Based Remote Sensing: Developments and Challenges—Research Point of View
Amrich et al. Design and construction of hardware and software for autonomous observations of Transient Luminous Events