JP2024505633A

JP2024505633A - 画像処理システム

Info

Publication number: JP2024505633A
Application number: JP2023542985A
Authority: JP
Inventors: リチャードブリスマン; シアンライアン; ポールキールティ; ジョセフレムリー
Original assignee: フォトネーションリミテッド
Priority date: 2021-01-13
Filing date: 2021-10-14
Publication date: 2024-02-07
Also published as: EP4035071C0; US20220222496A1; WO2022111909A1; EP4035071A1; US20230394120A1; US11768919B2; EP4035071B1

Abstract

頭部姿勢又は視線などの分類を生成するために顔の特徴を分析するための近赤外線（ＮＩＲ）カメラ及びイベントカメラなどのフレームベースのカメラからの画像情報を融合するマルチモーダル畳み込みニューラルネットワーク（ＣＮＮ）を開示する。ニューラルネットワークは、各カメラから取得された画像フレームを複数の畳み込み層を通じて処理して、１又は２以上の中間画像のそれぞれの組を提供する。ネットワークは、融合セルのアレイを通じて、画像フレームの各々から生成された中間画像の少なくとも１つの対応するペアを融合させる。各融合セルは、各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして融合出力を提供するように訓練される。ニューラルネットワークは、関心領域の１又は２以上のタスク出力を生成するように構成された少なくとも１つのタスクネットワークをさらに含む。【選択図】図１

Description

本発明は、画像処理システムに関する。

マルチモーダル融合アーキテクチャを使用して複数の異なるセンサからの情報を融合させると、異なるセンサからのセンサ融合がシステム内の個々のセンサの利点を生かしてこれらの欠点を最小化することができるため、単一センサベースのアーキテクチャに比べて性能が向上するだけでなく、同じタイプのセンサを重複させるよりも高い冗長度がもたらされる。

Ｃ．Ｚｈａｎｇ、Ｚ．Ｙａｎｇ、Ｘ．Ｈｅ及びＬ．Ｄｅｎｇ著、「マルチモーダルインテリジェンス：表現学習、情報融合及び応用（Ｍｕｌｔｉｍｏｄａｌｉｎｔｅｌｌｉｇｅｎｃｅ：Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ，ｉｎｆｏｒｍａｔｉｏｎｆｕｓｉｏｎ，ａｎｄａｐｐｌｉｃａｔｉｏｎｓ）」、ＩＥＥＥＪ．Ｓｅｌ．Ｔｏｐ．ＳｉｇｎａｌＰｒｏｃｅｓｓ、２０２０年には、異なるユニモーダルセンサからの情報を単一表現に統合することが開示されている。

Ｊ．－Ｍ．Ｐｅｒｅｚ－Ｒｕａ、Ｖ．Ｖｉｅｌｚｅｕｆ、Ｓ．Ｐａｔｅｕｘ、Ｍ．Ｂａｃｃｏｕｃｈｅ及びＦ．Ｊｕｒｉｅ著、「ＭＦＡＳ：マルチモーダル融合アーキテクチャサーチ（Ｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎａｒｃｈｉｔｅｃｔｕｒｅｓｅａｒｃｈ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ、２０１９年、６９６６～６９７５頁には、ネットワークが文脈情報に基づいて異なるモダリティの重み付け方法を決定するコアテンションメカニズム（ｃｏ－ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）が開示されている。

Ｒ．Ａ．Ｊａｃｏｂｓ、Ｍ．Ｉ．Ｊｏｒｄａｎ、Ｓ．Ｊ．Ｎｏｗｌａｎ及びＧ．Ｅ．Ｈｉｎｔｏｎ著、「ローカルエキスパートの適応的混合（Ａｄａｐｔｉｖｅｍｉｘｔｕｒｅｓｏｆｌｏｃａｌｅｘｐｅｒｔｓ）」、ＮｅｕｒａｌＣｏｍｐｕｔ．、第３巻、第１号、７９～８７頁、１９９１年には、情報が識別レベル（ｄｅｃｉｓｉｏｎ－ｌｅｖｅｌ）で融合されるコアテンションメカニズムが開示されている。

Ｊ．Ａｒｅｖａｌｏ、Ｔ．Ｓｏｌｏｒｉｏ、Ｍ．Ｍｏｎｔｅｓ－ｙ－Ｇｏｍｅｚ及びＦ．Ａ．Ｇｏｎｚａｌｅｚ著、「情報融合のためのゲート付きマルチモーダルユニット（Ｇａｔｅｄｍｕｌｔｉｍｏｄａｌｕｎｉｔｓｆｏｒｉｎｆｏｒｍａｔｉｏｎｆｕｓｉｏｎ）」、ａｒＸｉｖＰｒｅｐｒ．ａｒＸｉｖ１７０２．０１９９２、２０１７年、並びにＪ．Ａｒｅｖａｌｏ、Ｔ．Ｓｏｌｏｒｉｏ、Ｍ．Ｍｏｎｔｅｓ－ｙ－Ｇｏｍｅｚ及びＦ．Ａ．Ｇｏｎｚａｌｅｚ著、「ゲート付きマルチモーダルネットワーク（Ｇａｔｅｄｍｕｌｔｉｍｏｄａｌｎｅｔｗｏｒｋｓ）」、ＮｅｕｒａｌＣｏｍｐｕｔ．Ａｐｐｌ．、１～２０頁、２０２０年には、画像及びテキスト入力を使用してネットワーク内のあらゆるレベルでの特徴レベルの融合を可能にするゲート付きマルチモーダルユニット（ＧＭＵ）が提案されている。ＧＭＵは、どのモダリティが特定の入力にとって有用な情報を有しているかを決定する潜在的変数（ｌａｔｅｎｔｖａｒｉａｂｌｅ）を学習することができる。

Ａ．Ｖａｌａｄａ、Ａ．Ｄｈａｌｌ及びＷ．Ｂｕｒｇａｒｄ著、「ロバストな意味的セグメンテーションのためのディープエキスパートの複雑な混合（Ｃｏｎｖｏｌｕｔｅｄｍｉｘｔｕｒｅｏｆｄｅｅｐｅｘｐｅｒｔｓｆｏｒｒｏｂｕｓｔｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）」、ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ（ＩＲＯＳ）ｗｏｒｋｓｈｏｐ、全ての地形モバイルロボットのための状態推定及び地形予測（ｓｔａｔｅｅｓｔｉｍａｔｉｏｎａｎｄｔｅｒｒａｉｎｐｅｒｃｅｐｔｉｏｎｆｏｒａｌｌｔｅｒｒａｉｎｍｏｂｉｌｅｒｏｂｏｔｓ）、２０１６年、２３頁には、各「エキスパート」（モダリティ）にいつ、どの程度依拠すべきであるかを決定する適応的ゲーティングネットワークを含むネットワークが提案されている。

Ｖ．Ｖｉｅｌｚｅｕｆ、Ａ．Ｌｅｃｈｅｒｖｙ、Ｓ．Ｐａｔｅｕｘ及びＦ．Ｊｕｒｉｅ著、「セントラルネット：マルチモーダル融合のための多層アプローチ（Ｃｅｎｔｒａｌｎｅｔ：ａｍｕｌｔｉｌａｙｅｒａｐｐｒｏａｃｈｆｏｒｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）、２０１８年、５７５～５８９頁には、各モダリティの個々のネットワークからの情報を複数の層において融合するマルチモーダルネットワークアーキテクチャが開示されている。

Ｒ．Ｒａｎｊａｎ、Ｓ．Ｓａｎｋａｒａｎａｒａｙａｎ、Ｃ．Ｄ．Ｃａｓｔｉｌｌｏ及びＲ．Ｃｈｅｌｌａｐｐａ著、「顔分析のためのオールインワン畳み込みニューラルネットワーク（Ａｎａｌｌ－ｉｎ－ｏｎｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｆａｃｅａｎａｌｙｓｉｓ）」、２０１７、第１２回ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅ＆ＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ（ＦＧ２０１７）、２０１７年、１７～２４頁、並びにＲ．Ｒａｎｊａｎ、Ｖ．Ｍ．Ｐａｔｅｌ及びＲ．Ｃｈｅｌｌａｐｐａ著、「Ｈｙｐｅｒｆａｃｅ：顔検出、ランドマーク定位、ポーズ推定及び性別認識のための深層マルチタスク学習アーキテクチャ（Ｈｙｐｅｒｆａｃｅ：Ａｄｅｅｐｍｕｌｔｉ－ｔａｓｋｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋｆｏｒｆａｃｅｄｅｔｅｃｔｉｏｎ，ｌａｎｄｍａｒｋｌｏｃａｌｉｚａｔｉｏｎ，ｐｏｓｅｅｓｔｉｍａｔｉｏｎ，ａｎｄｇｅｎｄｅｒｒｅｃｏｇｎｉｔｉｏｎ）」、ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．Ｍａｃｈ．Ｉｎｔｅｌｌ．、第４１巻、第１号、１２１～１３５頁、２０１７年に開示されているＡｌｌ－ｉｎ－Ｏｎｅ及びＨｙｐｅｒｆａｃｅ－ＲｅｓＮｅｔネットワークアーキテクチャは、それぞれニューラルネットワークの中間層の融合を応用するものである。

イベントカメラとのマルチモーダル融合に関する文献は限られている。Ｓ．Ｐｉｎｉ、Ｇ．Ｂｏｒｇｈｉ及びＲ．Ｖｅｚｚａｎｉ著、「イベントによる見る力の学び：イベントカメラ及びＲＧＢカメラからのカラーフレーム合成（Ｌｅａｒｎｔｏｓｅｅｂｙｅｖｅｎｔｓ：ＣｏｌｏｒｆｒａｍｅｓｙｎｔｈｅｓｉｓｆｒｏｍｅｖｅｎｔａｎｄＲＧＢｃａｍｅｒａｓ）」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＩｍａｇｉｎｇａｎｄＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、２０２０年、第４巻、３７～４７頁は、２つの入力チャネルとして連結されたＲＧＢ及びイベントをネットワークに供給するものである。イベントフレームは、固定された時間ウィンドウを使用して形成される。このため、イベントカメラの主要特性の多く、すなわち時間分解能及び速い動きへの応答性が排除される。

欧州特許第３４４０８３３号明細書国際公開第２０１９／１４５５１６号国際公開第２０１９／１８００３３号米国特許出願公開第１６／９０４，１２２号明細書米国特許出願公開第１６／９４１，７９９号明細書米国特許出願第１７／０３７，４２０号明細書国際公開第２０１９／１４５５７８号米国特許出願公開第１６／５４４，２３８号明細書

Ｃ．Ｚｈａｎｇ、Ｚ．Ｙａｎｇ、Ｘ．Ｈｅ及びＬ．Ｄｅｎｇ著、「マルチモーダルインテリジェンス：表現学習、情報融合及び応用（Ｍｕｌｔｉｍｏｄａｌｉｎｔｅｌｌｉｇｅｎｃｅ：Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ，ｉｎｆｏｒｍａｔｉｏｎｆｕｓｉｏｎ，ａｎｄａｐｐｌｉｃａｔｉｏｎｓ）」、ＩＥＥＥＪ．Ｓｅｌ．Ｔｏｐ．ＳｉｇｎａｌＰｒｏｃｅｓｓ、２０２０年Ｊ．－Ｍ．Ｐｅｒｅｚ－Ｒｕａ、Ｖ．Ｖｉｅｌｚｅｕｆ、Ｓ．Ｐａｔｅｕｘ、Ｍ．Ｂａｃｃｏｕｃｈｅ及びＦ．Ｊｕｒｉｅ著、「ＭＦＡＳ：マルチモーダル融合アーキテクチャサーチ（Ｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎａｒｃｈｉｔｅｃｔｕｒｅｓｅａｒｃｈ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ、２０１９年、６９６６～６９７５頁Ｒ．Ａ．Ｊａｃｏｂｓ、Ｍ．Ｉ．Ｊｏｒｄａｎ、Ｓ．Ｊ．Ｎｏｗｌａｎ及びＧ．Ｅ．Ｈｉｎｔｏｎ著、「ローカルエキスパートの適応的混合（Ａｄａｐｔｉｖｅｍｉｘｔｕｒｅｓｏｆｌｏｃａｌｅｘｐｅｒｔｓ）」、ＮｅｕｒａｌＣｏｍｐｕｔ．、第３巻、第１号、７９～８７頁、１９９１年Ｊ．Ａｒｅｖａｌｏ、Ｔ．Ｓｏｌｏｒｉｏ、Ｍ．Ｍｏｎｔｅｓ－ｙ－Ｇｏｍｅｚ及びＦ．Ａ．Ｇｏｎｚａｌｅｚ著、「情報融合のためのゲート付きマルチモーダルユニット（Ｇａｔｅｄｍｕｌｔｉｍｏｄａｌｕｎｉｔｓｆｏｒｉｎｆｏｒｍａｔｉｏｎｆｕｓｉｏｎ）」、ａｒＸｉｖＰｒｅｐｒ．ａｒＸｉｖ１７０２．０１９９２、２０１７年Ｊ．Ａｒｅｖａｌｏ、Ｔ．Ｓｏｌｏｒｉｏ、Ｍ．Ｍｏｎｔｅｓ－ｙ－Ｇｏｍｅｚ及びＦ．Ａ．Ｇｏｎｚａｌｅｚ著、「ゲート付きマルチモーダルネットワーク（Ｇａｔｅｄｍｕｌｔｉｍｏｄａｌｎｅｔｗｏｒｋｓ）」、ＮｅｕｒａｌＣｏｍｐｕｔ．Ａｐｐｌ．、１～２０頁、２０２０年Ａ．Ｖａｌａｄａ、Ａ．Ｄｈａｌｌ及びＷ．Ｂｕｒｇａｒｄ著、「ロバストな意味的セグメンテーションのためのディープエキスパートの複雑な混合（Ｃｏｎｖｏｌｕｔｅｄｍｉｘｔｕｒｅｏｆｄｅｅｐｅｘｐｅｒｔｓｆｏｒｒｏｂｕｓｔｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）」、ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ（ＩＲＯＳ）ｗｏｒｋｓｈｏｐ、全ての地形モバイルロボットのための状態推定及び地形予測（ｓｔａｔｅｅｓｔｉｍａｔｉｏｎａｎｄｔｅｒｒａｉｎｐｅｒｃｅｐｔｉｏｎｆｏｒａｌｌｔｅｒｒａｉｎｍｏｂｉｌｅｒｏｂｏｔｓ）、２０１６年、２３頁Ｖ．Ｖｉｅｌｚｅｕｆ、Ａ．Ｌｅｃｈｅｒｖｙ、Ｓ．Ｐａｔｅｕｘ及びＦ．Ｊｕｒｉｅ著、「セントラルネット：マルチモーダル融合のための多層アプローチ（Ｃｅｎｔｒａｌｎｅｔ：ａｍｕｌｔｉｌａｙｅｒａｐｐｒｏａｃｈｆｏｒｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）、２０１８年、５７５～５８９頁Ｒ．Ｒａｎｊａｎ、Ｓ．Ｓａｎｋａｒａｎａｒａｙａｎ、Ｃ．Ｄ．Ｃａｓｔｉｌｌｏ及びＲ．Ｃｈｅｌｌａｐｐａ著、「顔分析のためのオールインワン畳み込みニューラルネットワーク（Ａｎａｌｌ－ｉｎ－ｏｎｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｆａｃｅａｎａｌｙｓｉｓ）」、２０１７、第１２回ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅ＆ＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ（ＦＧ２０１７）、２０１７年、１７～２４頁Ｒ．Ｒａｎｊａｎ、Ｖ．Ｍ．Ｐａｔｅｌ及びＲ．Ｃｈｅｌｌａｐｐａ著、「Ｈｙｐｅｒｆａｃｅ：顔検出、ランドマーク定位、ポーズ推定及び性別認識のための深層マルチタスク学習アーキテクチャ（Ｈｙｐｅｒｆａｃｅ：Ａｄｅｅｐｍｕｌｔｉ－ｔａｓｋｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋｆｏｒｆａｃｅｄｅｔｅｃｔｉｏｎ，ｌａｎｄｍａｒｋｌｏｃａｌｉｚａｔｉｏｎ，ｐｏｓｅｅｓｔｉｍａｔｉｏｎ，ａｎｄｇｅｎｄｅｒｒｅｃｏｇｎｉｔｉｏｎ）」、ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．Ｍａｃｈ．Ｉｎｔｅｌｌ．、第４１巻、第１号、１２１～１３５頁、２０１７年Ｓ．Ｐｉｎｉ、Ｇ．Ｂｏｒｇｈｉ及びＲ．Ｖｅｚｚａｎｉ著、「イベントによる見る力の学び：イベントカメラ及びＲＧＢカメラからのカラーフレーム合成（Ｌｅａｒｎｔｏｓｅｅｂｙｅｖｅｎｔｓ：ＣｏｌｏｒｆｒａｍｅｓｙｎｔｈｅｓｉｓｆｒｏｍｅｖｅｎｔａｎｄＲＧＢｃａｍｅｒａｓ）」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＩｍａｇｉｎｇａｎｄＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、２０２０年、第４巻、３７～４７頁Ｐｏｓｃｈ，Ｃ、Ｓｅｒｒａｎｏ－Ｇｏｔａｒｒｅｄｏｎａ，Ｔ．、Ｌｉｎａｒｅｓ－Ｂａｒｒａｎｃｏ，Ｂ．及びＤｅｌｂｒｕｃｋ，Ｔ．著、「網膜イベントベースのビジョンセンサ：スパイク出力を有する生体模倣カメラ（Ｒｅｔｉｎｏｍｏｒｐｈｉｃｅｖｅｎｔ－ｂａｓｅｄｖｉｓｉｏｎｓｅｎｓｏｒｓ：ｂｉｏｉｎｓｐｉｒｅｄｃａｍｅｒａｓｗｉｔｈｓｐｉｋｉｎｇｏｕｔｐｕｔ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ、１０２（１０）、１４７０～１４８４、（２０１４年）Ｓｃｈｅｅｒｌｉｎｃｋ，Ｃ．、Ｒｅｂｅｃｑ，Ｈ．、Ｇｅｈｒｉｇ，Ｄ．、Ｂａｒｎｅｓ，Ｎ．、Ｍａｈｏｎｙ，Ｒ．及びＳｃａｒａｍｕｚｚａ，Ｄ．著、２０２０年、「イベントカメラを用いた高速画像再構成（Ｆａｓｔｉｍａｇｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｗｉｔｈａｎｅｖｅｎｔｃａｍｅｒａ）」、ＩＥＥＥＷｉｎｔｅｒＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（１５６～１６３頁）

本発明によれば、請求項１に記載の画像処理システムが提供される。

第２の態様では、請求項１６に記載の画像処理方法、及びこの方法を実行するように構成されたコンピュータプログラム製品が提供される。

本発明の実施形態は、頭部姿勢又は視線などの分類を生成するために顔の特徴を分析するための近赤外線（ＮＩＲ）カメラ及びイベントカメラなどのフレームベースのカメラからの情報を融合させるマルチモーダル畳み込みニューラルネットワーク（ＣＮＮ）を含むことができる。

フレームベースのカメラは、イベントカメラに比べて時間分解能に限界があり、従ってカメラの視野内の物体が高速で移動している最中にぶれを生じやすい。一方で、イベントカメラは物体の動きには最も適しているが、物体が静止しているときには情報を生成しない。

本発明の実施形態は、ＣＮＮの中間層を融合させ、提供された入力に基づいて各センサに重要度を割り当てることによって、両者の利点を活用するものである。

本発明の実施形態は、ネットワークを通じて複数のレベルの中間層からセンサアテンションマップ（ｓｅｎｓｏｒａｔｔｅｎｔｉｏｎｍａｐｓ）を生成する。

実施形態は、ドライバーモニタリングシステム（ＤＭＳ）に特に適する。ＮＩＲは、ＤＭＳにおいて使用されることが多い標準的なカメラである。これらの標準的なフレームベースのカメラは被写体ぶれ（ｍｏｔｉｏｎｂｌｕｒ）を生じやすい。このことは、車両の衝突又はその他の安全上重要な高速イベントにおいて特に顕著である。これとは逆に、イベントカメラはシーンダイナミクス（ｓｃｅｎｅｄｙｎａｍｉｃｓ）に適合し、ドライバーを非常に高い時間分解能で正確に追跡することができる。しかしながら、イベントカメラは、例えばドライバーの注意力を判定するために、低速で動いている又は静止している物体をモニタすることには特に適していない。

実施形態は、両モダリティを、各モダリティの利点を取り入れて欠点を最小化できる統合ＣＮＮに融合させる。この結果、ＤＭＳに実装された場合、ネットワークが通常運転と衝突などの稀なイベントとを正確に分析することができる。

さらに、イベントカメラの出力に基づいて非同期的に推論を実行することができ、従ってネットワークが固定レートで実行するのではなくシーンダイナミクスに適合することができる。

これにより、ＤＭＳは、車両衝突中にドライバーの状態を感知して理解し、正確な負傷の推定又は自律システムの介入を行うことができる。

実施形態は、ＤＭＳと同様に、車両／歩行者の検出及び追跡などの自律走行目的での外部モニタリングを含む他のタスクにも応用することができる。

以下、添付図面を参照しながら本発明の実施形態を一例として説明する。

本発明の実施形態による、フレームベースのＮＩＲカメラ及びイベントカメラによって提供された情報を融合させるシステムを示す図である。図１のシステム内で使用されるマルチモーダル顔分析のためのネットワークを示す図である。本発明の実施形態に従って検出できる顔のランドマークを示す図である。

図１に、本発明の実施形態による画像処理システム１０を示す。システム１０は、この事例では近赤外（ＮＩＲ）波長を感知して、典型的には３０フレーム／秒（ｆｐｓ）～場合によっては最大２４０ｆｐｓのレートなどの周期的間隔で情報のフレームを生成するカメラである、フレームベースのカメラ１２を含む。なお、フレームレートは、例えば文脈又は環境条件などに応じて時間と共に変化し、例えば低光条件下では高フレームレートが不可能又は不適切な場合があり、一般にカメラ１２によって取得されてシステムの残り部分に提供されるデータは、視野内のいずれかの活動にかかわらずカメラの視野全体に及ぶ情報のフレームを含むと理解されるであろう。また、別の実装では、フレームベースのカメラが可視波長などの他の波長を感知し、ＲＧＢ、ＹＵＶ、ＬＣＣ又はＬＡＢフォーマットを含むいずれかの好適なフォーマットで、単色の強度のみのフレーム情報又は多色フレーム情報のいずれかを提供することができると理解されるであろう。

システムは、例えばＰｏｓｃｈ，Ｃ、Ｓｅｒｒａｎｏ－Ｇｏｔａｒｒｅｄｏｎａ，Ｔ．、Ｌｉｎａｒｅｓ－Ｂａｒｒａｎｃｏ，Ｂ．及びＤｅｌｂｒｕｃｋ，Ｔ．著、「網膜イベントベースのビジョンセンサ：スパイク出力を有する生体模倣カメラ（Ｒｅｔｉｎｏｍｏｒｐｈｉｃｅｖｅｎｔ－ｂａｓｅｄｖｉｓｉｏｎｓｅｎｓｏｒｓ：ｂｉｏｉｎｓｐｉｒｅｄｃａｍｅｒａｓｗｉｔｈｓｐｉｋｉｎｇｏｕｔｐｕｔ）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ、１０２（１０）、１４７０～１４８４、（２０１４年）、欧州特許第３４４０８３３号、Ｐｒｏｐｈｅｓｅｅ社からの国際公開第２０１９／１４５５１６号及び国際公開第２０１９／１８００３３号に開示されているタイプのイベントカメラ１４を含むこともできる。このようなカメラは、画素値の変化が一定の閾値を上回るときには常に個々の画素からの画像情報を非同期的に出力することに基づく。従って、「イベントカメラ」の画素は、強度変化のｘ、ｙ位置、タイムスタンプ及び極性を特徴とする強度変化の非同期的「イベント」ストリームをレポートする。

イベントカメラ１４は、フレームカメラ１２と同様にＮＩＲ波長又は可視波長を感知し、単色イベント情報又は多色のＲＧＢ、イベント情報などを提供することができる。

イベントは、場合によってはイメージセンサのクロック周期と同程度の頻度で非同期的に発生することができ、本明細書ではイベントが発生し得る最小期間を「イベント周期」と呼ぶ。

カメラ１２、１４の各々は、ドライバーモニタリングシステム（ＤＭＳ）内で採用される場合、バックミラー上又はその近傍に車両キャビンの前方に向かって取り付けられ、キャビンの乗員に向かって後方を向くことができる。

カメラ１２、１４はやや間隔を空けることができ、この立体的視点は、以下で詳細に説明するような乗員の頭部姿勢の検出などの特定のタスクを支援することができる。

それにもかかわらず、一般にカメラ１２、１４のそれぞれの視野は、キャビン内の典型的な位置範囲にあるときに車両内の１又は２以上の関心乗員の顔をそれぞれ撮像できる程度に実質的に重なり合うと理解されるであろう。

また、それにもかかわらず、カメラ１２、１４は個別ユニットである必要はなく、いくつかの実装では、ｉｎｉＶａｔｉｏｎ．ｃｏｍにおいて入手可能なＤａｖｉｓ３４６カメラなどの単一の統合センサを使用してフレームカメラ及びイベントカメラの機能を提供することもできると理解されたい。当然ながら、これによって二重光学システムの必要性を抑えることができる。

説明したように、イベントカメラ１４は、カメラ１２によって提供される情報のフレームではなく、個々のイベントの発生時にこれらのイベントのストリームを提供する。

本発明の実施形態では、イベントカメラ１４によって取得され提供されたこのイベント情報がイベントアキュムレータ１６によって蓄積され、この蓄積されたイベント情報を使用してテクスチャタイプ画像情報を再構成し、この情報がシステムによるさらなる処理のために画像フレームフォーマット１８で提供される。

周知のニューラルネットワークベースのイベントカメラ再構成方法としては、Ｓｃｈｅｅｒｌｉｎｃｋ，Ｃ．、Ｒｅｂｅｃｑ，Ｈ．、Ｇｅｈｒｉｇ，Ｄ．、Ｂａｒｎｅｓ，Ｎ．、Ｍａｈｏｎｙ，Ｒ．及びＳｃａｒａｍｕｚｚａ，Ｄ．著、２０２０年、「イベントカメラを用いた高速画像再構成（Ｆａｓｔｉｍａｇｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｗｉｔｈａｎｅｖｅｎｔｃａｍｅｒａ）」、ＩＥＥＥＷｉｎｔｅｒＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（１５６～１６３頁）において説明されている、イベント情報から画像フレーム情報を提供するＥ２ＶＩＤ及びＦｉｒｅｎｅｔが挙げられる。

イベント情報を蓄積してフレーム情報を提供する方法及びシステムのさらなる例は、２０２０年６月１７日に出願された米国特許出願第１６／９０４，１２２号（参照番号：ＦＮ－６６２－ＵＳ）の一部継続出願である２０２０年７月２９日に出願された米国特許出願第１６／９４１，７９９号の一部継続出願である２０２０年９月２９日に出願された「イベントカメラのための物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｆｏｒＥｖｅｎｔＣａｍｅｒａｓ）」という名称の米国特許出願第１７／０３７，４２０号に開示されている。これらのシステムは、イベントカメラの視野内の顔領域などの関心領域を識別し、例えば２０，０００個などの指定数のイベントが顔領域内で蓄積されると、顔領域のテクスチャ画像フレームを生成することができる。

イベントアキュムレータ１６は、このような１つの方法を使用して、イベントアキュムレータ１６が画像フレーム１８を提供するためにイベントを取得する時間ウィンドウ内に顔領域内の各画素位置において発生するイベントのカウントを保持する。この時間ウィンドウ中に各画素位置において発生するイベントの正味極性（ｎｅｔｐｏｌａｒｉｔｙ）を決定し、カウントの関数としての各画素位置の減衰因子（ｄｅｃａｙｆａｃｔｏｒ）を生成する。この減衰因子を、現在の時間ウィンドウの前に顔領域について生成されたテクスチャ画像に適用し、各画素位置において発生するイベントの正味極性を減衰したテクスチャ画像の対応する位置に加算して、現在の時間ウィンドウのテクスチャ画像を生成する。これにより、イベントアキュムレータ１６によって提供されるフレーム１８内の画素が、モーションメモリの一形態として時間ウィンドウにわたって情報を維持できるようになるのに対し、カメラ１２によって生成される画像フレームは、フレームの露光ウィンドウ（ｅｘｐｏｓｕｒｅｗｉｎｄｏｗ）からの比較的瞬間的な情報しか含まない。

カウントを使用して減衰因子を生成することに加えて又は代えて、画像フレーム１８を蓄積する際にイベントを時間の関数として減衰させることもできる。

ＤＭＳシステムでは、顔のランドマーク、頭部姿勢、視線及びいずれかのオクルージョン（ｏｃｃｌｕｓｉｏｎ）などの車両乗員の顔領域の位置及び特性が最大の関心事であるため、これらの方法は本出願にとって特に有用である。

それにもかかわらず、本発明のいくつかの実施形態では、これらに代えて又は加えて、フレームベースのカメラ１２からのフレーム情報を有する検出器を使用してカメラ１２の視野内の顔領域などの１又は２以上の関心領域を識別し、カメラ１２、１４の空間的関係及びそれぞれのカメラモデルを考慮してこれらの関心領域をカメラ１４の視野内の対応する領域にマッピングすることにより、イベントカメラ１４の視野内の１又は２以上の顔領域のイベント情報をそれぞれの画像フレーム内に蓄積することもできる。

なお、フレームベースのカメラ１２から取得されたフレームは、カメラ１２のために設定されたフレームレートに従って周期的に到着すると理解されるであろう。一方で、イベントアキュムレータ１６は、フレーム１８を非同期的に、理論的には１イベントサイクル程度の小時間分解能で生成することができる。

イベントカメラ１４の視野内の関心領域内に大量の動きが存在する場合、イベントアキュムレータ１６は極めて頻繁に、とにかくフレームベースのカメラ１２によって生成されるよりも頻繁にフレーム１８を生成することができる。

本発明の実施形態では、アキュムレータ１６によって提供される最新のフレーム、及びフレームベースのカメラ１２によって提供される最新のフレームに図２のニューラルネットワーク２０が適用される。

このことは、十分な物体の動きを前提として、フレームカメラ１２によって新たなＮＩＲ画像フレームが提供される前にニューラルネットワーク２０を複数回実行できることを意味する。

それにもかかわらず、本発明のいくつかの実施形態では、カメラ１２から提供されるフレーム間の間隔内に更新済みフレーム１８がイベントアキュムレータ１６によって提供されなかった場合、最新のＮＩＲ画像を使用してネットワーク２０を再実行するとともに、イベントアキュムレータ１６によって生成された最後の利用可能なフレームを要求し、或いはその最後のフレーム以降に生成されたイベントが存在する場合にはどのようなイベントであろうとそのイベントに基づいて必要な関心領域のフレームを生成するようにイベントアキュムレータ１６に要求することができる。

このことは、ネットワーク２０が動きにかかわらずカメラ１２の最低限のフレームレートで動作することを意味する。従って、３０ｆｐｓで動作しているカメラ１２では、２０，０００個のイベントを蓄積するために要した経過時間が（３０ｆｐｓと同等の）０．０３３秒よりも大きい場合にネットワーク２０が実行される。

いずれの場合にも、イベントカメラ１４によって提供されたシーンダイナミクスにネットワーク２０が反応している間は、ごく最近に取得されたＮＩＲ画像が使用される。この結果、イベント画像フレームは「予定よりも早い（ａｈｅａｄｏｆｔｉｍｅ）」傾向になり、基本的にＮＩＲ画像＋動きを表す。

このカメラ１２によって提供される画像フレームとイベントアキュムレータ１６によって提供される画像フレームとの間の時間的なずれを問題とみなすこともできるが、以下の説明からは、カメラ１２、１４の視野内で検出されたいずれかの顔の特性を決定する際に、この時間的なずれによって本出願の手法が悪影響を受けることはないと理解されるであろう。

次に図２をさらに詳細に参照すると、ネットワーク２０は、フレームカメラ１２によって検出された顔領域に対応する画像フレームを受け取るための第１の入力、及びイベントアキュムレータ１６によって提供されたフレーム内で検出された顔領域に対応する画像フレームを受け取るための第２の入力という２つの入力を含む。

図で分かるように、各入力は強度のみの２２４×２２４の画像を含み、従って各顔領域画像フレームは、ネットワーク２０への提供前に、必要に応じて正しい解像度で提供されるようにアップサンプリング／ダウンサンプリング（正規化）する必要がある。

各入力画像フレームは、２つ又は３つの畳み込み層の４つの連続ブロックを含むネットワークによって処理され、ブロックｉ＝１～３の各々の後には不完全なＶＧＧ－１６ネットワークと同様にマックスプール層が続く。

図２では、適用可能な場合、各ブロックが、カーネルサイズ（３×３）、レイヤタイプ（Ｃｏｎｖ／ＭａｘＰｏｏｌ）、出力フィルタ数（３２、６４、１２８、２５６）、及びカーネルストライド（ｋｅｒｎｅｌｓｔｒｉｄｅ）（＼２）を表示する。

なお、各入力を処理するネットワークの構造は同じであるが、各畳み込み層のカーネル内で使用される重みは一致しない場合もあり、理解されるようにこれらはネットワークの訓練中に学習される。

ブロックｉ＝１の中間出力（ｘ_v、ｘ_t）は、単純な畳み込み２２に融合されて融合出力ｈｉを生成する。

ブロックｉ＝２、３及び４の中間出力は、これらの直前のブロックの融合出力（ｈ_i-1）と共に、それぞれのゲート付きマルチモーダルユニット（ＧａｔｅｄＭｕｌｔｉｍｏｄａｌＵｎｉｔ：ＧＭＵ）２４－２、２４－３、２４－４を使用して融合される。各ＧＭＵ２４は、上記で引用したＡｒｅｖａｌ他において提案される、図２の右側に詳細に示すタイプのＧＭＵセルのアレイを含む。各ＧＭＵセルは、ベクトルｘｖ、ｘｔ及びｈ_i-1のそれぞれの要素に接続されて、そのセルの融合出力ｈ_iを生成し、
ｈ_v＝ｔａｎｈ（Ｗ_v・ｘ_v）
ｈ_t＝ｔａｎｈ（Ｗ_t・ｘ_t）
ｚ＝σ（Ｗ_z・［ｘ_v，ｘ_t］）
ｈ_i＝ｈ_i-1＊（ｚ＊ｈ_v＋（１－ｚ）＊ｈ_t）
であり、
｛Ｗ_v，Ｗ_t，Ｗ_z｝は学習済みパラメータであり、
［・,・］は連結演算子を表し、
σは、セルｈ_iの出力全体に対する特徴ｘ_v，ｘ_tの寄与を制御するゲートニューロンを表す。

これらのＧＭＵ２４は、ネットワーク２０がモダリティを組み合わせ、より良い推定値を与える可能性が高いモダリティを重視することを可能にする。

従って、例えば大きな動きを体験しているシーンでは、カメラ１２によって提供される画像フレームがぼやけて低コントラストを示す傾向にあると予想される。このようなぼやけたフレームの取得時又はその後にイベントアキュムレータによって提供される１又は２以上のフレームはいずれもシャープでなければならず、従ってネットワーク２０は、これらの状況においてネットワークのイベントカメラ側からのこのようなフレームからの情報を優先するように好適な訓練セットを使用して訓練することができる。

一方で、動きの少ない時間中には、ＧＭＵ２４は、イベントアキュムレータ１６によって提供される最後に利用可能な画像フレームよりもフレームカメラ１２からの高コントラスト画像の方にはるかに強く重み付けする傾向にあり、従ってたとえフレームカメラ１２からのシャープな画像を処理する際に時代不明の画像フレームが利用可能な場合でも、ＧＭＵ２４はこの画像情報に強く重み付けしない傾向にある。いずれにせよ、シーン内に存在していた動きが少なければ少ないほど、イベントカメラ１４からのいずれかの画像情報がフレームカメラ１２から利用可能な情報を劣化させる傾向も低下する。

さらに、各畳み込みブロックｘｖ、ｘｔの出力、並びに畳み込み層２２及びＧＭＵ２４の融合出力ｈｉは、個々の要素が相互接続されたそれぞれのベクトルを含むので、このことは、カメラ１２及びイベントアキュムレータ１６によって提供されたそれぞれの画像の異なる空間領域に対して異なるように応答する可能性をネットワークに与える。

図２のネットワークでは、畳み込み層２２及びＧＭＵ２４によってセンサ情報が結合され、ネットワーク内で４つの異なるレベルで重み付けされる。これにより、１つのセンサ１２、１４の低レベル特徴及び別のセンサの高レベル特徴を重視することが可能になり、或いはその逆も同様である。それにもかかわらず、リアルタイム性能を高めるようにネットワークアーキテクチャを変更し、初期の層においてＧＭＵ融合を１回又は２回のみ適用して計算コストを削減することができると理解されるであろう。

なお、ＧＭＵ２４－２及び２４－３の出力と入力との間、並びにＧＭＵ２４－３及び２４－４の出力と入力との間には、ブロック３及び４の中間出力のダウンサンプリングに一致させるために畳み込み２６－１及び２６－２が実行される。

ＧＭＵ２４－４における最終的な特徴融合後には、１×１の畳み込み２８を使用して、最終的なＧＭＵによって提供される特徴ベクトルの次元を低減する。

この実施形態では、畳み込み２８によって提供される特徴ベクトルを、１又は２以上の個別のタスク固有チャネルに供給することができる。

このようなチャネルの例示的な一般的構造を図２の右上に示す。

一般に、このような各チャネルは、１又は２以上のさらなる畳み込み層と、それに続く１又は２以上の完全連結（ｆｃ）層とを含むことができ、最後の完全連結層の１つ又はノードが必要な出力を提供する。

この構造を使用して決定できる例示的な顔の特徴としては、以下に限定するわけではないが、頭部姿勢、視線及びオクルージョンが挙げられる。

頭部姿勢及び視線は、頭部姿勢の場合にはそれぞれ頭部のピッチ角、ヨー角及びロール角に対応する３（ｘ，ｙ，ｚ）の出力層ノードを使用して、視線の場合には目のヨー角及びピッチ角に対応する２（ｘ，ｙ）の出力層ノードを使用してそれぞれ表すことができる。

頭部姿勢の正確な推定は、頭部の角速度の計算を可能にする。従って、例えば衝突中の頭部の初期方向を知ることで、衝突時にＤＭＳがより知的なアクションを行うための文脈情報を得ることができる。

視線角度は、ドライバーが衝突を予期していたかどうかに関する情報を提供することができる。例えば、追突中にドライバーがバックミラーを見ていれば、衝突の可能性を認識していたことを示すことができる。システムは、衝突物体に向かう瞳孔サッカード（ｐｕｐｉｌｓａｃｃａｄｅｓ）を追跡することで、反応までの時間、及び自律緊急ブレーキなどの先進運転支援システム（ＡＤＡＳ）の介入が必要であるかどうかを計算することができる。

なお、頭部姿勢及び視線は、いずれもネットワークに提供される顔領域画像内に現れる通りの顔について決定され、従って相対的なものである。頭部の絶対位置又は視線の絶対角度を提供するには、画像平面とカメラ１２、１４との間の関係の知識が必要である。

オクルージョンは、（乗員が眼鏡をかけている）目のオクルージョンを示すもの、及び（乗員がマスクを着けているように見える）口のオクルージョンを示すものに対応するそれぞれの出力ノード（ｘ又はｙ）によって示すことができる。

他の形態の顔特徴としては、国際公開第２０１９／１４５５７８号（参照番号：ＦＮ－６３０－ＰＣＴ）及び２０１９年８月１９日に出願された「ニューラルネットワークを用いた画像処理方法（Ｍｅｔｈｏｄｏｆｉｍａｇｅｐｒｏｃｅｓｓｉｎｇｕｓｉｎｇａｎｅｕｒａｌｎｅｔｗｏｒｋ）」という名称の米国特許出願公開第１６／５４４，２３８号で説明されているものなどの、例えば図３に示すような顔領域の周辺の一連の関心点の位置を含む顔のランドマークが挙げられる。

しかしながら、このようなランドマークを生成するために、畳み込み層２４によって生成された特徴ベクトルを、２０１９年８月１６日に出願された「ニューラルネットワークを用いた画像処理方法」という名称の米国特許出願公開第１６／５４４，２３８号（文献：ＦＮ－６５１－ＵＳ）に開示されているタイプのネットワークのデコーダネットワーク及び完全連結ネットワークに有益に提供することもでき、この文献の開示は引用により本明細書に組み入れられる。

訓練に関連して言えば、この事例では視線、頭部姿勢及び顔のオクルージョンという個々のタスクの学習効率及び性能はマルチタスク学習によって高められる。

ネットワーク２０が訓練時に１つのカメラをいつ他のカメラよりも信頼すべきであるかを学習するように、ＮＩＲカメラ１２の限界（ぶれ）及びイベントカメラ１４の限界（動きなし）を考慮することが望ましい。従って、以下の補強方法を取り入れることができる。
１．ＩＲカメラ１２に対する依拠を促すには、限られた動きを反映するように訓練セットのいくつかの部分のイベント数を制限することができる。アテンションメカニズムは、イベント数が少ない場合にはＮＩＲカメラの方に重きを置くはずである。
２．ベントカメラに対する依拠を促すには、ＮＩＲカメラ１２の訓練セットの他の部分にランダムな被写体ぶれを適用して非常に速い物体の動きを反映させることができる。このことは、ＮＩＲがぶれに弱く時間分解能に欠ける衝突中に当てはまるはずである。

上記の実施形態は、２つのモダリティを融合させるという観点から説明したものであるが、２つよりも多くの入力を融合させるように畳み込み層２２及びＧＭＵ２４のセルを拡張して、２つよりも多くのモダリティを融合させるようにネットワーク２０を拡張することもできると理解されるであろう。

１０画像処理システム
１２フレームベースのカメラ
１４イベントカメラ
１６イベントアキュムレータ
１８画像フレームフォーマット
２０ニューラルネットワーク

Claims

画像処理システムであって、
カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、
実質的に共通の視野を有し、視野内のｘ、ｙ位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラと、
前記共通の視野内の関心領域を識別する検出器と、
前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のｘ、ｙ位置、該ｘ、ｙ位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するアキュムレータと、
前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るように構成され、複数の畳み込み層を介して各画像フレームを処理して、１又は２以上の中間画像のそれぞれの組を提供するように構成され、前記画像フレームの各々から生成された中間画像の少なくとも１つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セルのアレイを通じて融合させるようにさらに構成されたニューラルネットワークであって、最終的な中間画像の組から前記融合出力を受け取り、前記関心領域のための１又は２以上のタスク出力を生成するように構成された少なくとも１つのタスクネットワークをさらに含むニューラルネットワークと、
を備えるシステム。
前記中間画像のペアの各融合セルは、以前の中間画像のペアからの融合出力のそれぞれの要素にさらに接続される、
請求項１に記載のシステム。
各融合セルは、
ｈ_v＝ｔａｎｈ（Ｗ_v・ｘ_v）
ｈ_t＝ｔａｎｈ（Ｗ_t・ｘ_t）
ｚ＝σ（Ｗ_z・［ｘ_v，ｘ_t］）
ｈ_i＝ｈ_i-1＊（ｚ＊ｈ_v＋（１－ｚ）＊ｈ_t）
との関数に従って前記セルの融合出力ｈｉを生成するように構成され、
ｘ_v，ｘ_tは各中間画像の要素値であり、
｛Ｗ_v、Ｗ_t、Ｗ_z｝は学習済みパラメータであり、
ｈ_i-1は前の中間画像のペアからの融合出力の要素値であり、
［・,・］は連結演算子を示し、
σはゲートニューロンを表す、
請求項１に記載のシステム。
前記ニューラルネットワークは、畳み込み層を通じて第１の中間画像の組を融合させるように構成される、
請求項２に記載のシステム。
前記ニューラルネットワークは、前記複数の畳み込み層間に１又は２以上のプーリング層をさらに含む、
請求項１に記載のシステム。
前記フレームベースのカメラからの前記画像フレーム及び前記アキュムレータからの前記画像フレームの解像度を前記ニューラルネットワークが必要とするサイズに一致させるようにさらに構成される、
請求項１に記載のシステム。
前記関心領域は顔領域を含む、
請求項１に記載のシステム。
頭部姿勢、視線、又は顔のオクルージョンを示すもののうちの１つを提供するそれぞれのタスクネットワークを備える、
請求項７に記載のシステム。
各タスクネットワークは１又は２以上の畳み込み層を含み、これらに１又は２以上の完全接続層が後続する、
請求項８に記載のシステム。
前記頭部姿勢タスクネットワークの出力層は３つの出力ノードを含み、前記視線タスクネットワークの出力層は２つの出力ノードを含み、前記顔のオクルージョンを示すタスクネットワークの出力層は、オクルージョンの各タイプについての出力ノードを含む、
請求項９に記載のシステム。
前記顔領域の顔ランドマークの組を提供するタスクネットワークを備える、
請求項７に記載のシステム。
前記検出器は、前記フレームベースのカメラによって提供された前記画像フレーム内の関心領域を識別するように構成される、
請求項１に記載のシステム。
前記検出器は、前記イベントカメラによって提供されたイベント情報から関心領域を識別するように構成される、
請求項１に記載のシステム。
前記フレームベースのカメラは近赤外（ＮＩＲ）波長を感知する、
請求項１に記載のシステム。
請求項１に記載の画像処理システムを備えたドライバーモニタリングシステムであって、前記画像処理システムは、前記１又は２以上のタスク出力を先進運転支援システム（ＡＤＡＳ）に提供するように構成される、
ドライバーモニタリングシステム。
カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、実質的に共通の視野を有し、イベントカメラの視野内のｘ、ｙ位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラとを備えたシステムにおいて動作可能な画像処理方法であって、
前記共通の視野内の関心領域を識別するステップと、
前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のｘ、ｙ位置、前記ｘ、ｙ位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するステップと、
前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るステップと、
複数の畳み込み層を通じて各画像フレームを処理して、１又は２以上の中間画像のそれぞれの組を提供するステップと、
前記画像フレームの各々から生成された中間画像の少なくとも１つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セルのアレイを通じて融合させるステップと、
最終的な中間画像のペアから前記融合出力を受け取るステップと、
前記関心領域のための１又は２以上のタスク出力を生成するステップと、
を含む方法。
コンピュータ可読媒体上に記憶されたコンピュータ可読命令を含むコンピュータプログラム製品であって、前記コンピュータ可読命令は、コンピュータ装置上で実行されたときに請求項１６のステップを実行するように構成される、
コンピュータプログラム製品。