JP2024505633A - 画像処理システム - Google Patents

画像処理システム Download PDF

Info

Publication number
JP2024505633A
JP2024505633A JP2023542985A JP2023542985A JP2024505633A JP 2024505633 A JP2024505633 A JP 2024505633A JP 2023542985 A JP2023542985 A JP 2023542985A JP 2023542985 A JP2023542985 A JP 2023542985A JP 2024505633 A JP2024505633 A JP 2024505633A
Authority
JP
Japan
Prior art keywords
region
interest
event
image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023542985A
Other languages
English (en)
Inventor
リチャード ブリスマン
シアン ライアン
ポール キールティ
ジョセフ レムリー
Original Assignee
フォトネーション リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フォトネーション リミテッド filed Critical フォトネーション リミテッド
Publication of JP2024505633A publication Critical patent/JP2024505633A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

頭部姿勢又は視線などの分類を生成するために顔の特徴を分析するための近赤外線(NIR)カメラ及びイベントカメラなどのフレームベースのカメラからの画像情報を融合するマルチモーダル畳み込みニューラルネットワーク(CNN)を開示する。ニューラルネットワークは、各カメラから取得された画像フレームを複数の畳み込み層を通じて処理して、1又は2以上の中間画像のそれぞれの組を提供する。ネットワークは、融合セルのアレイを通じて、画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを融合させる。各融合セルは、各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして融合出力を提供するように訓練される。ニューラルネットワークは、関心領域の1又は2以上のタスク出力を生成するように構成された少なくとも1つのタスクネットワークをさらに含む。【選択図】 図1

Description

本発明は、画像処理システムに関する。
マルチモーダル融合アーキテクチャを使用して複数の異なるセンサからの情報を融合させると、異なるセンサからのセンサ融合がシステム内の個々のセンサの利点を生かしてこれらの欠点を最小化することができるため、単一センサベースのアーキテクチャに比べて性能が向上するだけでなく、同じタイプのセンサを重複させるよりも高い冗長度がもたらされる。
C.Zhang、Z.Yang、X.He及びL.Deng著、「マルチモーダルインテリジェンス:表現学習、情報融合及び応用(Multimodal intelligence:Representation learning, information fusion, and applications)」、IEEE J.Sel.Top.Signal Process、2020年には、異なるユニモーダルセンサからの情報を単一表現に統合することが開示されている。
J.-M.Perez-Rua、V.Vielzeuf、S.Pateux、M.Baccouche及びF.Jurie著、「MFAS:マルチモーダル融合アーキテクチャサーチ(Multimodal fusion architecture search)」、Proceedings of the IEEE Conference on computer vision and pattern recognition、2019年、6966~6975頁には、ネットワークが文脈情報に基づいて異なるモダリティの重み付け方法を決定するコアテンションメカニズム(co-attention mechanism)が開示されている。
R.A.Jacobs、M.I.Jordan、S.J.Nowlan及びG.E.Hinton著、「ローカルエキスパートの適応的混合(Adaptive mixtures of local experts)」、Neural Comput.、第3巻、第1号、79~87頁、1991年には、情報が識別レベル(decision-level)で融合されるコアテンションメカニズムが開示されている。
J.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「情報融合のためのゲート付きマルチモーダルユニット(Gated multimodal units for information fusion)」、arXiv Prepr.arXiv1702.01992、2017年、並びにJ.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「ゲート付きマルチモーダルネットワーク(Gated multimodal networks)」、Neural Comput.Appl.、1~20頁、2020年には、画像及びテキスト入力を使用してネットワーク内のあらゆるレベルでの特徴レベルの融合を可能にするゲート付きマルチモーダルユニット(GMU)が提案されている。GMUは、どのモダリティが特定の入力にとって有用な情報を有しているかを決定する潜在的変数(latent variable)を学習することができる。
A.Valada、A.Dhall及びW.Burgard著、「ロバストな意味的セグメンテーションのためのディープエキスパートの複雑な混合(Convoluted mixture of deep experts for robust semantic segmentation)」、IEEE/RSJ International conference on Intelligent Robots and Systems (IROS) workshop、全ての地形モバイルロボットのための状態推定及び地形予測(state estimation and terrain perception for all terrain mobile robots)、2016年、23頁には、各「エキスパート」(モダリティ)にいつ、どの程度依拠すべきであるかを決定する適応的ゲーティングネットワークを含むネットワークが提案されている。
V.Vielzeuf、A.Lechervy、S.Pateux及びF.Jurie著、「セントラルネット:マルチモーダル融合のための多層アプローチ(Centralnet:a multilayer approach for multimodal fusion)」、Proceedings of the European Conference on Computer Vision (ECCV)、2018年、575~589頁には、各モダリティの個々のネットワークからの情報を複数の層において融合するマルチモーダルネットワークアーキテクチャが開示されている。
R.Ranjan、S.Sankaranarayan、C.D.Castillo及びR.Chellappa著、「顔分析のためのオールインワン畳み込みニューラルネットワーク(An all-in-one convolutional neural network for face analysis)」、2017、第12回IEEE International Conference on Automatic Face & Gesture Recognition(FG 2017)、2017年、17~24頁、並びにR.Ranjan、V.M.Patel及びR.Chellappa著、「Hyperface:顔検出、ランドマーク定位、ポーズ推定及び性別認識のための深層マルチタスク学習アーキテクチャ(Hyperface:A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition)」、IEEE Trans. Pattern Anal. Mach. Intell.、第41巻、第1号、121~135頁、2017年に開示されているAll-in-One及びHyperface-ResNetネットワークアーキテクチャは、それぞれニューラルネットワークの中間層の融合を応用するものである。
イベントカメラとのマルチモーダル融合に関する文献は限られている。S.Pini、G.Borghi及びR.Vezzani著、「イベントによる見る力の学び:イベントカメラ及びRGBカメラからのカラーフレーム合成(Learn to see by events:Color frame synthesis from event and RGB cameras)」、International Joint Conference on Computer Vision、Imaging and Computer Graphics Theory and Applications、2020年、第4巻、37~47頁は、2つの入力チャネルとして連結されたRGB及びイベントをネットワークに供給するものである。イベントフレームは、固定された時間ウィンドウを使用して形成される。このため、イベントカメラの主要特性の多く、すなわち時間分解能及び速い動きへの応答性が排除される。
欧州特許第3440833号明細書 国際公開第2019/145516号 国際公開第2019/180033号 米国特許出願公開第16/904,122号明細書 米国特許出願公開第16/941,799号明細書 米国特許出願第17/037,420号明細書 国際公開第2019/145578号 米国特許出願公開第16/544,238号明細書
C.Zhang、Z.Yang、X.He及びL.Deng著、「マルチモーダルインテリジェンス:表現学習、情報融合及び応用(Multimodal intelligence:Representation learning, information fusion, and applications)」、IEEE J.Sel.Top.Signal Process、2020年 J.-M.Perez-Rua、V.Vielzeuf、S.Pateux、M.Baccouche及びF.Jurie著、「MFAS:マルチモーダル融合アーキテクチャサーチ(Multimodal fusion architecture search)」、Proceedings of the IEEE Conference on computer vision and pattern recognition、2019年、6966~6975頁 R.A.Jacobs、M.I.Jordan、S.J.Nowlan及びG.E.Hinton著、「ローカルエキスパートの適応的混合(Adaptive mixtures of local experts)」、Neural Comput.、第3巻、第1号、79~87頁、1991年 J.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「情報融合のためのゲート付きマルチモーダルユニット(Gated multimodal units for information fusion)」、arXiv Prepr.arXiv1702.01992、2017年 J.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「ゲート付きマルチモーダルネットワーク(Gated multimodal networks)」、Neural Comput.Appl.、1~20頁、2020年 A.Valada、A.Dhall及びW.Burgard著、「ロバストな意味的セグメンテーションのためのディープエキスパートの複雑な混合(Convoluted mixture of deep experts for robust semantic segmentation)」、IEEE/RSJ International conference on Intelligent Robots and Systems (IROS) workshop、全ての地形モバイルロボットのための状態推定及び地形予測(state estimation and terrain perception for all terrain mobile robots)、2016年、23頁 V.Vielzeuf、A.Lechervy、S.Pateux及びF.Jurie著、「セントラルネット:マルチモーダル融合のための多層アプローチ(Centralnet:a multilayer approach for multimodal fusion)」、Proceedings of the European Conference on Computer Vision (ECCV)、2018年、575~589頁 R.Ranjan、S.Sankaranarayan、C.D.Castillo及びR.Chellappa著、「顔分析のためのオールインワン畳み込みニューラルネットワーク(An all-in-one convolutional neural network for face analysis)」、2017、第12回IEEE International Conference on Automatic Face & Gesture Recognition(FG 2017)、2017年、17~24頁 R.Ranjan、V.M.Patel及びR.Chellappa著、「Hyperface:顔検出、ランドマーク定位、ポーズ推定及び性別認識のための深層マルチタスク学習アーキテクチャ(Hyperface:A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition)」、IEEE Trans. Pattern Anal. Mach. Intell.、第41巻、第1号、121~135頁、2017年 S.Pini、G.Borghi及びR.Vezzani著、「イベントによる見る力の学び:イベントカメラ及びRGBカメラからのカラーフレーム合成(Learn to see by events:Color frame synthesis from event and RGB cameras)」、International Joint Conference on Computer Vision、Imaging and Computer Graphics Theory and Applications、2020年、第4巻、37~47頁 Posch,C、Serrano-Gotarredona,T.、Linares-Barranco,B.及びDelbruck,T.著、「網膜イベントベースのビジョンセンサ:スパイク出力を有する生体模倣カメラ(Retinomorphic event-based vision sensors: bioinspired cameras with spiking output)」、Proceedings of the IEEE、102(10)、1470~1484、(2014年) Scheerlinck,C.、Rebecq,H.、Gehrig,D.、Barnes,N.、Mahony,R.及びScaramuzza,D.著、2020年、「イベントカメラを用いた高速画像再構成(Fast image reconstruction with an event camera)」、IEEE Winter Conference on Applications of Computer Vision(156~163頁)
本発明によれば、請求項1に記載の画像処理システムが提供される。
第2の態様では、請求項16に記載の画像処理方法、及びこの方法を実行するように構成されたコンピュータプログラム製品が提供される。
本発明の実施形態は、頭部姿勢又は視線などの分類を生成するために顔の特徴を分析するための近赤外線(NIR)カメラ及びイベントカメラなどのフレームベースのカメラからの情報を融合させるマルチモーダル畳み込みニューラルネットワーク(CNN)を含むことができる。
フレームベースのカメラは、イベントカメラに比べて時間分解能に限界があり、従ってカメラの視野内の物体が高速で移動している最中にぶれを生じやすい。一方で、イベントカメラは物体の動きには最も適しているが、物体が静止しているときには情報を生成しない。
本発明の実施形態は、CNNの中間層を融合させ、提供された入力に基づいて各センサに重要度を割り当てることによって、両者の利点を活用するものである。
本発明の実施形態は、ネットワークを通じて複数のレベルの中間層からセンサアテンションマップ(sensor attention maps)を生成する。
実施形態は、ドライバーモニタリングシステム(DMS)に特に適する。NIRは、DMSにおいて使用されることが多い標準的なカメラである。これらの標準的なフレームベースのカメラは被写体ぶれ(motion blur)を生じやすい。このことは、車両の衝突又はその他の安全上重要な高速イベントにおいて特に顕著である。これとは逆に、イベントカメラはシーンダイナミクス(scene dynamics)に適合し、ドライバーを非常に高い時間分解能で正確に追跡することができる。しかしながら、イベントカメラは、例えばドライバーの注意力を判定するために、低速で動いている又は静止している物体をモニタすることには特に適していない。
実施形態は、両モダリティを、各モダリティの利点を取り入れて欠点を最小化できる統合CNNに融合させる。この結果、DMSに実装された場合、ネットワークが通常運転と衝突などの稀なイベントとを正確に分析することができる。
さらに、イベントカメラの出力に基づいて非同期的に推論を実行することができ、従ってネットワークが固定レートで実行するのではなくシーンダイナミクスに適合することができる。
これにより、DMSは、車両衝突中にドライバーの状態を感知して理解し、正確な負傷の推定又は自律システムの介入を行うことができる。
実施形態は、DMSと同様に、車両/歩行者の検出及び追跡などの自律走行目的での外部モニタリングを含む他のタスクにも応用することができる。
以下、添付図面を参照しながら本発明の実施形態を一例として説明する。
本発明の実施形態による、フレームベースのNIRカメラ及びイベントカメラによって提供された情報を融合させるシステムを示す図である。 図1のシステム内で使用されるマルチモーダル顔分析のためのネットワークを示す図である。 本発明の実施形態に従って検出できる顔のランドマークを示す図である。
図1に、本発明の実施形態による画像処理システム10を示す。システム10は、この事例では近赤外(NIR)波長を感知して、典型的には30フレーム/秒(fps)~場合によっては最大240fpsのレートなどの周期的間隔で情報のフレームを生成するカメラである、フレームベースのカメラ12を含む。なお、フレームレートは、例えば文脈又は環境条件などに応じて時間と共に変化し、例えば低光条件下では高フレームレートが不可能又は不適切な場合があり、一般にカメラ12によって取得されてシステムの残り部分に提供されるデータは、視野内のいずれかの活動にかかわらずカメラの視野全体に及ぶ情報のフレームを含むと理解されるであろう。また、別の実装では、フレームベースのカメラが可視波長などの他の波長を感知し、RGB、YUV、LCC又はLABフォーマットを含むいずれかの好適なフォーマットで、単色の強度のみのフレーム情報又は多色フレーム情報のいずれかを提供することができると理解されるであろう。
システムは、例えばPosch,C、Serrano-Gotarredona,T.、Linares-Barranco,B.及びDelbruck,T.著、「網膜イベントベースのビジョンセンサ:スパイク出力を有する生体模倣カメラ(Retinomorphic event-based vision sensors: bioinspired cameras with spiking output)」、Proceedings of the IEEE、102(10)、1470~1484、(2014年)、欧州特許第3440833号、Prophesee社からの国際公開第2019/145516号及び国際公開第2019/180033号に開示されているタイプのイベントカメラ14を含むこともできる。このようなカメラは、画素値の変化が一定の閾値を上回るときには常に個々の画素からの画像情報を非同期的に出力することに基づく。従って、「イベントカメラ」の画素は、強度変化のx、y位置、タイムスタンプ及び極性を特徴とする強度変化の非同期的「イベント」ストリームをレポートする。
イベントカメラ14は、フレームカメラ12と同様にNIR波長又は可視波長を感知し、単色イベント情報又は多色のRGB、イベント情報などを提供することができる。
イベントは、場合によってはイメージセンサのクロック周期と同程度の頻度で非同期的に発生することができ、本明細書ではイベントが発生し得る最小期間を「イベント周期」と呼ぶ。
カメラ12、14の各々は、ドライバーモニタリングシステム(DMS)内で採用される場合、バックミラー上又はその近傍に車両キャビンの前方に向かって取り付けられ、キャビンの乗員に向かって後方を向くことができる。
カメラ12、14はやや間隔を空けることができ、この立体的視点は、以下で詳細に説明するような乗員の頭部姿勢の検出などの特定のタスクを支援することができる。
それにもかかわらず、一般にカメラ12、14のそれぞれの視野は、キャビン内の典型的な位置範囲にあるときに車両内の1又は2以上の関心乗員の顔をそれぞれ撮像できる程度に実質的に重なり合うと理解されるであろう。
また、それにもかかわらず、カメラ12、14は個別ユニットである必要はなく、いくつかの実装では、iniVation.comにおいて入手可能なDavis346カメラなどの単一の統合センサを使用してフレームカメラ及びイベントカメラの機能を提供することもできると理解されたい。当然ながら、これによって二重光学システムの必要性を抑えることができる。
説明したように、イベントカメラ14は、カメラ12によって提供される情報のフレームではなく、個々のイベントの発生時にこれらのイベントのストリームを提供する。
本発明の実施形態では、イベントカメラ14によって取得され提供されたこのイベント情報がイベントアキュムレータ16によって蓄積され、この蓄積されたイベント情報を使用してテクスチャタイプ画像情報を再構成し、この情報がシステムによるさらなる処理のために画像フレームフォーマット18で提供される。
周知のニューラルネットワークベースのイベントカメラ再構成方法としては、Scheerlinck,C.、Rebecq,H.、Gehrig,D.、Barnes,N.、Mahony,R.及びScaramuzza,D.著、2020年、「イベントカメラを用いた高速画像再構成(Fast image reconstruction with an event camera)」、IEEE Winter Conference on Applications of Computer Vision(156~163頁)において説明されている、イベント情報から画像フレーム情報を提供するE2VID及びFirenetが挙げられる。
イベント情報を蓄積してフレーム情報を提供する方法及びシステムのさらなる例は、2020年6月17日に出願された米国特許出願第16/904,122号(参照番号:FN-662-US)の一部継続出願である2020年7月29日に出願された米国特許出願第16/941,799号の一部継続出願である2020年9月29日に出願された「イベントカメラのための物体検出(Object Detection for Event Cameras)」という名称の米国特許出願第17/037,420号に開示されている。これらのシステムは、イベントカメラの視野内の顔領域などの関心領域を識別し、例えば20,000個などの指定数のイベントが顔領域内で蓄積されると、顔領域のテクスチャ画像フレームを生成することができる。
イベントアキュムレータ16は、このような1つの方法を使用して、イベントアキュムレータ16が画像フレーム18を提供するためにイベントを取得する時間ウィンドウ内に顔領域内の各画素位置において発生するイベントのカウントを保持する。この時間ウィンドウ中に各画素位置において発生するイベントの正味極性(net polarity)を決定し、カウントの関数としての各画素位置の減衰因子(decay factor)を生成する。この減衰因子を、現在の時間ウィンドウの前に顔領域について生成されたテクスチャ画像に適用し、各画素位置において発生するイベントの正味極性を減衰したテクスチャ画像の対応する位置に加算して、現在の時間ウィンドウのテクスチャ画像を生成する。これにより、イベントアキュムレータ16によって提供されるフレーム18内の画素が、モーションメモリの一形態として時間ウィンドウにわたって情報を維持できるようになるのに対し、カメラ12によって生成される画像フレームは、フレームの露光ウィンドウ(exposure window)からの比較的瞬間的な情報しか含まない。
カウントを使用して減衰因子を生成することに加えて又は代えて、画像フレーム18を蓄積する際にイベントを時間の関数として減衰させることもできる。
DMSシステムでは、顔のランドマーク、頭部姿勢、視線及びいずれかのオクルージョン(occlusion)などの車両乗員の顔領域の位置及び特性が最大の関心事であるため、これらの方法は本出願にとって特に有用である。
それにもかかわらず、本発明のいくつかの実施形態では、これらに代えて又は加えて、フレームベースのカメラ12からのフレーム情報を有する検出器を使用してカメラ12の視野内の顔領域などの1又は2以上の関心領域を識別し、カメラ12、14の空間的関係及びそれぞれのカメラモデルを考慮してこれらの関心領域をカメラ14の視野内の対応する領域にマッピングすることにより、イベントカメラ14の視野内の1又は2以上の顔領域のイベント情報をそれぞれの画像フレーム内に蓄積することもできる。
なお、フレームベースのカメラ12から取得されたフレームは、カメラ12のために設定されたフレームレートに従って周期的に到着すると理解されるであろう。一方で、イベントアキュムレータ16は、フレーム18を非同期的に、理論的には1イベントサイクル程度の小時間分解能で生成することができる。
イベントカメラ14の視野内の関心領域内に大量の動きが存在する場合、イベントアキュムレータ16は極めて頻繁に、とにかくフレームベースのカメラ12によって生成されるよりも頻繁にフレーム18を生成することができる。
本発明の実施形態では、アキュムレータ16によって提供される最新のフレーム、及びフレームベースのカメラ12によって提供される最新のフレームに図2のニューラルネットワーク20が適用される。
このことは、十分な物体の動きを前提として、フレームカメラ12によって新たなNIR画像フレームが提供される前にニューラルネットワーク20を複数回実行できることを意味する。
それにもかかわらず、本発明のいくつかの実施形態では、カメラ12から提供されるフレーム間の間隔内に更新済みフレーム18がイベントアキュムレータ16によって提供されなかった場合、最新のNIR画像を使用してネットワーク20を再実行するとともに、イベントアキュムレータ16によって生成された最後の利用可能なフレームを要求し、或いはその最後のフレーム以降に生成されたイベントが存在する場合にはどのようなイベントであろうとそのイベントに基づいて必要な関心領域のフレームを生成するようにイベントアキュムレータ16に要求することができる。
このことは、ネットワーク20が動きにかかわらずカメラ12の最低限のフレームレートで動作することを意味する。従って、30fpsで動作しているカメラ12では、20,000個のイベントを蓄積するために要した経過時間が(30fpsと同等の)0.033秒よりも大きい場合にネットワーク20が実行される。
いずれの場合にも、イベントカメラ14によって提供されたシーンダイナミクスにネットワーク20が反応している間は、ごく最近に取得されたNIR画像が使用される。この結果、イベント画像フレームは「予定よりも早い(ahead of time)」傾向になり、基本的にNIR画像+動きを表す。
このカメラ12によって提供される画像フレームとイベントアキュムレータ16によって提供される画像フレームとの間の時間的なずれを問題とみなすこともできるが、以下の説明からは、カメラ12、14の視野内で検出されたいずれかの顔の特性を決定する際に、この時間的なずれによって本出願の手法が悪影響を受けることはないと理解されるであろう。
次に図2をさらに詳細に参照すると、ネットワーク20は、フレームカメラ12によって検出された顔領域に対応する画像フレームを受け取るための第1の入力、及びイベントアキュムレータ16によって提供されたフレーム内で検出された顔領域に対応する画像フレームを受け取るための第2の入力という2つの入力を含む。
図で分かるように、各入力は強度のみの224×224の画像を含み、従って各顔領域画像フレームは、ネットワーク20への提供前に、必要に応じて正しい解像度で提供されるようにアップサンプリング/ダウンサンプリング(正規化)する必要がある。
各入力画像フレームは、2つ又は3つの畳み込み層の4つの連続ブロックを含むネットワークによって処理され、ブロックi=1~3の各々の後には不完全なVGG-16ネットワークと同様にマックスプール層が続く。
図2では、適用可能な場合、各ブロックが、カーネルサイズ(3×3)、レイヤタイプ(Conv/MaxPool)、出力フィルタ数(32、64、128、256)、及びカーネルストライド(kernel stride)(\2)を表示する。
なお、各入力を処理するネットワークの構造は同じであるが、各畳み込み層のカーネル内で使用される重みは一致しない場合もあり、理解されるようにこれらはネットワークの訓練中に学習される。
ブロックi=1の中間出力(xv、xt)は、単純な畳み込み22に融合されて融合出力hiを生成する。
ブロックi=2、3及び4の中間出力は、これらの直前のブロックの融合出力(hi-1)と共に、それぞれのゲート付きマルチモーダルユニット(Gated Multimodal Unit:GMU)24-2、24-3、24-4を使用して融合される。各GMU24は、上記で引用したAreval他において提案される、図2の右側に詳細に示すタイプのGMUセルのアレイを含む。各GMUセルは、ベクトルxv、xt及びhi-1のそれぞれの要素に接続されて、そのセルの融合出力hiを生成し、
v=tanh(Wv・xv
t=tanh(Wt・xt
z=σ(Wz・[xv,xt])
i=hi-1*(z*hv+(1-z)*ht
であり、
{Wv,Wt,Wz}は学習済みパラメータであり、
[・,・]は連結演算子を表し、
σは、セルhiの出力全体に対する特徴xv,xtの寄与を制御するゲートニューロンを表す。
これらのGMU24は、ネットワーク20がモダリティを組み合わせ、より良い推定値を与える可能性が高いモダリティを重視することを可能にする。
従って、例えば大きな動きを体験しているシーンでは、カメラ12によって提供される画像フレームがぼやけて低コントラストを示す傾向にあると予想される。このようなぼやけたフレームの取得時又はその後にイベントアキュムレータによって提供される1又は2以上のフレームはいずれもシャープでなければならず、従ってネットワーク20は、これらの状況においてネットワークのイベントカメラ側からのこのようなフレームからの情報を優先するように好適な訓練セットを使用して訓練することができる。
一方で、動きの少ない時間中には、GMU24は、イベントアキュムレータ16によって提供される最後に利用可能な画像フレームよりもフレームカメラ12からの高コントラスト画像の方にはるかに強く重み付けする傾向にあり、従ってたとえフレームカメラ12からのシャープな画像を処理する際に時代不明の画像フレームが利用可能な場合でも、GMU24はこの画像情報に強く重み付けしない傾向にある。いずれにせよ、シーン内に存在していた動きが少なければ少ないほど、イベントカメラ14からのいずれかの画像情報がフレームカメラ12から利用可能な情報を劣化させる傾向も低下する。
さらに、各畳み込みブロックxv、xtの出力、並びに畳み込み層22及びGMU24の融合出力hiは、個々の要素が相互接続されたそれぞれのベクトルを含むので、このことは、カメラ12及びイベントアキュムレータ16によって提供されたそれぞれの画像の異なる空間領域に対して異なるように応答する可能性をネットワークに与える。
図2のネットワークでは、畳み込み層22及びGMU24によってセンサ情報が結合され、ネットワーク内で4つの異なるレベルで重み付けされる。これにより、1つのセンサ12、14の低レベル特徴及び別のセンサの高レベル特徴を重視することが可能になり、或いはその逆も同様である。それにもかかわらず、リアルタイム性能を高めるようにネットワークアーキテクチャを変更し、初期の層においてGMU融合を1回又は2回のみ適用して計算コストを削減することができると理解されるであろう。
なお、GMU24-2及び24-3の出力と入力との間、並びにGMU24-3及び24-4の出力と入力との間には、ブロック3及び4の中間出力のダウンサンプリングに一致させるために畳み込み26-1及び26-2が実行される。
GMU24-4における最終的な特徴融合後には、1×1の畳み込み28を使用して、最終的なGMUによって提供される特徴ベクトルの次元を低減する。
この実施形態では、畳み込み28によって提供される特徴ベクトルを、1又は2以上の個別のタスク固有チャネルに供給することができる。
このようなチャネルの例示的な一般的構造を図2の右上に示す。
一般に、このような各チャネルは、1又は2以上のさらなる畳み込み層と、それに続く1又は2以上の完全連結(fc)層とを含むことができ、最後の完全連結層の1つ又はノードが必要な出力を提供する。
この構造を使用して決定できる例示的な顔の特徴としては、以下に限定するわけではないが、頭部姿勢、視線及びオクルージョンが挙げられる。
頭部姿勢及び視線は、頭部姿勢の場合にはそれぞれ頭部のピッチ角、ヨー角及びロール角に対応する3(x,y,z)の出力層ノードを使用して、視線の場合には目のヨー角及びピッチ角に対応する2(x,y)の出力層ノードを使用してそれぞれ表すことができる。
頭部姿勢の正確な推定は、頭部の角速度の計算を可能にする。従って、例えば衝突中の頭部の初期方向を知ることで、衝突時にDMSがより知的なアクションを行うための文脈情報を得ることができる。
視線角度は、ドライバーが衝突を予期していたかどうかに関する情報を提供することができる。例えば、追突中にドライバーがバックミラーを見ていれば、衝突の可能性を認識していたことを示すことができる。システムは、衝突物体に向かう瞳孔サッカード(pupil saccades)を追跡することで、反応までの時間、及び自律緊急ブレーキなどの先進運転支援システム(ADAS)の介入が必要であるかどうかを計算することができる。
なお、頭部姿勢及び視線は、いずれもネットワークに提供される顔領域画像内に現れる通りの顔について決定され、従って相対的なものである。頭部の絶対位置又は視線の絶対角度を提供するには、画像平面とカメラ12、14との間の関係の知識が必要である。
オクルージョンは、(乗員が眼鏡をかけている)目のオクルージョンを示すもの、及び(乗員がマスクを着けているように見える)口のオクルージョンを示すものに対応するそれぞれの出力ノード(x又はy)によって示すことができる。
他の形態の顔特徴としては、国際公開第2019/145578号(参照番号:FN-630-PCT)及び2019年8月19日に出願された「ニューラルネットワークを用いた画像処理方法(Method of image processing using a neural network)」という名称の米国特許出願公開第16/544,238号で説明されているものなどの、例えば図3に示すような顔領域の周辺の一連の関心点の位置を含む顔のランドマークが挙げられる。
しかしながら、このようなランドマークを生成するために、畳み込み層24によって生成された特徴ベクトルを、2019年8月16日に出願された「ニューラルネットワークを用いた画像処理方法」という名称の米国特許出願公開第16/544,238号(文献:FN-651-US)に開示されているタイプのネットワークのデコーダネットワーク及び完全連結ネットワークに有益に提供することもでき、この文献の開示は引用により本明細書に組み入れられる。
訓練に関連して言えば、この事例では視線、頭部姿勢及び顔のオクルージョンという個々のタスクの学習効率及び性能はマルチタスク学習によって高められる。
ネットワーク20が訓練時に1つのカメラをいつ他のカメラよりも信頼すべきであるかを学習するように、NIRカメラ12の限界(ぶれ)及びイベントカメラ14の限界(動きなし)を考慮することが望ましい。従って、以下の補強方法を取り入れることができる。
1.IRカメラ12に対する依拠を促すには、限られた動きを反映するように訓練セットのいくつかの部分のイベント数を制限することができる。アテンションメカニズムは、イベント数が少ない場合にはNIRカメラの方に重きを置くはずである。
2.ベントカメラに対する依拠を促すには、NIRカメラ12の訓練セットの他の部分にランダムな被写体ぶれを適用して非常に速い物体の動きを反映させることができる。このことは、NIRがぶれに弱く時間分解能に欠ける衝突中に当てはまるはずである。
上記の実施形態は、2つのモダリティを融合させるという観点から説明したものであるが、2つよりも多くの入力を融合させるように畳み込み層22及びGMU24のセルを拡張して、2つよりも多くのモダリティを融合させるようにネットワーク20を拡張することもできると理解されるであろう。
10 画像処理システム
12 フレームベースのカメラ
14 イベントカメラ
16 イベントアキュムレータ
18 画像フレームフォーマット
20 ニューラルネットワーク

Claims (17)

  1. 画像処理システムであって、
    カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、
    実質的に共通の視野を有し、視野内のx、y位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラと、
    前記共通の視野内の関心領域を識別する検出器と、
    前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のx、y位置、該x、y位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するアキュムレータと、
    前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るように構成され、複数の畳み込み層を介して各画像フレームを処理して、1又は2以上の中間画像のそれぞれの組を提供するように構成され、前記画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セルのアレイを通じて融合させるようにさらに構成されたニューラルネットワークであって、最終的な中間画像の組から前記融合出力を受け取り、前記関心領域のための1又は2以上のタスク出力を生成するように構成された少なくとも1つのタスクネットワークをさらに含むニューラルネットワークと、
    を備えるシステム。
  2. 前記中間画像のペアの各融合セルは、以前の中間画像のペアからの融合出力のそれぞれの要素にさらに接続される、
    請求項1に記載のシステム。
  3. 各融合セルは、
    v=tanh(Wv・xv
    t=tanh(Wt・xt
    z=σ(Wz・[xv,xt])
    i=hi-1*(z*hv+(1-z)*ht
    との関数に従って前記セルの融合出力hiを生成するように構成され、
    v,xtは各中間画像の要素値であり、
    {Wv、Wt、Wz}は学習済みパラメータであり、
    i-1は前の中間画像のペアからの融合出力の要素値であり、
    [・,・]は連結演算子を示し、
    σはゲートニューロンを表す、
    請求項1に記載のシステム。
  4. 前記ニューラルネットワークは、畳み込み層を通じて第1の中間画像の組を融合させるように構成される、
    請求項2に記載のシステム。
  5. 前記ニューラルネットワークは、前記複数の畳み込み層間に1又は2以上のプーリング層をさらに含む、
    請求項1に記載のシステム。
  6. 前記フレームベースのカメラからの前記画像フレーム及び前記アキュムレータからの前記画像フレームの解像度を前記ニューラルネットワークが必要とするサイズに一致させるようにさらに構成される、
    請求項1に記載のシステム。
  7. 前記関心領域は顔領域を含む、
    請求項1に記載のシステム。
  8. 頭部姿勢、視線、又は顔のオクルージョンを示すもののうちの1つを提供するそれぞれのタスクネットワークを備える、
    請求項7に記載のシステム。
  9. 各タスクネットワークは1又は2以上の畳み込み層を含み、これらに1又は2以上の完全接続層が後続する、
    請求項8に記載のシステム。
  10. 前記頭部姿勢タスクネットワークの出力層は3つの出力ノードを含み、前記視線タスクネットワークの出力層は2つの出力ノードを含み、前記顔のオクルージョンを示すタスクネットワークの出力層は、オクルージョンの各タイプについての出力ノードを含む、
    請求項9に記載のシステム。
  11. 前記顔領域の顔ランドマークの組を提供するタスクネットワークを備える、
    請求項7に記載のシステム。
  12. 前記検出器は、前記フレームベースのカメラによって提供された前記画像フレーム内の関心領域を識別するように構成される、
    請求項1に記載のシステム。
  13. 前記検出器は、前記イベントカメラによって提供されたイベント情報から関心領域を識別するように構成される、
    請求項1に記載のシステム。
  14. 前記フレームベースのカメラは近赤外(NIR)波長を感知する、
    請求項1に記載のシステム。
  15. 請求項1に記載の画像処理システムを備えたドライバーモニタリングシステムであって、前記画像処理システムは、前記1又は2以上のタスク出力を先進運転支援システム(ADAS)に提供するように構成される、
    ドライバーモニタリングシステム。
  16. カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、実質的に共通の視野を有し、イベントカメラの視野内のx、y位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラとを備えたシステムにおいて動作可能な画像処理方法であって、
    前記共通の視野内の関心領域を識別するステップと、
    前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のx、y位置、前記x、y位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するステップと、
    前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るステップと、
    複数の畳み込み層を通じて各画像フレームを処理して、1又は2以上の中間画像のそれぞれの組を提供するステップと、
    前記画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セルのアレイを通じて融合させるステップと、
    最終的な中間画像のペアから前記融合出力を受け取るステップと、
    前記関心領域のための1又は2以上のタスク出力を生成するステップと、
    を含む方法。
  17. コンピュータ可読媒体上に記憶されたコンピュータ可読命令を含むコンピュータプログラム製品であって、前記コンピュータ可読命令は、コンピュータ装置上で実行されたときに請求項16のステップを実行するように構成される、
    コンピュータプログラム製品。
JP2023542985A 2021-01-13 2021-10-14 画像処理システム Pending JP2024505633A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/148,465 2021-01-13
US17/148,465 US11768919B2 (en) 2021-01-13 2021-01-13 Image processing system
PCT/EP2021/078422 WO2022111909A1 (en) 2021-01-13 2021-10-14 An image processing system

Publications (1)

Publication Number Publication Date
JP2024505633A true JP2024505633A (ja) 2024-02-07

Family

ID=78179424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023542985A Pending JP2024505633A (ja) 2021-01-13 2021-10-14 画像処理システム

Country Status (4)

Country Link
US (2) US11768919B2 (ja)
EP (1) EP4035071B1 (ja)
JP (1) JP2024505633A (ja)
WO (1) WO2022111909A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661336A (zh) * 2022-09-21 2023-01-31 华为技术有限公司 一种三维重建方法及相关装置
CN117893856A (zh) * 2022-10-14 2024-04-16 华为技术有限公司 信号处理方法、装置、设备、存储介质及计算机程序
CN115900968B (zh) * 2022-10-28 2023-09-29 华中科技大学 一种面向远距小目标探测的红外事件-辐射双模成像系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8427538B2 (en) * 2004-04-30 2013-04-23 Oncam Grandeye Multiple view and multiple object processing in wide-angle video camera
EP2995079A4 (en) * 2013-05-10 2017-08-23 Robert Bosch GmbH System and method for object and event identification using multiple cameras
JP6943875B2 (ja) 2016-04-04 2021-10-06 プロフジー サンプルホールドに基づく時間コントラスト視覚センサ
JP7357624B2 (ja) 2018-01-26 2023-10-06 プロフジー イベントベースセンサからの信号を処理する方法および装置
EP3543898A1 (en) 2018-03-21 2019-09-25 Robert Bosch Gmbh Fast detection of secondary objects that may intersect the trajectory of a moving primary object
US10684681B2 (en) 2018-06-11 2020-06-16 Fotonation Limited Neural network image processing apparatus
US11107205B2 (en) * 2019-02-18 2021-08-31 Samsung Electronics Co., Ltd. Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames
US11302009B2 (en) 2019-08-19 2022-04-12 Fotonation Limited Method of image processing using a neural network

Also Published As

Publication number Publication date
EP4035071C0 (en) 2023-12-06
US20220222496A1 (en) 2022-07-14
WO2022111909A1 (en) 2022-06-02
EP4035071A1 (en) 2022-08-03
US20230394120A1 (en) 2023-12-07
US11768919B2 (en) 2023-09-26
EP4035071B1 (en) 2023-12-06

Similar Documents

Publication Publication Date Title
US11768919B2 (en) Image processing system
EP3438948B1 (en) Image processing apparatus, image processing method, and mobile body
JP7032387B2 (ja) 単眼動画データに基づく車両の挙動推定システム及び方法
JP7011578B2 (ja) 運転行動を監視する方法及びシステム
WO2019149061A1 (en) Gesture-and gaze-based visual data acquisition system
Moeys et al. Steering a predator robot using a mixed frame/event-driven convolutional neural network
Rangesh et al. Driver gaze estimation in the real world: Overcoming the eyeglass challenge
WO2017208529A1 (ja) 運転者状態推定装置、運転者状態推定システム、運転者状態推定方法、運転者状態推定プログラム、対象者状態推定装置、対象者状態推定方法、対象者状態推定プログラム、および記録媒体
CN113396423A (zh) 处理来自基于事件的传感器的信息的方法
US11301702B2 (en) Object detection for event cameras
WO2017209225A1 (ja) 状態推定装置、状態推定方法、及び状態推定プログラム
Rangesh et al. Gaze preserving CycleGANs for eyeglass removal and persistent gaze estimation
JPWO2020085028A1 (ja) 画像認識装置および画像認識方法
WO2018168038A1 (ja) 運転者の着座判定装置
US11270137B2 (en) Event detector and method of generating textural image based on event count decay factor and net polarity
CN113361441A (zh) 基于头部姿态和空间注意力的视线区域估计方法及系统
JP2023531293A (ja) 視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体
JP7309817B2 (ja) 自動車の車体の運動を検出するための方法、システム及びコンピュータプログラム
TWI786893B (zh) 艙內監控與情境理解感知方法及其系統
EP4211664B1 (en) Method for identifying a gesture
WO2022097489A1 (ja) 画像処理装置、画像処理方法
KR102475961B1 (ko) 이미지 처리 방법, 및 이를 이용하는 장치 및 프로그램
WO2023243393A1 (ja) 認識装置、認識システム及びコンピュータープログラム
Hijaz et al. Driver Visual Focus of Attention Estimation in Autonomous Vehicles
Zajic et al. Video-based assistance for autonomous driving

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230914