JP2023047657A

JP2023047657A - ノイズ除去装置及びプログラム

Info

Publication number: JP2023047657A
Application number: JP2021156701A
Authority: JP
Inventors: 建鋒徐; Kenho Jo; 賢史小森田; Masashi Komorida
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-04-06

Abstract

【課題】微細な対象に注目する場合であっても、イベントカメラデータから効果的にノイズ除去を行うノイズ除去装置を提供する。【解決手段】ノイズ除去装置１０は、共通のシーンを撮影してそれぞれ画像及びイベントカメラデータを取得する通常カメラ１１及びイベントカメラ１２と、前記画像から所定対象を包含する包含領域を検出する領域検出部２と、イベントカメラデータのうち画像に対応する時間範囲にあるデータについて、前記包含領域に属する第１データと第１データ以外の第２データとに区別して、第１データを第１手法によりノイズ除去し、当該第２データを第２手法によりノイズ除去するノイズ除去部４と、を備える。【選択図】図３

Description

本発明は、イベントカメラデータからノイズ除去を行うノイズ除去装置及びプログラムに関する。

近年、より高速に計測対象物の視覚信号を生成する技術として、非特許文献１に開示されるイベントカメラが知られている。イベントカメラは生物の網膜構造にヒントを得て開発された。図１に模式例を示す通り、イベントカメラの出力は、輝度が所定の閾値TH以上に変化した場合の時刻、画素の位置、極性（輝度が小さくなったか大きくなったか）を表す非同期のデータ列である。

図１では、ある１つの画素位置(x,y)に固定して、この画素(x,y)でセンシングされている輝度値のグラフ例より、この画素(x,y)からイベントカメラの出力として、グラフ上の時刻t1,t2,…,t8にあるそれぞれのデータ点d1,d2,…,d8が非同期な形で離散的に出力される例が示されている。これらデータ点d1,d2,…,d8は、図１のグラフ中に輝度値を等間隔（前述の閾値THの幅での等間隔）に区切って示す横線（点線で描く）をグラフが横切った時刻t1,t2,…,t8で出力されるものである。

すなわち、ある１つの画素位置(x,y)において、イベントカメラ出力が発生する時刻系列をt_k(k=1,2,…)とし、当該時刻t_kでの輝度値をd_k(k=1,2,…)とすると、イベントカメラ出力される時系列における隣接時刻t_k, t_k+1での輝度値d_k及びd_k+1の関係は以下の通りである。
「d_k+1=d_k+TH」または「d_k+1=d_k-TH」

換言すれば、イベントカメラにおけるある画素位置(x,y)において、時刻t_kにおいて輝度値d_kを有するものとしてイベントカメラデータ出力が発生したものとし、時刻t_k以降での同位置(x,y)での輝度値の時間変化の挙動をモニタし、初めて輝度値d_kからの変化が閾値THを超えた時刻が、次の時刻t_k+1として、次のイベントカメラデータ出力が発生するものとなる。

そして、イベントカメラ出力においては前述の通り、離散的に出力された各時刻のデータにおいて、当該時刻での輝度値が、前の時刻での輝度値から閾値THだけ増加したか、または逆に閾値THだけ減少したか、の２値情報も極性として出力される。図１の例では例えば、時刻t1のデータd1は、前時刻t0のデータd0よりも輝度値が閾値THだけ増加したことをトリガとして出力されたものであるため、増加する方向の極性であり、その次の時刻t2のデータd2は、前時刻t1よりも輝度値が閾値THだけ減少したことをトリガとして出力されたものであるため、減少する方向の極性である。図１では増減の極性に関して増加を上矢印（↑）、減少を下矢印（↓）で模式的に示している。

以上の図１の例は、ある１つの画素(x,y)を固定してイベントカメラ出力を観察したものであるが、画像範囲内の全ての画素(x,y)について同様の出力が得られることにより、イベントカメラ出力は一般に、以下のような形式のデータとなる。

上記データにおいてt_k≦t_k+1であり、イベントカメラ出力データはすなわち、時間軸上でk番目の時刻t_kにおいて、画素位置(x_k,y_k)において極性p_k（増加↑または減少↓）の輝度値変化があったことを意味するものとなる。なお、Nは一定期間に渡ってイベントカメラの撮影を行って得られたデータの総数である。（撮影状況に全く変化がなく、ノイズ影響等もなかった場合は、N=0となってイベントカメラ出力が空データとなる場合もありうる。）

なお、t_k≦t_k+1≦t_k+2≦…であることから、同一時刻で２つ以上の異なる画素位置においてイベントカメラ出力が発生した場合も、不等号「≦」において等号「=」に該当する場合として、２つ以上の異なる連続したインデクスk,k+1,…が同一時刻（t_k=t_k+1=…）、異なる画素位置及び当該異なる画素位置での極性に紐づくことで、イベントカメラデータ上に記録することができる。例えば、同一時刻t=1秒においてある画素位置(0,0)で増加「↑」極性のイベントカメラデータが発生し、且つ、別の画素位置(1,1)で減少「↓」のイベントカメラデータが発生した場合、これら２個の同時時刻データに例えばk=1,2のインデクスが割り当てられたうえで、（t₁＝t₂＝1秒として）以下のように記録することができる。
(x₁,y₁,t₁,p₁)=(0, 0, 1秒, ↑)
(x₂,y₂,t₂,p₂)=(1, 1, 1秒, ↓)

このような構成により、イベントカメラは、従来のカメラのように輝度変化のない画素情報、つまり冗長なデータは出力しないといった特徴があるため、データ通信量の軽減や画像処理の軽量化等が実現されることで、より高速に計測対象物の画像を生成することができる。

よって、イベントカメラの出力(x_k,y_k,t_k,p_k)は、従来のカメラが映像として得る各時刻t（t=1,2,…）での出力画像P(x,y)(0≦x≦W-1, 0≦y≦H-1, ここでW,Hは画像の横幅、縦幅の画素数、P(x,y)は画素値)と比較して、空間的に非常にスパース（疎）であり、データ量が非常に少ない。また、イベントカメラは、従来のカメラと比較して、時間解像度が非常に高く（例えば、マイクロミリ秒オーダ）、ダイナミックレンジが高いという特性がある。すなわち、イベントカメラは、従来のカメラと比較して、少データ量、高時間解像度、ハイダイナミックレンジ（HDR）という特性を有している。これらの特性は、瞬時ないしリアルタイムに画像処理をして移動体を検知することにとって非常に重要である。

一方、イベントカメラデータの中にノイズが多いという欠点もある。基本的に、ノイズはランダム的に発生し、時空間的に他のデータとの相関が小さいという特徴がある。逆に、撮影したオブジェクトの変化による出力されたデータは、例えばオブジェクトが形成するエッジが時間経過に伴ってオブジェクトと共に移動する等の形で現れるものであるため、時空間に隣接する他のデータとの相関が強い特徴がある。

このような欠点に対して近年、イベントカメラデータに対するノイズ除去（Denoising）技術が開発された。非特許文献２，３，４は学習不要かつ処理が速いフィルタを使ってノイズを除去する。例えば、非特許文献２では、不応期フィルタ（Refractory Period Filter）と最近傍フィルタ（Nearest Neighbor (NNb) Filter）の二層フィルタを用いてノイズを除去する。このような学習不要のフィルタ方式はパラメータ調整が必要である。また、非特許文献５，６は学習が必要となるディープニューラルネットワーク（CNN）を使う。例えば、非特許文献５はRGB画像からノイズの尤度を算出し、正解（Ground truth）として用いることでディープニューラルネットワーク（CNN）を学習させる。

Lichtsteiner, P.; Posch, C.; Delbruck, T. (February 2008). "A 128×128 120 dB 15μs Latency Asynchronous Temporal Contrast Vision Sensor". IEEE Journal of Solid-State Circuits. 43 (2): 566-576. Padala, V., Basu, A., & Orchard, G. (2018). A noise filtering algorithm for event-based asynchronous change detection image sensors on truenorth and its implementation on truenorth. Frontiers in neuroscience, 12, 118. Wang, Y., Du, B., Shen, Y., Wu, K., Zhao, G., Sun, J., & Wen, H. (2019). EV-gait: Event-based robust gait recognition using dynamic vision sensors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6358-6367). Chen, G., Hong, L., Dong, J., Liu, P., Conradt, J., & Knoll, A. (2020). EDDD: Event-based drowsiness driving detection through facial motion analysis with neuromorphic vision sensor. IEEE sensors journal, 20(11), 6170-6181. Baldwin, R., Almatrafi, M., Asari, V., & Hirakawa, K. (2020). Event probability mask (epm) and event denoising convolutional neural network (edncnn) for neuromorphic cameras. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1701-1710). Duan, P., Wang, Z. W., Zhou, X., Ma, Y., & Shi, B. (2021). EventZoom: Learning to Denoise and Super Resolve Neuromorphic Events. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12824-12833). Sun, X., Wu, P., & Hoi, S. C. (2018). Face detection using deep learning: An improved faster RCNN approach. Neurocomputing, 299, 42-50. An improved faster RCNN approach. Neurocomputing, 299, 42-50.Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). Canny, J., A Computational Approach To Edge Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6):679-698, 1986.

しかしながら、従来技術におけるイベントカメラデータのノイズ除去は、画像範囲内において均一に処理することを前提としているため、イベントカメラデータを利用して画像範囲内における小さなオブジェクトを追跡する等の用途を想定した場合に、このような小さなオブジェクトに起因する小さい信号変化とノイズとを適切に区別することが困難であった。

図２は、追跡対象としての小さいオブジェクトの例を示す図である。画像P1は会議室でテーブルに向って会議する３人の人物であり、イベントカメラがこの画像P1で表現される範囲を撮影している際に、追跡対象オブジェクトとして３人の人物のそれぞれの目を追跡することを考える。この目の範囲は画像P1の下側に同一サイズの範囲R1内において４つの黒丸の領域で模式的に示されるように、イベントカメラが撮影している範囲全体との比較において非常に小さい領域となってしまう。

前述の通り、従来技術のノイズ除去では、この図２に目の場合を例として示すような、イベントカメラの撮影範囲と比較して小さいオブジェクト（イベントカメラデータ上においても微細なデータとなる）を追跡したい場合に、適切にノイズ除去することができなかった。

例えば、非特許文献２のフィルタの手法では、パラメータ調整により、フィルタの強さをコントロールできる。しかし、強いフィルタを設定すると、微細なデータをノイズと誤認し、ノイズと共に削除されてしまう。一方で逆に、弱いフィルタを設定すると、ノイズも沢山残ってしまい、フィルタ後の処理として微細なデータを認識しようとしても、その認識精度を低下させてしまう。

従来技術のその他のノイズ手法も上記の非特許文献２の場合と同様に、小さいオブジェクトに注目している場合に、その領域が小さいことを考慮せずに空間的に（考慮するサイズ的に）均一なノイズ除去を施してしまうことから、小さい変化の信号とノイズとの区別が困難であり、適切なノイズ除去結果を得ることができなかった。

前記従来技術の課題に鑑み、本発明は、微細な対象に注目する場合であっても、イベントカメラデータから効果的にノイズ除去を行うことのできるノイズ除去装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、共通のシーンを撮影する通常カメラ及びイベントカメラがそれぞれ取得する画像及びイベントカメラデータを用いて、当該イベントカメラデータからノイズ除去を行うノイズ除去装置であって、前記画像より、所定対象を包含する包含領域を検出する検出部と、前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータについて、前記包含領域に属する第１データと、当該第１データ以外の第２データと、に区別して、当該第１データは第１手法によりノイズ除去し、当該第２データは第２手法によりノイズ除去するノイズ除去部と、を備えることを特徴とする。また、コンピュータを前記ノイズ除去装置として機能させるプログラムであることを特徴とする。

本発明によれば、微細な対象を所定対象とし、これを包含する包含領域と、この包含領域以外の領域とでノイズ除去手法を区別してイベントカメラデータからノイズ除去を行うことにより、微細な対象に注目する場合であっても、イベントカメラデータから効果的にノイズ除去を行うことができる。

イベントカメラの出力の模式例を示す図である。追跡対象としての小さいオブジェクトの例を示す図である。一実施形態に係るノイズ除去装置の機能ブロック図である。一実施形態に係るノイズ除去装置の動作のフローチャートである。時間軸上でのマッピング処理を模式的に示す図である。図２の画像例に対応するものとして、各領域の検出結果の模式例を示す図である。一般的なコンピュータにおけるハードウェア構成を示す図である。

図３は、一実施形態に係るノイズ除去装置10の機能ブロック図であり、図示するように、ノイズ除去装置10は、通常カメラ11及びイベントカメラ12を含む入力データ取得部1と、微細領域包含領域検出部21、エッジ領域検出部22及び他領域検出部23を含む領域検出部2と、マッピング部3と、微細領域包含領域ノイズ除去部41、エッジ領域ノイズ除去部42及び他領域ノイズ除去部43並びに後処理部44を含むノイズ除去部4と、を備える。

なお、ノイズ除去装置10を利用する想定応用例として例えば以下が可能である。

前掲の図２の画像P1に模式的に示されるように、会議室や教室で設置された専用イベントカメラから人物の眼球運動を検出し、会議参加者の視線分析や生徒の注意力分析を実現する利用シーンを想定する。画像P1のように従来のRGB画像のみを使うと、顔検出が出来ても、領域R1として示されるように眼の領域は微細であるため、眼球運動の検出が困難である。イベントカメラを併用すると、眼球運動の検出も可能になるが、イベントカメラデータのノイズが多いため、イベントカメラデータのノイズ除去を前処理として実施するのが望ましく、本実施形態のノイズ除去装置10ではこのような用途のためのノイズ除去が可能である。

ただし、上記は一例に過ぎず、本実施形態のノイズ除去装置10は一定時間に小さい物体・人物部位の微細な動き（例えば、高速のボールや蚊など虫の動き、顔の微表情、眼球運動、瞬きなど）を映したRGB画像とイベントカメラデータをアラインメントして（紐づけて）収録するという前提であれば、他の応用例にも適用できる。

図４は、一実施形態に係るノイズ除去装置10の動作のフローチャートである。以下、図４の各ステップを説明しながら、ノイズ除去装置10の各部の処理の詳細について説明する。

ステップS1では、通常カメラ11及びイベントカメラ12において、それぞれが取得するデータにデータ取得時のタイムスタンプを付与するのに用いる時計の時刻同期を行い、両カメラ11,12においてリアルタイムでの撮影を開始してからステップS2へと進む。

すなわち、ステップS1以降において、通常カメラ11ではリアルタイムの各時刻T(i)(i=1,2,3…)において撮影を行い、RGB画像等で構成される通常画像P(T(i))を取得し、イベントカメラ12も撮影を開始することでリアルタイムのイベントカメラデータ(x_k,y_k,t_k,p_k)(k=0,1,2,…)を取得する。この通常カメラ11の画像の時刻T(i)と、イベントカメラ12のデータの時刻t_kとが共通の時計のものとして与えられることで、時刻の前後関係を共通の時間軸上において判定可能となるように、ステップS1では時計合わせを行う。

なお、通常カメラ11とイベントカメラ12とは、共通のシーンを撮影するように同一位置に配置しておくことにより、画素の位置の対応関係が得られるようにしておくものとする。すなわち、通常カメラ11の画素位置(x,y)と、イベントカメラデータ(x_k,y_k,t_k,p_k)における画素位置(x_k,y_k)とは、ピクセル単位で、あるいはサブピクセル単位で、対応関係が与えられるように、両カメラ11,12を予め配置しておくものとする。例えば通常カメラ11が図２の画像P1のように会議室を撮影している場合であれば、イベントカメラ12も同様の配置で会議室の撮影を行うものとする。

このような通常カメラ11とイベントカメラ12との座標位置合わせは、既製の機器を用いて実現することもできる。一例として、iniVation社のDAVIS346 COLORでは、346 x 260の解像度で同時にイベントカメラデータとRGB画像を出力する。イベントカメラデータは非同期的に出力され、RGB画像は40fpsで出力される。各画素が同じセンサーを使っているため、空間的にマッピングされる。よって、RGB画像の領域情報はそのままでイベントカメラデータにも使える。

ステップS1でリアルタイムの撮影を開始した通常カメラ11及びイベントカメラ12について、通常カメラ11が得る各時刻T(i)(i=1,2,…)の画像は領域検出部2へ出力され、イベントカメラ12が得るイベントカメラデータ(x_k,y_k,t_k,p_k)(k=0,1,2,…)はマッピング部3へと出力される。

ステップS2以降のステップS2～S5は、ノイズ除去装置10によるリアルタイムでのノイズ除去の処理が、通常カメラ11で撮影されるリアルタイムの各時刻T(i)(i=1,2,…)の画像に紐づいた各時刻T(i)について繰り返し実行される形となる。ステップS2では、当該リアルタイムで処理すべき対象となるデータを入力データとして取得してから、ステップS3へと進む。

ステップS2ではすなわち、入力データ取得部1において各時刻T(i)(i=1,2,3…)の処理対象となるデータとして、通常カメラ11からRGB画像等の１枚の通常画像P(T(i))を取得し、これに対応する時間範囲のデータとして、イベントカメラ12からイベントカメラデータD(i)={(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)], k=0,1,2,…,N-1}を取得する。（なお、Nは取得されたイベントカメラデータD(t)の総数である。）

ここで、既存技術としての「イベントカメラ」に関して図１等を参照して既に説明した通り、イベントカメラ12のデータ(x_k,y_k,t_k,p_k)は、通常画像P(T(i))よりも空間的にはスパースであるが時間解像度は高い傾向があるため、以下に示すように、通常画像P(T(i))の離散的な撮像タイミングT(i),T(i+1)の間に、多数（N個）のイベントカメラの要素データが存在しうることとなる。
T(i)≦t₀≦t₁≦t₂≦…≦t_N-2≦t_N-1≦T(i+1)

ステップS2ではさらに、マッピング部3が、イベントカメラ12からリアルタイムで得られているイベントカメラデータ(x_k,y_k,t_k,p_k)より、上記の通り通常画像P(T(i))の撮影時間範囲に相当する時間区間[T(t),T(t+1)]に属する（t_k∈[T(t),T(t+1)]となる）ようなデータD(i)を取得する。この取得結果は時間軸上でのマッピング結果としてノイズ除去部4へと出力される。

なお、マッピング部3の処理は、通常カメラ11の画像とイベントカメラ12のデータとの対応付け（マッピング）である。マッピング部3では当該ステップS2における時間軸上でのマッピングに加えて、次のステップS3での領域検出結果を得てからの空間上（画像座標上）でのマッピングも行う。

図５は当該ステップS2におけるマッピング部3によるマッピング処理（時間軸上）を模式的に示す図である。図５では図１と同様にイベントカメラ12の出力データをある１つの画素位置(x,y)のみに注目して、輝度値が閾値TH以上変化する都度、出力されるものとして示している。通常カメラ11が画像P(T(i))を撮影する時間範囲はt3=[T(i),T(i+1)]であり、図５に示すように実際はこの範囲t3=[T(i),T(i+1)]のうちの前半側範囲t1が通常カメラ11の露光時間であり、後半側範囲t2はシャッタを閉じており露光していない状態にあることとなる（なお、特別な場合としてt2=0であってもよい）が、この後半側範囲t2も含めて時間範囲t3=[T(i),T(i+1)]に属するようなイベントカメラデータD(i)を、画像P(T(i))に対応するものとしてマッピングを行う。

このようなマッピングにより、厳密には時間軸上で同期できない通常カメラ11の画像とイベントカメラ12のデータとを便宜上、時間軸上で同期させることができる。

ステップS3では、通常カメラ11から得られた画像P(T(i))より領域検出部2が各領域を検出し、検出結果をマッピング部3へと出力して空間上でのマッピングを行い、マッピング結果をノイズ除去部4へと出力してからステップS4へと進む。この際、微細領域包含領域検出部21が微細領域包含領域R1(i)を検出し、エッジ領域検出部22がエッジ領域R2(i)を検出し、他領域検出部23が他領域R3(i)を検出する。具体的にそれぞれ以下のような検出を行う。

＜微細領域包含領域検出部21：微細なデータを含む領域R1(i)の検出＞
前述した想定応用例のようにRGB画像から眼球を検出するのは、図２で例示したように眼球が微細領域となって困難であるため、より検出しやすい拡張された領域（例えば、眼球や瞬きではなく、顔全体）として、微細領域包含領域R1(i)を検出するのが、微細領域包含領域検出部21の役割である。

微細領域包含領域検出部21では、用途として追跡等を行うことを想定した所定の微細な対象の種別に応じて、当該微細対象を包含する所定の対象（例えば眼球であれば顔）の領域を、通常画像P(T(i))から微細領域包含領域R1(i)として検出すればよい。

例えば顔領域を検出する場合、任意の既存手法を用いてよい。顔検出技術は沢山開発されたが、近年、ディープニューラルネットワークを用いて顔を検出するのが一般的である。例えば、非特許文献７では、Faster RCNNを改善し、顔を検出する。また、SSD（非特許文献８）またはYOLO（非特許文献９）を用いて顔検出も可能である。出力した矩形上囲み枠領域（Bounding box）を顔領域としての微細領域包含領域R1(i)とすればよい。

また、眼球以外の想定応用例以外でも同様に、微細対象の領域の包含領域として、所定種類の物体領域を検出するようにすればよい。例えば、微細対象として、バトミントンのシャトルをラケットにヒットする瞬間のシャトルを分析する場合、RGB画像からシャトルの検出が困難であるため、ラケットを検出することを対象にし、微細領域包含領域としてラケット領域を設定しておけばよい。また、微細対象として卓球ボールを解析する場合、卓球テーブルを検出することを対象にし、微細領域包含領域として卓球テーブルを設定しておけばよい。

＜エッジ領域検出部22：エッジ領域R2(i)の検出＞
撮影したオブジェクトが動いた時に、輝度変化が激しい箇所は撮影したオブジェクトのエッジ領域である。よって、イベントカメラ12の信号は、撮影したオブジェクトのエッジ領域に発生しやすいという特徴があり、これを予めエッジ領域R2(i)として通常画像P(T(i))から検出するのが、エッジ領域検出部22の役割である。

エッジ領域検出部22によるエッジ検出には任意の既存手法を用いればよい。例えば、キャニーエッジ検出器（Canny Edge Detector：非特許文献１０）という技術がエッジ検出によく用いられるので、これを用いてもよい。また、前記キャニー法(Canny)以外にソーベル法(Sobel)やガウスのラプラシアン法（LoG：Laplacian of Gaussian）を使ってもよい。エッジであるものとして判定した画素から領域へと拡張するため、エッジの画素の周りの一定範囲内（例えば、その画素を中心に７x７の画素まで）をエッジ領域と定義し、エッジ領域R2(i)を出力すればよい。

ただし、エッジ領域検出部22では、微細領域包含領域検出部21で検出した微細領域包含領域R1(i)は、エッジ領域から除外する。換言すれば、エッジ領域検出部22では通常画像P(T(i))の領域全体のうち、微細領域包含領域R1(i)を予め除外してエッジ検出（及び検出したエッジ画素から領域への拡張）を行うことで、エッジ領域R2(i)を得るようにすればよい。

＜他領域検出部23：他領域R3(i)の検出＞
他領域検出部23は、通常画像P(T(i))の領域全体のうち、微細領域包含領域R1(i)とエッジ領域R2(i)以外の領域を他領域R3(i)として検出する。

図６に、通常画像P(T(i))の内容が図２の画像P1に示される会議室であり、３人の人物の眼球の追跡等を行うことを目的として、当該眼球が微細領域として設定される場合の、領域検出部2による各領域の検出結果の模式例を示す。図６の例にて、微細領域包含領域R1(i)は眼球を包含する顔領域として、グレー色で示されており、エッジ領域R2(i)は、微細領域包含領域R1(i)以外の領域から検出されるエッジを所定範囲だけ拡大したものとして白色で示されており、他領域R3(i)は、これら以外の領域として黒色で示されている。

ステップS3では最後に、マッピング部3が、領域検出部2で得た各領域R1(i),R2(i),R3(i)に、イベントカメラ12のデータD(i)（ステップS2で通常画像P(T(i))の時間範囲[T(i),T(i+1)]に属するものとして得たもの）を割り当てることでこのデータD(i)を各領域に対応する３つのデータD1(i),D2(i),D3(i)に区別し、この結果をマッピング結果としてノイズ除去部4へと出力する。具体的に、データD(i)の各要素(x_k,y_k,t_k,p_k)(t_k∈[T(i),T(i+1)])につき、その座標(x_k,y_k,)が各領域R1(i),R2(i),R3(i)のいずれに属するかによって以下のように区別すればよい。
D1(i)= {(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)] 且つ (x_k,y_k,)∈R1(i)}
D2(i)= {(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)] 且つ (x_k,y_k,)∈R2(i)}
D3(i)= {(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)] 且つ (x_k,y_k,)∈R3(i)}

なお、前述の通り、ステップS1において予め、通常カメラ11とイベントカメラ12とに関して同一の配置で同一シーンを撮影するようにしておくことにより、イベントカメラ12の出力データの座標(x_k,y_k,)と通常カメラ11の画像座標(x,y)との対応関係が成立するようにしているため、上記の通り、各領域R1(i),R2(i),R3(i)のいずれに属するかによってデータD(i)を３つのデータD1(i),D2(i),D3(i)に分けることが可能となる。

ステップS4では、ノイズ除去部4が、ステップS3で得た領域分類結果R1(i),R2(i),R3(i)に応じたそれぞれのイベントカメラデータD1(i),D2(i),D3(i)に関して区別された手法でノイズ除去を行ってからステップS5へと進む。すなわち、小さい変化の領域（微細領域包含領域R1(i)）とエッジ領域R2(i)、それ以外の領域（他領域R3(i)）を分けた、領域ごとのイベントカメラデータD1(i),D2(i),D3(i)についてそれぞれの手法で、ノイズを除去する。本実施形態では、非特許文献５の学習モデルを用いて領域毎の各ノイズ除去部41,42,43においてそれぞれ、ノイズを除去する。

＜微細領域包含領域ノイズ除去部41＞
微細領域包含領域ノイズ除去部41は、微細領域包含領域R1(i)のデータD1(i)からノイズを除去する。

微細領域包含領域ノイズ除去部41では、学習データとしても微細領域包含領域R1(i)に属するデータに相当するイベントカメラデータのみを用いて、非特許文献５のモデルM1を予め学習しておく。微細領域包含領域ノイズ除去部41では、当該学習済のモデルM1を用いて、イベントカメラデータD(i)のうち微細領域包含領域R1(i)に対応するデータD1(i)からノイズを除去することができる。

＜エッジ領域ノイズ除去部42＞
エッジ領域ノイズ除去部42は、エッジ領域R2(i)のデータD2(i)からノイズを除去する。

エッジ領域ノイズ除去部42では、学習データとしてもエッジ領域R2(i)に属するデータに相当するイベントカメラデータのみを用いて、非特許文献５のモデルM2を予め学習しておく。エッジ領域ノイズ除去部42では、当該学習済のモデルM2を用いて、イベントカメラデータD(i)のうちエッジ領域R2(i)に対応するデータD2(i)からノイズを除去することができる。

＜他領域ノイズ除去部43＞
他領域ノイズ除去部43は、他領域R3(i)のデータD3(i)からノイズを除去する。

他領域ノイズ除去部43では、学習データとしても他領域R3(i)に属するデータに相当するイベントカメラデータのみを用いて、非特許文献５のモデルM3を予め学習しておく。他領域ノイズ除去部43では、当該学習済のモデルM3を用いて、イベントカメラデータD(i)のうち他領域R3(i)に対応するデータD3(i)からノイズを除去することができる。

なお、以上の各ノイズ除去部41,42,43の学習を可能とするために、学習データとしてのイベントカメラデータを得る際は、ステップS1と同様にイベントカメラと通常カメラとで時計合わせ及び座標合わせを行い、通常カメラの撮影も行っておくことにより、学習用のイベントカメラデータを微細領域包含領域、エッジ領域、他領域の３種類のいずれに該当するかを分類しておく。

以上、各ノイズ除去部41,42,43で各イベントカメラデータD1(i),D2(i),D3(i)をノイズ除去して得たデータをそれぞれE1(i),E2(i),E3(i)とする。ノイズ除去前のイベントカメラデータD(i)のノイズ除去結果は、これら３つのデータ全体E(i)={ E1(i),E2(i),E3(i)}としてもよいし、ステップS4ではさらに、当該ノイズ除去データE(i)に対して後処理部44による後処理を施したものを、ノイズ除去装置10によるノイズ除去結果として出力するようにしてもよい。

後処理部44によるデータE(i)に対する後処理として、空間上の各領域R1(i),R2(i),R3(i)の境界及び時間軸上の隣接する時間帯のイベントカメラデータ（E(i)の少なくとも１つ前のデータE(i-1),E(i-2),…及び／又は少なくとも１つの後のデータE(i+1),E(i+2),…）の分布がスムーズとなるようにフィルタ処理を施してもよい。フィルタ処理としては例えばガウシアンフィルタ等の平滑化フィルタやメディアン（中央値）フィルタ等のように、不自然に不連続な点を排除して分布をスムーズにする効果を有する任意の既存手法を用いてよい。なお、データE(i)やその時間軸上での前後のデータE(i-1),E(i+1)等にフィルタ処理を施す際は、個別のデータ(x_k,y_k,t_k,p_k)から極性p_kを除外することで３次元データ(x_k,y_k,t_k)とみなして、３次元空間内で各データ点の近傍に位置する他のデータ点を判定したうえで、フィルタ処理を施すようにすればよい。また、極性p_kを除外しない４次元データ(x_k,y_k,t_k,p_k)の形で、４次元空間内で各データ点の近傍に位置する他のデータ点を判定したうえで、フィルタ処理を施してもよい。

領域R1(i),R2(i),R3(i)毎に処理すると、時空間の境界で不連続な信号が出る可能性があるため、後処理としてフィルタ処理を適用することにより、当該不連続性を柔らかくさせることができる。

ステップS5では、通常カメラ11によるリアルタイムでの離散的な撮影タイミングである時刻T(i)を次の時刻T(i+1)へ更新してからステップS2へと戻ることで、次の画像P(T(i+1))及びこれに対応するイベントカメラデータD(i+1)（すなわち、時間範囲[T(i+1),T(i+2)]に属するイベントカメラデータ）を対象として以上と同様の処理が繰り返される。

以上、本発明の実施形態によれば、イベントカメラデータにおいて微細な対象の追跡等を行う際に、小さい変化を含めて信号をノイズに誤認せず、ノイズを有効に除去することができる。この際、以下のような各手法を用いた。

● 領域毎にノイズ除去することにより、小さい変化の領域と信号が発生しやすいエッジ領域、それ以外の領域でノイズ除去手法（用いる学習モデル）を変える。
● 特に、RGB画像を利用し、微細なデータを含む領域（微細領域包含領域R1(i)）と撮影したオブジェクトのエッジを含む領域（エッジ領域R2(i)）、その他の領域（他領域R3(i)）を検出し、イベントカメラデータにこれら領域情報を時空間にマッピングする。
● RGB画像からより検出しやすい拡張の領域（例えば、眼球や瞬きではなく、顔全体）として微細領域包含領域R1(i)を検出し、小さい変化の領域をノイズ除去可能な形で検出する。

以下、種々の補足例、追加例、代替例などについて説明する。

（１）本発明の実施形態のさらなる応用例として、アバタ描画の際の視線等をより精密に取得することが可能となる。そして、このような精密な情報によって描画されるアバタにより、臨場感ある遠隔コミュニケーションを実現可能である。これにより、遠隔地への実際の移動を必ずしも必須とせずに遠隔会議等を臨場感をもって行うことが可能となり、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標１３「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。

（２）マッピング部3によるステップS3での各領域R1(i),R2(i),R3(i)へのイベントカメラ12のデータD(i)の割り当てで各データD1(i),D2(i),D3(i)を得る際に、対応する通常画像の撮影時刻T(i)と、イベントカメラデータの時刻t_kとの間（図５等で示したマッピング関係から「T(i)≦t_k」となる）の時間間隔[T(i),t_k]での動きベクトルV_k＝(Δx_k,Δy_k,)を考慮して、この動きベクトルの分を減算した位置を以下のように割り当てるようにしてもよい。
D1(i)= {(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)] 且つ (x_k,y_k,)-V_k∈R1(i)}
D2(i)= {(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)] 且つ (x_k,y_k,)-V_k∈R2(i)}
D3(i)= {(x_k,y_k,t_k,p_k)|t_k∈[T(i),T(i+1)] 且つ (x_k,y_k,)-V_k∈R3(i)}

この動きベクトルV_kには、映像としての通常画像P(T(i))から領域ごとにオプティカルフロー等で求められるものを用いてもよい。通常画像の撮影間隔T(i+1)-T(i)（またはT(i)-T(i-1)）において求めたオプティカルフロー（大きさV）から、間隔t_k-T(i)での移動量vを時間割合に比例するものとして以下のように求めて、動きベクトルV_k（| V_k |=v）を求めるようにしてもよい。
v=V*{ t_k-T(i)}/{ T(i+1)-T(i)}

（３）図７は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。ノイズ除去装置10は、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70でノイズ除去装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71（及びGPU72）にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。

ノイズ除去装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。カメラ78は、通常カメラ11及びイベントカメラ12として実装すればよい。

10…ノイズ除去装置、11…通常カメラ、12…イベントカメラ、2…領域検出部、3…マッピング部、4…ノイズ除去部

Claims

共通のシーンを撮影する通常カメラ及びイベントカメラがそれぞれ取得する画像及びイベントカメラデータを用いて、当該イベントカメラデータからノイズ除去を行うノイズ除去装置であって、
前記画像より、所定対象を包含する包含領域を検出する検出部と、
前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータについて、前記包含領域に属する第１データと、当該第１データ以外の第２データと、に区別して、当該第１データは第１手法によりノイズ除去し、当該第２データは第２手法によりノイズ除去するノイズ除去部と、を備えることを特徴とするノイズ除去装置。
前記検出部はさらに、前記画像よりエッジ領域を検出し、
前記ノイズ除去部では、前記第１データ以外の前記第２データとして、前記エッジ領域に属するイベントカメラデータを用いることを特徴とする請求項１に記載のノイズ除去装置。
前記検出部では、前記画像よりエッジを検出し、当該エッジを包含する領域として前記エッジ領域を検出することを特徴とする請求項２に記載のノイズ除去装置。
前記ノイズ除去部はさらに、前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータのうち、前記第１データまたは前記第２データ以外のものを第３データとし、当該第３データは第３手法によりノイズ除去することを特徴とする請求項２または３に記載のノイズ除去装置。
前記第１手法、第２手法及び第３手法によるノイズ除去は、共通のノイズ除去モデルを当該各手法で対処する対象ごとに区別された学習用データを用いて学習したそれぞれの学習モデルを用いることによるノイズ除去であることを特徴とする請求項４に記載のノイズ除去装置。
前記ノイズ除去部ではさらに、前記第１手法、第２手法及び第３手法によってノイズ除去した結果のデータに対して、前記第１データ、第２データ及び第３データの境界部分に位置しているものについてフィルタ処理を施すことを特徴とする請求項４または５に記載のノイズ除去装置。
前記通常カメラではリアルタイムの各時刻において撮影を行っており、
前記イベントカメラデータのうち前記画像に対応する時間範囲は、当該画像の撮影タイミングから、当該画像の次にリアルタイムで撮影される画像のタイミングまでの時間範囲であり、
前記ノイズ除去部では、
前記イベントカメラデータのうち前記画像に対応する時間範囲にあるデータについて、前記包含領域に属する第１データと、前記エッジ領域に属する第２データと、前記第１データまたは前記第２データ以外のものである第３データと、に区別する際に、
前記イベントカメラデータの各々について、前記画像の撮影タイミングから、当該イベントカメラデータの取得時刻までの間における、前記画像を解析して得られる、当該イベントカメラデータの座標での動きベクトルによる座標変化を反映したうえで区別することを特徴とする請求項４ないし６のいずれかに記載のノイズ除去装置。
前記通常カメラではリアルタイムの各時刻において撮影を行っており、
前記イベントカメラデータのうち前記画像に対応する時間範囲は、当該画像の撮影タイミングから、当該画像の次にリアルタイムで撮影される画像のタイミングまでの時間範囲であることを特徴とする請求項１ないし６のいずれかに記載のノイズ除去装置。
前記所定対象は、前記画像に撮影された際のサイズが前記画像の全体のサイズと比べて微細な対象であることを特徴とする請求項１ないし８のいずれかに記載のノイズ除去装置。
前記イベントカメラデータの各々は、各画素位置において、輝度値の累積変化が閾値を超えて発生するごとに取得されて、当該発生した時刻と共に記録されるものであることを特徴とする請求項１ないし９のいずれかに記載のノイズ除去装置。
コンピュータを請求項１ないし１０のいずれかに記載のノイズ除去装置として機能させることを特徴とするプログラム。