JP2024504027A - ポーズ推定方法及び関連する装置 - Google Patents
ポーズ推定方法及び関連する装置 Download PDFInfo
- Publication number
- JP2024504027A JP2024504027A JP2023539998A JP2023539998A JP2024504027A JP 2024504027 A JP2024504027 A JP 2024504027A JP 2023539998 A JP2023539998 A JP 2023539998A JP 2023539998 A JP2023539998 A JP 2023539998A JP 2024504027 A JP2024504027 A JP 2024504027A
- Authority
- JP
- Japan
- Prior art keywords
- image
- event
- event image
- determining
- further configured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 683
- 230000033001 locomotion Effects 0.000 claims abstract description 1402
- 238000001514 detection method Methods 0.000 claims abstract description 191
- 230000010354 integration Effects 0.000 claims abstract description 33
- 230000008859 change Effects 0.000 claims description 512
- 238000012545 processing Methods 0.000 claims description 265
- 230000000007 visual effect Effects 0.000 claims description 90
- 230000015654 memory Effects 0.000 claims description 65
- 238000004422 calculation algorithm Methods 0.000 claims description 55
- 238000003860 storage Methods 0.000 claims description 55
- 230000004044 response Effects 0.000 claims description 49
- 230000003068 static effect Effects 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 35
- 238000006073 displacement reaction Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 238000005259 measurement Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 414
- 238000010586 diagram Methods 0.000 description 237
- 230000008569 process Effects 0.000 description 167
- 238000005457 optimization Methods 0.000 description 95
- 230000006870 function Effects 0.000 description 90
- 238000003672 processing method Methods 0.000 description 84
- 238000003384 imaging method Methods 0.000 description 82
- 230000003287 optical effect Effects 0.000 description 73
- 238000004891 communication Methods 0.000 description 65
- 230000006854 communication Effects 0.000 description 65
- 230000002829 reductive effect Effects 0.000 description 65
- 238000004364 calculation method Methods 0.000 description 60
- 230000004927 fusion Effects 0.000 description 56
- 230000001133 acceleration Effects 0.000 description 51
- 230000001360 synchronised effect Effects 0.000 description 46
- 210000001508 eye Anatomy 0.000 description 40
- 230000004048 modification Effects 0.000 description 40
- 238000012986 modification Methods 0.000 description 40
- 238000012544 monitoring process Methods 0.000 description 39
- 238000013179 statistical model Methods 0.000 description 34
- 230000001960 triggered effect Effects 0.000 description 33
- 238000004458 analytical method Methods 0.000 description 31
- 239000003086 colorant Substances 0.000 description 26
- 238000012937 correction Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 24
- 230000005540 biological transmission Effects 0.000 description 23
- 230000007613 environmental effect Effects 0.000 description 23
- 230000001976 improved effect Effects 0.000 description 23
- 238000010187 selection method Methods 0.000 description 23
- 238000013461 design Methods 0.000 description 22
- 210000004556 brain Anatomy 0.000 description 21
- 230000007246 mechanism Effects 0.000 description 21
- 230000011218 segmentation Effects 0.000 description 20
- 230000003044 adaptive effect Effects 0.000 description 19
- 230000001965 increasing effect Effects 0.000 description 18
- 238000007726 management method Methods 0.000 description 17
- 238000013480 data collection Methods 0.000 description 16
- 230000007423 decrease Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000013507 mapping Methods 0.000 description 14
- 238000010295 mobile communication Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 11
- 230000002596 correlated effect Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 210000000988 bone and bone Anatomy 0.000 description 9
- 238000001914 filtration Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000011521 glass Substances 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 102100034112 Alkyldihydroxyacetonephosphate synthase, peroxisomal Human genes 0.000 description 6
- 101000799143 Homo sapiens Alkyldihydroxyacetonephosphate synthase, peroxisomal Proteins 0.000 description 6
- 230000004913 activation Effects 0.000 description 6
- 238000000848 angular dependent Auger electron spectroscopy Methods 0.000 description 6
- 210000005252 bulbus oculi Anatomy 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000012806 monitoring device Methods 0.000 description 5
- 229920001621 AMOLED Polymers 0.000 description 4
- 241001156002 Anthonomus pomorum Species 0.000 description 4
- 241001607510 Daphne virus S Species 0.000 description 4
- 208000012661 Dyskinesia Diseases 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 239000011664 nicotinic acid Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000006641 stabilisation Effects 0.000 description 4
- 238000011105 stabilization Methods 0.000 description 4
- 238000012896 Statistical algorithm Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000004424 eye movement Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 229910044991 metal oxide Inorganic materials 0.000 description 3
- 150000004706 metal oxides Chemical class 0.000 description 3
- 230000003565 oculomotor Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 210000001525 retina Anatomy 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 210000004087 cornea Anatomy 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000009365 direct transmission Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 238000003530 single readout Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102000008115 Signaling Lymphocytic Activation Molecule Family Member 1 Human genes 0.000 description 1
- 108010074687 Signaling Lymphocytic Activation Molecule Family Member 1 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/292—Multi-camera tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
より正確なポーズ推定結果を得るように、ポーズ推定方法及び装置が提供される。方法は、第1イベント画像及び第1ターゲット画像を取得することであり、第1イベント画像は時系列において第1ターゲット画像とアライメントされ、第1ターゲット画像はRGB画像又はデプス画像を含み、第1イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像を含む、ことと、第1イベント画像の積分時間を決定することと、積分時間が第1閾値に満たない場合に、第1ターゲット画像がポーズ推定を実行するためのものではないと決定することと、第1イベント画像に基づきポーズ推定を実行することとを含む。
Description
本願は、コンピュータ分野に、特に、ポーズ推定方法及び関連する装置に関する。
自己位置推定及び環境地図作成の同時実行(SLAM)は、特定のセンサを備えた対象物が動きプロセスにおいて周囲環境の地図を構成し、環境の構成された地図に基づいて対象物の位置を見つける技術である。SLAM技術は、ロボット、自動運転、仮想及び拡張現実、などの分野で広い応用が見込まれている。
SLAM技術では、ポーズ推定が重要なプロセスである。現在、ポーズ推定を実装するための全てのアルゴリズムは静的なシナリオに適用されており、動的なシナリオでは正確なポーズ推定を実施することは困難である。
本願の実施形態は、より鮮明な画像を取得するために、画像処理方法及び装置を提供する。
第1の態様に従って、本願は、電子デバイスに適用される切り替え方法を提供する。電子デバイスはRGBセンサ及びモーションセンサを含み、赤緑青(RGB)センサは、撮影範囲内で画像を取得するよう構成され、モーションセンサは、オブジェクトがモーションセンサの検出範囲内でモーションセンサに対して動くときに生成される情報を収集するよう構成される。方法は、シナリオ情報に基づきRGBセンサ及びモーションセンサのうちの少なくとも一方を選択することと、選択されたセンサによりデータを収集することとを含み、シナリオ情報は、電子デバイスのステータス情報、画像を収集するよう要求している電子デバイス内のアプリケーションのタイプ、又は環境情報、のうちの少なくとも1つを含む。
従って、本願の実施において、電子デバイスの異なるセンサは、より多くのシナリオに適応するために、異なるシナリオに基づいて起動されるよう選択されてよく、汎化能力は強力である。更には、対応するセンサは、実際のシナリオに基づき起動されてもよく、全てのセンサを起動する必要はなく、それによって電子デバイスの電力消費量は削減される。
可能な実施において、ステータス情報は、電子デバイスのバッテリ電力残量及び記憶残量を含む。環境情報は、カラーRGBセンサの撮影範囲及びモーションセンサの撮影範囲における光強度変化、又は撮影範囲内で動いているオブジェクトに関する情報を含む。
従って、本願の実施において、起動されるべきセンサは、より多くのシナリオに適応するために、電子デバイスのステータス情報又は環境情報に基づき選択されてよく、汎化能力は強力である。
更に、以下の異なる実施では、起動されるセンサは異なってもよい。述べられているセンサがデータを収集するとき、そのセンサは既に起動されている。詳細は以下では説明されない。
第2の態様に従って、本願は、ピクセルアレイ回路を含み得るビジョンセンサチップを提供し、ピクセルアレイ回路は、光強度変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成するよう構成され、少なくとも1つのデータ信号は光強度変化イベントを示し、光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度変化が所定の閾値を超えることを示し、また、ビジョンセンサチップは、ピクセルアレイ回路へ結合される読み出し回路を含んでもよく、読み出し回路は、第1イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すためのものである。読み出し回路は、制御回路に少なくとも1つのデータ信号を供給するよう更に構成される。読み出し回路は、少なくとも1つのデータ信号に基づき生成された変更信号を制御回路から受信すると、第2イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すことに変更するよう更に構成されてよい。第1の態様から分かるように、ビジョンセンサは、2つのイベント表現方式の間で適応的に切り替わることができ、それにより、データ読み出し速度は常に所定のデータ読み出し速度閾値を超えるわけではなく,それによってビジョンセンサのデータ伝送、パーシング、及び記憶の費用は削減され、また、センサの性能は大幅に向上する。更に、そのようなビジョンセンサは、次の期間における可能なイベント発生率を予測するために、ある期間に生成されたイベントのデータに関する統計値を収集してもよく、それにより、現在の外部環境、適用シナリオ、及び動き状態により適している読み出しモードが選択可能である。
可能な実施において、第1イベント表現方式は、極性情報に基づきイベントを表現することである。ピクセルアレイ回路は複数のピクセルを含んでよい。各ピクセルは閾値比較部を含んでよい。閾値比較部は、光強度変化が所定の閾値を超えるときに極性情報を出力するよう構成される。極性情報は、光強度変化が強くなったか弱くなったかを示す。読み出し回路は、閾値比較部によって出力された極性情報を読み出すよう特に構成される。この実施において、第1イベント表現方式は、極性情報に基づきイベントを表現することである。極性情報は、通常、1ビット又は2ビットによって表され、ビジョンセンサが、大量のデータにより、広範のオブジェクトの動き又は光強度変動が(例えば、トンネルの入口及び出口、並びに部屋の明かりのオン及びオフのシナリオで)起こるときのイベントの突然の増加の問題に直面することを防ぎ、また、ビジョンセンサの前もってセットされた最大帯域幅(以下では、プリセット帯域幅と呼ばれる)が固定されている場合にイベントデータが読み出され得ないために引き起こされるイベントロスを回避するために、ほとんど情報を運ばない。
可能な実施において、第1イベント表現方式は、光強度情報に基づきイベントを表現することである。ピクセルアレイ回路は複数のピクセルを含んでよく、各ピクセルは閾値比較部、読み出し制御部、及び光強度捕捉部を含んでよい。光強度検出部は、光強度検出部に照射された光信号に対応する電気信号を出力するよう構成され、電気信号は光強度を示す。閾値比較部は、電気信号に基づいて、光強度変化が所定の閾値を超えると決定する場合に、第1信号を出力するよう構成される。読み出し制御部は、第1信号の受信に応答して、第1信号の受信時に対応する電気信号を捕捉しバッファリングするように光強度捕捉部に指示するよう構成される。読み出し回路は、光強度捕捉部によってバッファリングされている電気信号を読み出すよう特に構成される。この実施において、第1イベント表現方式は、光強度情報に基づきイベントを表現することである。伝送データの量が帯域幅制限を超えない場合に、光強度情報は、イベントを表すために使用される。一般に、光強度情報は、複数のビット、例えば、8ビット乃至12ビットによって表される。極性情報と比較して、光強度情報はより多くの情報を運ぶことができ、これは、イベント処理及び解析を容易にし、例えば、画像再構築品質を改善する。
可能な実施において、制御回路は、読み出し回路によって受信された少なくとも1つのデータ信号に基づいて統計データを決定し、統計データが所定の変更条件を満足すると決定する場合に、変更信号を読み出し回路へ送信するよう更に構成され、所定の変更条件は、ビジョンセンサチップのプリセット帯域幅に基づき決定される。この実施において、2つのイベント表現法を変更する方法が提供され、変更条件は、伝送されるべきデータの量に基づき取得される。例えば、伝送されるべきデータの量が比較的に多い場合に、データの量が完全に送信され得ることを確保し、イベントデータが読み出され得ないために引き起こされるイベントロスを回避するために、極性情報に基づいてイベントを表現する方式への切り替えが行われる。伝送されるべきデータの量が比較的に少ない場合に、伝送イベントがより多くの情報を運ぶことができ、それによってイベント処理及び解析を容易にし、例えば、画像再構築品質を改善するように、光強度情報に基づいてイベントを表現する方式への切り替えが行われる。
可能な実施において、第1イベント表現方式が光強度情報に基づいてイベントを表現することであり、第2イベント表現方式が極性情報に基づいてイベントを表現することである場合に、所定の変更条件は、第1イベント表現方式でピクセルアレイ回路から読み出されるデータの総量がプリセット帯域幅よりも多いことであるか、又は所定の変更条件は、少なくとも1つのデータ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多いことである。この実施において、光強度情報に基づいてイベントを表現する方式から、極性情報に基づいてイベントを表現する方式へ切り替える特定の条件が、与えられる。伝送されるべきデータの量がプリセット帯域幅よりも多い場合に、データの量が完全に送信され得ることを確保し、イベントデータが読み出され得ないために引き起こされるイベントロスを回避するために、極性情報に基づいてイベントを表現する方式への切り替えが行われる。
可能な実施において、第1イベント表現方式が極性情報に基づいてイベントを表現することであり、第2イベント表現方式が光強度情報に基づいてイベントを表現することである場合に、所定の変更条件は、少なくとも1つのデータ信号が第2イベント表現方式でピクセルアレイ回路から読み出される場合に、読み出されたデータの総量がプリセット帯域幅以下であることであるか、又は所定の変更条件は、少なくとも1つのデータ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比以下であることである。この実施において、極性情報に基づいてイベントを表現する方式から、光強度情報に基づいてイベントを表現する方式へ切り替える特定の条件が、与えられる。伝送されるべきデータの量がプリセット帯域幅以下である場合に、伝送イベントがより多くの情報を運ぶことができ、それによってイベント処理及び解析を容易にし、例えば、画像再構築品質を改善するように、光強度情報に基づいてイベントを表現する方式への切り替えが行われる。
第3の態様に従って、本願は、ビジョンセンサチップからデータ信号を読み出すよう構成される読み出し回路を含み得る復号化回路を提供する。復号化回路は、第1復号化モードでデータ信号を復号するよう構成される。復号化回路は、制御回路から変更信号を受信する場合に、第2復号化モードでデータ信号を復号するよう更に構成される。第3の態様で提供される復号化回路は、第2の態様で提供されるビジョンセンサチップに対応し、第2の態様で提供されるビジョンセンサチップによって出力されたデータ信号を復号するよう構成される。第3の態様で提供される復号化回路は、異なるイベント表現方式ごとに異なる復号化モードに切り替わってよい。
可能な実施において、制御回路は、読み出し回路によって読み出されたデータ信号に基づいて統計データを決定し、統計データが所定の変更条件を満足する場合に、変更信号を符号化回路へ送信するよう更に構成され、所定の変更条件は、ビジョンセンサチップのプリセット帯域幅に基づき決定される。
可能な実施において、第1復号化モードは、第1イベント表現方式に対応する第1ビットに基づいてデータ信号を復号することであり、第1イベント表現方式は、光強度情報に基づいてイベントを表現することである。第2復号化モードは、第2イベント表現方式に対応する第2ビットに基づいてデータ信号を復号することであり、第2イベント表現方式は、極性情報に基づいてイベントを表現することであり、極性情報は、光強度変化が強くなったか弱くなったかを示す。変更条件は、第1復号化モードで復号されるデータの総量がプリセット帯域幅よりも多いことであるか、又は前もってセットされた変更条件は、データ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多いことである。
可能な実施において、第1復号化モードは、第1イベント表現方式に対応する第1ビットに基づいてデータ信号を復号することであり、第1イベント表現方式は、極性情報に基づいてイベントを表現することであり、極性情報は、光強度変化が強くなったか弱くなったかを示す。第2復号化モードは、第2イベント表現方式に対応する第2ビットに基づいてデータ信号を復号することであり、第2イベント表現方式は、光強度情報に基づいてイベントを表現することである。変更条件は、データ信号が第2復号化方法で復号される場合に、総データ量がプリセット帯域幅以下であることであるか、又は前もってセットされた変更条件は、データ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多いことである。
第4の態様に従って、本願は、ビジョンセンサチップの作動方法を提供し、方法は、ビジョンセンサチップのピクセルアレイ回路が、ピクセルアレイ回路内のピクセルに対する少なくとも1つのデータ信号を生成するよう光の強度変化を測定することを含んでよく、少なくとも1つのデータ信号は光強度変化イベントを示し、光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度変化が所定の閾値を超えることを示す。ビジョンセンサチップの読み出し回路は、第1イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出す。読み出し回路は、制御回路に少なくとも1つのデータ信号を供給する。少なくとも1つのデータ信号に基づき生成された変更信号を制御回路から受信すると、読み出し回路は、第2イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すことに変更する。
可能な実施において、第1イベント表現方式は、極性情報に基づきイベントを表現することであり、ピクセルアレイ回路は複数のピクセルを含んでよく、各ピクセルは閾値比較部を含んでよい。ビジョンセンサチップの読み出し回路が第1イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すことは、光強度変化が所定の閾値を超えるときに、閾値比較部が極性情報を出力することを含んでよい。極性情報は、光強度変化が強くなったか弱くなったかを示す。読み出し回路は、閾値比較部によって出力された極性情報を読み出す。
可能な実施において、第1イベント表現方式は、光強度情報に基づきイベントを表現することである。ピクセルアレイ回路は複数のピクセルを含んでよく、各ピクセルは閾値比較部、読み出し制御部、及び光強度捕捉部を含んでよい。ビジョンセンサチップの読み出し回路が第1イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すことは、光強度捕捉部が、光強度捕捉部に照射された光信号に対応する電気信号を出力することを含んでよく、電気信号は光強度を示す。閾値比較部は、電気信号に基づいて、光強度変化が所定の閾値を超えると決定する場合に、第1信号を出力する。第1信号の受信に応答して、読み出し制御部は、第1信号の受信時に対応する電気信号を捕捉しバッファリングするように光強度捕捉部に指示する。読み出し回路は、光強度捕捉部によってバッファリングされている電気信号を読み出す。
可能な実施において、方法は、読み出し回路によって受信された少なくとも1つのデータ信号に基づいて統計データを決定し、統計データが所定の変更条件を満足すると決定する場合に、変更信号を読み出し回路へ送信することを更に含んでよく、所定の変更条件は、ビジョンセンサチップのプリセット帯域幅に基づき決定される。
可能な実施において、第1イベント表現方式が光強度情報に基づいてイベントを表現することであり、第2イベント表現方式が極性情報に基づいてイベントを表現することである場合に、所定の変更条件は、第1イベント表現方式でピクセルアレイ回路から読み出されるデータの総量がプリセット帯域幅よりも多いことであるか、又は所定の変更条件は、少なくとも1つのデータ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多いことである。
可能な実施において、第1イベント表現方式が極性情報に基づいてイベントを表現することであり、第2イベント表現方式が光強度情報に基づいてイベントを表現することである場合に、所定の変更条件は、少なくとも1つのデータ信号が第2イベント表現方式でピクセルアレイ回路から読み出される場合に、読み出されたデータの総量がプリセット帯域幅以下であることであるか、又は所定の変更条件は、少なくとも1つのデータ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比以下であることである。
第5の態様に従って、本願は、読み出し回路がビジョンセンサチップからデータ信号を読み出すことを含む復号化方法を提供する。復号化回路は、第1復号化モードでデータ信号を復号する。制御回路から変更信号を受信する場合に、復号化回路は、第2復号化モードでデータ信号を復号する。
可能な実施において、方法は、読み出し回路によって読み出されたデータ信号に基づいて統計データを決定し、統計データが所定の変更条件を満足する場合に、変更信号を符号化回路へ送信することを更に含んでよく、所定の変更条件は、ビジョンセンサチップのプリセット帯域幅に基づき決定される。
可能な実施において、第1復号化モードは、第1イベント表現方式に対応する第1ビットに基づいてデータ信号を復号することであり、第1イベント表現方式は、光強度情報に基づいてイベントを表現することである。第2復号化モードは、第2イベント表現方式に対応する第2ビットに基づいてデータ信号を復号することであり、第2イベント表現方式は、極性情報に基づいてイベントを表現することであり、極性情報は、光強度変化が強くなったか弱くなったかを示す。変更条件は、第1復号化モードで復号されるデータの総量がプリセット帯域幅よりも多いことであるか、又は前もってセットされた変更条件は、データ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多いことである。
可能な実施において、第1復号化モードは、第1イベント表現方式に対応する第1ビットに基づいてデータ信号を復号することであり、第1イベント表現方式は、極性情報に基づいてイベントを表現することであり、極性情報は、光強度変化が強くなったか弱くなったかを示す。第2復号化モードは、第2イベント表現方式に対応する第2ビットに基づいてデータ信号を復号することであり、第2イベント表現方式は、光強度情報に基づいてイベントを表現することである。変更条件は、データ信号が第2復号化方法で復号される場合に、総データ量がプリセット帯域幅以下であることであるか、又は前もってセットされた変更条件は、データ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多いことである。
第6の態様に従って、本願は、ピクセルアレイ回路を含み得るビジョンセンサチップを提供し、ピクセルアレイ回路は、光強度変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成するよう構成され、少なくとも1つのデータ信号は光強度変化イベントを示し、光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度変化が所定の閾値を超えることを示し、また、ビジョンセンサチップは、第1符号化データを取得するよう、第1ビットに基づいて少なくとも1つのデータ信号を符号化するよう構成される第1符号化部を含んでもよい。第1符号化部は、制御回路から第1制御信号を受信する場合に、第1制御信号によって示される第2ビットに基づいて少なくとも1つのデータ信号を符号化するよう更に構成され、第1制御信号は、制御回路によって、第1符号化データに基づき決定される。第6の態様で提供される解決法から分かるように、光強度の特徴情報を示すビット幅を動的に調整する解決法では、イベントの発生率が比較的に小さく、帯域幅制限に届かない場合には、イベントを符号化するように、イベントは最大ビット幅に基づき量子化され、イベントの発生率が比較的に大きい場合には、光強度の特徴情報を表すビット幅は、帯域幅制限を満足するよう徐々に小さくされ、それから、イベントの発生率がより小さくなるならば、光強度の特徴情報を表すビット幅は、帯域幅制限が超えられない場合に大きくされてもよい。ビジョンセンサチップは、より高い表現精度で全てのイベントを伝送するという目的をより良く実施するために、複数のイベント表現方式の間を適応的に切り替えることができる。
可能な実施において、第1制御信号は、第1符号化データ及びビジョンセンサチップのプリセット帯域幅に基づき制御回路によって決定される。
可能な実施において、第1符号化データのデータ量が帯域幅以上である場合に、制御信号によって示される第2ビットは第1ビットよりも小さく、それにより、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量は帯域幅以下である。イベントの発生率が比較的に高い場合に、光強度の特徴情報を表すビット幅は、帯域幅制限を満足するよう徐々に減少する。
可能な実施において、第1符号化データのデータ量が帯域幅未満である場合に、制御信号によって示される第2ビットは第1ビットよりも大きく、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量は帯域幅以下である。イベントの発生率が小さい場合に、光強度の特徴情報を表すビット幅は、より高い表現精度で全てのイベントを伝送するという目的をより良く実施するために、帯域幅制限が超えられない場合に増やされてもよい。
可能な実施において、ピクセルアレイはN個の領域を含んでよく、N個の領域のうちの少なくとも2つは異なる最大ビットを有し、最大ビットは、1つの領域で生成された少なくとも1つのデータ信号を符号化するための前もってセットされた最大ビットに相当する。第1符号化部は、第1ビットに基づいて、第1領域で生成された少なくとも1つのデータ信号を符号化して、第1符号化データを取得するよう特に構成され、第1ビットは、第1領域の最大ビット以下であり、第1領域は、N個の領域のうちのいずれか1つである。第1符号化部は、制御回路から第1制御信号を受信する場合に、第1制御信号によって示される第2ビットに基づいて、第1領域で生成された少なくとも1つのデータ信号を符号化するよう特に構成され、第1制御信号は、第1符号化データに基づいて制御回路によって決定される。この実施において、ピクセルアレイは領域に更に分割されてよく、異なる領域の最大ビット幅は、あるシナリオで関心のある異なる領域に適応するように異なる重みを使用することによってセットされる。例えば、より大きい重みは、ターゲットオブジェクトを含む可能性がある領域でセットされ、それにより、ターゲットオブジェクトを含む領域によって然るべく出力されるイベントの表現精度は高くなり、より小さい重みは背景領域でセットされ、それにより、背景領域によって然るべく出力されるイベントの表現精度は低くなる。
可能な実施において、制御回路は、第3ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量が帯域幅よりも多く、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量が帯域幅以下である場合に、第1符号化部へ第1制御信号を送信するよう更に構成され、第3ビットと第2ビットの間の差は1ビット単位である。この実施において、全てのイベントは、帯域幅制限を超えずに、より高い表現精度で伝送され得る。
第7の態様に従って、本願は、ビジョンセンサチップからデータ信号を読み出すよう構成される読み出し回路と、第1ビットに基づいてデータ信号を復号するよう構成される復号化回路とを含み得る復号化デバイスを提供する。復号化回路は、制御回路から第1制御信号を受信する場合に、第1制御信号によって示される第2ビットに基づいてデータ信号を復号するよう更に構成される。第7の態様で提供される復号化回路は、第6の態様で提供されるビジョンセンサチップに対応し、第6の態様で提供されるビジョンセンサチップによって出力されたデータ信号を復号するよう構成される。第7の態様で提供される復号化回路は、ビジョンセンサによって使用される符号化ビットに対して復号化モードを動的に調整し得る。
可能な実施において、第1制御信号は、第1符号化データ及びビジョンセンサチップのプリセット帯域幅に基づいて制御回路によって決定される。
可能な実施において、第1ビットに基づいて復号されたデータ信号の総データ量が帯域幅以上である場合に、第2ビットは第1ビットよりも小さい。
可能な実施において、第1ビットに基づいて復号されたデータ信号の総データ量が帯域幅未満である場合に、第2ビットは第1ビットよりも大きく、第2ビットに基づいて復号されたデータ信号の総データ量は、帯域幅以下である。
可能な実施において、読み出し回路は、ビジョンセンサチップから、第1領域に対応するデータ信号を読み出すよう特に構成され、第1領域は、ビジョンセンサのピクセルアレイに含まれ得るN個の領域のうちのいずれか1つであり、N個の領域のうちの少なくとも2つは異なる最大ビットを有する。最大ビットは、1つの領域で生成された少なくとも1つのデータ信号を符号化するための前もってセットされた最大ビットに相当する。復号化回路は、第1ビットに基づいて、第1領域に対応するデータ信号を復号するよう特に構成される。
可能な実施において、制御回路は、第3ビットに基づいて復号されたデータ信号の総データ量が帯域幅よりも多く、第2ビットに基づいて復号されたデータ信号の総データ量が帯域幅以下である場合に、第1符号化部へ制御信号を送信するよう更に構成され、第3ビットと第2ビットとの間の差は1ビット単位である。
第8の態様に従って、本願は、ビジョンセンサチップの作動方法を提供し、方法は、ピクセルアレイ回路が、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成するよう、光強度変化を測定することを含んでよく、少なくとも1つのデータ信号は光強度変化イベントを示し、光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度変化が所定の閾値を超えることを示す。ビジョンセンサチップの第1符号化部は、第1符号化データを取得するよう、第1ビットに基づいて少なくとも1つのデータ信号を符号化する。ビジョンセンサチップの制御回路から第1制御信号を受信する場合に、第1符号化部は、第1制御信号によって示される第2ビットに基づいて少なくとも1つのデータ信号を符号化し、第1制御信号は、制御回路によって、第1符号化データに基づき決定される。
可能な実施において、第1制御信号は、第1符号化データ及びビジョンセンサチップのプリセット帯域幅に基づき制御回路によって決定される。
可能な実施において、第1符号化データのデータ量が帯域幅以上である場合に、制御信号によって示される第2ビットは第1ビットよりも小さく、それにより、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量は帯域幅以下である。
可能な実施において、第1符号化データのデータ量が帯域幅未満である場合に、制御信号によって示される第2ビットは第1ビットよりも大きく、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量は帯域幅以下である。
可能な実施において、ピクセルアレイはN個の領域を含んでよく、N個の領域のうちの少なくとも2つは異なる最大ビットを有し、最大ビットは、1つの領域で生成された少なくとも1つのデータ信号を符号化するための前もってセットされた最大ビットに相当する。ビジョンセンサチップの第1符号化部が第1ビットに基づいて少なくとも1つのデータ信号を符号化することは、第1符号化部が、第1ビットに基づいて、第1領域で生成された少なくとも1つのデータ信号を符号化して、第1符号化データを取得することを含んでよく、第1ビットは、第1領域の最大ビット以下であり、第1領域は、N個の領域のうちのいずれか1つである。ビジョンセンサチップの制御回路から第1制御信号を受信する場合に、第1符号化部が、第1制御信号によって示される第2ビットに基づいて少なくとも1つのデータ信号を符号化することは、第1制御信号が第1符号化部により制御回路から受信される場合に、第1制御信号によって示される第2ビットに基づいて、第1領域で生成された少なくとも1つのデータ信号を符号化することを含んでもよく、第1制御信号は、第1符号化データに基づいて制御回路によって決定される。
可能な実施において、方法、制御回路が、第3ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量が帯域幅よりも多く、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量が帯域幅以下である場合に、第1符号化部へ第1制御信号を送信することを更に含んでよく、第3ビットと第2ビットの間の差は1ビット単位である。
第9の態様に従って、本願は、読み出し回路がビジョンセンサチップからデータ信号を読み出すことを含み得る復号化方法を提供する。復号化回路は、第1ビットに基づいてデータ信号を復号する。制御回路から第1制御信号を受信する場合に、復号化回路は、第1制御信号によって示される第2ビットに基づいてデータ信号を復号する。
可能な実施において、第1制御信号は、第1符号化データ及びビジョンセンサチップのプリセット帯域幅に基づいて制御回路によって決定される。
可能な実施において、第1ビットに基づいて復号されたデータ信号の総データ量が帯域幅以上である場合に、第2ビットは第1ビットよりも小さい。
可能な実施において、第1ビットに基づいて復号されたデータ信号の総データ量が帯域幅未満である場合に、第2ビットは第1ビットよりも大きく、第2ビットに基づいて復号されたデータ信号の総データ量は、帯域幅以下である。
可能な実施において、読み出し回路がビジョンセンサチップからデータ信号を読み出すことは、読み出し回路が、ビジョンセンサチップから、第1領域に対応するデータ信号を読み出すことを含んでよく、第1領域は、ビジョンセンサのピクセルアレイに含まれ得るN個の領域のうちのいずれか1つであり、N個の領域のうちの少なくとも2つは異なる最大ビットを有する。最大ビットは、1つの領域で生成された少なくとも1つのデータ信号を符号化するための前もってセットされた最大ビットに相当する。復号化回路が第1ビットに基づいてデータ信号を復号することは、復号化回路が、第1ビットに基づいて、第1領域に対応するデータ信号を復号することを含んでよい。
可能な実施において、方法は、第3ビットに基づいて復号されたデータ信号の総データ量が帯域幅よりも多く、第2ビットに基づいて復号されたデータ信号の総データ量が帯域幅以下である場合に、第1符号化部へ制御信号を送信することを更に含んでよく、第3ビットと第2ビットとの間の差は1ビット単位である。
第10の態様に従って、本願は、ピクセルアレイ回路を含み得るビジョンセンサチップを提供し、ピクセルアレイ回路は、光強度変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する複数のデータ信号を生成するよう構成され、複数のデータ信号は少なくとも1つの光強度変化イベントを示し、少なくとも1つの光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度変化が所定の閾値を超えることを示し、また、ビジョンセンサチップは、第1プリセットビットに基づいて第1差分値を符号化するよう構成される第3符号化部を含んでよく、第1差分値は、光強度変化と所定の閾値との間の差である。イベント表現精度は下がり、つまり、イベントを表すビット幅は小さくされる。このようにして、イベントによって運ばれ得る情報の量は減り、これは、いくつかのシナリオでのイベント処理及び解析にとって好ましくない。従って、イベント表現精度を下げる方法は、全てのシナリオに適用されるわけではない。言い換えると、いくつかのシナリオでは、イベントは、高ビットのビット幅を用いて表現される必要がある。しかし、高ビットのビット幅によって表されるイベントはより多くのデータを運び得るが、データの量も相対的に多い。ビジョンセンサの前もってセットされた最大帯域幅が固定されている場合に、イベントデータは読み出されないことがあり、その結果、データロスが起こる。第10の態様で提供される解決法では、差分値を符号化する方法が使用されるので、ビジョンセンサのデータ伝送、パーシング、及び記憶のコストは低減され、イベントは最も高い精度で伝送することができ、それによってセンサの性能は大幅に向上する。
可能な実施において、ピクセルアレイ回路は複数のピクセルを含んでよい。各ピクセルは閾値比較部を含んでよい。閾値比較部は、光強度変化が所定の閾値を超えるときに極性情報を出力するよう構成される。極性情報は、光強度変化が強くなったか弱くなったかを示す。第3符号化部は、第2プリセットビットに基づいて極性情報を符号化するよう更に構成される。この実施において、極性情報も符号化されてよく、光強度が強くなったか弱くなったかは極性情報によって示される。これは、最後に復号化により取得された光強度信号及び極性情報に基づいて、現在の光強度情報を取得するのを助ける。
可能な実施において、各ピクセルは、光強度検出部、読み出し制御部、及び光強度捕捉部を含んでよい。光強度検出部は、光強度検出部に照射された光信号に対応する電気信号を出力するよう構成され、電気信号は光強度を示す。閾値比較部は、電気信号に基づいて、光強度変化が所定の閾値を超えると決定する場合に、極性情報を出力するよう特に構成される。読み出し制御部は、極性情報の受信に応答して、極性情報の受信時に対応する電気信号を捕捉しバッファリングするように光強度捕捉部に指示するよう構成される。第3符号化部は、第3プリセットビットに基づいて第1電気信号を符号化するよう更に構成され、第1電気信号は、光強度捕捉部によって捕捉される、極性情報の第1受信時に対応する電気信号であり、第3プリセットビットは、ビジョンセンサによって前もってセットされる、光強度の特徴情報を表す最大ビットである。完全な符号化が初期状態で実行された後、極性情報、及び光強度変化と所定の閾値との間の差分値しか、その後のイベントでは符号化される必要がないので、符号化のデータ量は有効に削減され得る。完全な符号化とは、ビジョンセンサによって事前定義された最大ビット幅を使用することによってイベントを符号化することを意味する。更に、現時点の光強度情報は、前のイベントの光強度情報と、符号化を通じて取得される前のイベントの極性情報及び差分値とを使用することによって、ロスなしで再形成される。
可能な実施において、第3符号化部は、第3プリセットビットに基づいて、前もってセットされた存続期間のインターバルで、光強度捕捉部によって捕捉された電気信号を符号化するよう更に構成される。完全な符号化は、復号化依存性を低減しかつビットエラーを防ぐために、前もってセットされた存続期間のインターバルで一度実行される。
可能な実施において、第3符号化部は、第1差分値が所定の閾値よりも小さい場合に、第1プリセットビットに基づいて第1差分値を符号化するよう特に構成される。
可能な実施において、第3符号化部は、第1差分値が所定の閾値以上である場合に、第1プリセットビットに基づいて第1残余差分値及び所定の閾値を符号化するよう更に構成され、第1残余差分値は、差分値と所定の閾値との間の差である。
可能な実施において、第3符号化部は、第1残余差分値が所定の閾値以上である場合に、第1プリセットビットに基づいて、第1残余差分値と所定の閾値との間の差である第2残余差分値を符号化し、第1プリセットビットに基づいて1回目に所定の閾値を符号化し、第1プリセットビットに基づいて2回目に所定の閾値を符号化するよう特に構成される。ビジョンセンサは特定の遅延を有することがあるので、光強度変化が所定の閾値よりも大きい場合が2回以上満足される場合にのみ、イベントは生成され得る。このようにして、差分値が所定の閾値以上であるという問題があり、光強度変化は所定の閾値に対して少なくとも2倍である。例えば、第1残余差分値は、所定の閾値よりも小さくないことがある。この場合に、第2残余差分値が符号化される。第2残余差分値が依然として所定の閾値よりも小さくない場合に、第3残余差分値が符号化されてもよく、第3差分値は、第2残余差分値と所定の閾値との間の差であり、所定の閾値は3回目に符号化されてよい。上記のプロセスは、残余差分値が所定の閾値よりも小さくなるまで繰り返される。
第11の態様に従って、本願は、ビジョンセンサチップからデータ信号を読み出すよう構成される取得回路と、差分値を取得するように第1ビットに基づいてデータ信号を復号するよう構成される復号化回路とを含み得る復号化デバイスを提供し、差分値は所定の閾値よりも小さく、差分値は、ビジョンセンサによって測定された光強度変化と所定の閾値との間の差である。光強度変化が所定の閾値を超える場合に、ビジョンセンサは少なくとも1つの光強度変化イベントを生成する。第11の態様で提供される復号化回路は、第10の態様で提供されるビジョンセンサチップに対応し、第10の態様で提供されるビジョンセンサチップによって出力されたデータ信号を復号するよう構成される。第11の態様で提供される復号化回路に従って、対応する差分復号化モードが、ビジョンセンサによって使用される差分符号化モードに対して使用されてよい。
可能な実施において、復号化回路は、極性情報を取得するよう、第2ビットに基づいてデータ信号を復号するよう更に構成され、極性情報は、光強度変化が強くなったか弱くなったかを示す。
可能な実施において、復号化回路は、第3ビットに基づいて、第1時点で受信されたデータ信号を復号して、ビジョンセンサに照射された光信号に対応する、ビジョンセンサによって出力された電気信号を取得するよう更に構成され、第3ビットは、ビジョンセンサによって前もってセットされる、光強度の特徴情報を表す最大ビットである。
可能な実施において、復号化回路は、第3ビットに基づいて、前もってセットされた存続期間のインターバルで、第1時点で受信されたデータ信号を復号するよう更に構成される。
可能な実施において、復号化回路は、差分値及び少なくとも1つの所定の閾値を取得するよう、第1ビットに基づいてデータ信号を復号するよう特に構成される。
第12の態様に従って、本願は、ビジョンセンサチップの作動方法を提供し、方法は、ピクセルアレイ回路が、ピクセルアレイ回路内にあるピクセルに対応する複数のデータ信号を生成するよう、光強度変化を測定することを含んでよく、複数のデータ信号は少なくとも1つの光強度変化イベントを示し、少なくとも1つの光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度変化が所定の閾値を超えることを示す。ビジョンセンサチップの第3符号化部は、第1プリセットビットに基づいて第1差分値を符号化し、第1差分値は、光強度変化と所定の閾値との間の差である。
可能な実施において、ピクセルアレイ回路は複数のピクセルを含んでよく、各ピクセルは閾値比較部を含んでよい。方法は、光強度変化が所定の閾値を超える場合に、閾値比較部が極性情報を出力することを更に含んでよく、極性情報は、光強度変化が強くなったか弱くなったかを示す。第3符号化部は、第2プリセットビットに基づいて極性情報を符号化する。
可能な実施において、各ピクセルは、光強度検出部、読み出し制御部、及び光強度捕捉部を更に含んでよい。方法は、光強度検出部が、光強度検出部に照射された光信号に対応する電気信号を出力することを更に含んでよく、電気信号は光強度を示す。閾値比較部が極性情報を出力することは、電気信号に基づいて、光強度変化が所定の閾値を超えると決定する場合に、閾値比較部が極性情報を出力することを含んでよい。方法は、極性情報の受信に応答して、読み出し制御部が、極性情報の受信時に対応する電気信号を捕捉しバッファリングするように光強度捕捉部に指示することを更に含んでよい。第1電気信号は、第3プリセットビットに基づいて符号化され、第1電気信号は、光強度捕捉部によって捕捉される、極性情報の第1受信時に対応する電気信号であり、第3プリセットビットは、ビジョンセンサによって前もってセットされる、光強度の特徴情報を表す最大ビットである。
可能な実施において、方法は、第3プリセットビットに基づいて、前もってセットされた存続期間のインターバルで、光強度捕捉部によって捕捉された電気信号を符号化することを更に含んでよい。
可能な実施において、ビジョンセンサチップの第3符号化部が第1プリセットビットに基づいて第1差分値を符号化することは、第1差分値が所定の閾値よりも小さい場合に、第1差分値が第1プリセットビットに基づいて符号化されることを含んでよい。
可能な実施において、第3符号化部が第1プリセットビットに基づいて第1差分値を符号化することは、第1差分値が所定の閾値以上である場合に、第1残余差分値及び所定の閾値が第1プリセットビットに基づいて符号化されることを更に含んでよく、第1残余差分値は、差分値と所定の閾値との間の差である。
可能な実施において、第1差分値が所定の閾値以上である場合に、第1残余差分値及び所定の閾値が第1プリセットビットに基づいて符号化されることは、第1残余差分値が所定の閾値以上である場合に、第2残余差分値が第1プリセットビットに基づいて符号化されることを含んでよく、第2残余差分値は第1残余差分値と所定の閾値との間の差である。所定の閾値は、第1プリセットビットに基づいて1回目に符号化される。所定の閾値は、第1プリセットビットに基づいて2回目に所定の閾値を符号化され、第1残余差分値は、第2残余差分値及び2つの所定の閾値を含んでよい。
第13の態様に従って、本願は、取得回路がビジョンセンサチップからデータ信号を読み出すことを含み得る復号化方法を提供する。復号化回路は、差分値を取得するよう第1ビットに基づいてデータ信号を復号し、差分値は所定の閾値よりも小さく、差分値は、ビジョンセンサによって測定された光強度変化と所定の閾値との間の差である。光強度変化が所定の閾値を超える場合に、ビジョンセンサは少なくとも1つの光強度変化イベントを生成する。
可能な実施において、方法は、極性情報を取得するよう、第2ビットに基づいてデータ信号を復号することを更に含んでよく、極性情報は、光強度変化が強くなったか弱くなったかを示す。
可能な実施において、方法は、第3ビットに基づいて、第1時点で受信されたデータ信号を復号して、ビジョンセンサに照射された光信号に対応する、ビジョンセンサによって出力された電気信号を取得することを更に含んでよく、第3ビットは、ビジョンセンサによって前もってセットされる、光強度の特徴情報を表す最大ビットである。
可能な実施において、方法は、第3ビットに基づいて、前もってセットされた存続期間のインターバルで、第1時点で受信されたデータ信号を復号することを更に含んでよい。
可能な実施において、復号化回路が、差分値を取得するよう、第1ビットに基づいてデータ信号を復号することは、差分値及び少なくとも1つの所定の閾値を取得するよう、第1ビットに基づいてデータ信号を復号することを含んでよい。
第14の態様に従って、本願は、動き情報を取得することであり、動き情報は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含む、ことと、動き情報に基づいてイベント画像の少なくとも1フレームを生成することであり、イベント画像の少なくとも1フレームは、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である、ことと、ターゲットタスクを取得し、ターゲットタスクに基づいて反復存続期間を取得することと、イベント画像の更新された少なくとも1フレームを取得するようイベント画像の少なくとも1フレームに対して反復的な更新を実行することであり、イベント画像の少なくとも1フレームに対する反復的な更新の存続期間は反復存続期間を超えない、こととを含む画像処理方法を提供する。
従って、本願の実施において、動いているオブジェクトは、モーションセンサによりモニタされてよく、オブジェクトが検出範囲内で動くときに生成されるオブジェクトの運動軌跡に関する情報は、モーションセンサにより集められる。ターゲットタスクが取得された後、反復存続期間がターゲットタスクに基づき決定されてよい。反復的な更新は、ターゲットタスクに一致するイベント画像を取得するために、反復存続期間においてイベント画像に実行される。
可能な実施において、方法は、イベント画像の少なくとも1フレームに対して任意の反復的な更新を実行することを含み、イベント画像の少なくとも1フレームに対して任意の反復的な更新を実行することは、動きパラメータを取得することであり、動きパラメータは、モーションセンサとターゲットオブジェクトとの間の相対運動のパラメータを示す、ことと、更新されたターゲットイベント画像を取得するよう、動きパラメータに基づいてイベント画像の少なくとも1フレーム内のターゲットイベント画像に反復的な更新を実行することとを含む。
従って、本願のこの実施においては、反復的な更新がイベント画像に実行される場合に、更新は、イベント画像を補償して、より鮮明なイベント画像を取得するよう、オブジェクトとモーションセンサとの間の相対運動のパラメータに基づいて実行されてよい。
可能な実施において、動きパラメータを取得することは、前の反復的な更新プロセスで前もってセットされた最適化モデルの値を取得することと、最適化モデルの値に基づいて計算により動きパラメータを取得することとを含む。
従って、本願のこの実施においては、イベント画像は、最適化モデルの値に基づいて更新されてよく、より良い動きパラメータは、最適化モデルの値に基づいて計算により取得されてよく、次いで、イベント画像は、より鮮明なイベント画像を取得するよう、動きパラメータを使用することによって更新される。
可能な実施において、動きパラメータに基づきイベント画像の少なくとも1フレーム内のターゲットイベント画像に反復的な更新を実行することは、現在の反復的な更新で取得されるターゲットイベント画像を取得するよう、ターゲットイベント画像内にあるターゲットオブジェクトの運動軌跡を動きパラメータに基づき補償することを含む。
従って、本願のこの実施においては、動きパラメータは、イベント画像内にあるターゲットオブジェクトの運動軌跡を補償するために特に使用されてよく、それにより、イベント画像内のターゲットオブジェクトの運動軌跡はより明らかであるから、イベント画像はより鮮明である。
可能な実施において、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって実行される動きの加速度、又はモーションセンサによって実行される動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を示し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を示す。
従って、本願のこの実施においては、動き補償は、イベント画像の鮮明度を向上させるよう、複数の動きパラメータに基づいてイベント画像内のターゲットオブジェクトに対して実行されてよい。
可能な実施において、任意の反復的な更新のプロセスで、方法は、現在の反復の結果が前もってセットされた条件を満足する場合に反復を終了することを更に含み、終了条件は、次の:イベント画像の少なくとも1フレームを反復的に更新する回数が前もってセットされた回数に達すること、又はイベント画像の少なくとも1フレームを更新する過程での最適化モデルの値変化が前もってセットされた値よりも小さいこと、のうちの少なくとも1つを含む。
従って、本願のこの実施においては、反復存続期間をセットすることに加えて、反復回数に関する収束条件、最適化モデルの値、などが更に、収束条件を満足するイベント画像を反復存続期間の制約内で取得するためにセットされてもよい。
第15の態様に従って、本願は、動き情報に基づいてイベント画像の少なくとも1フレームを生成することであり、動き情報は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含み、イベント画像の少なくとも1フレームは、ターゲットオブジェクトが検出範囲内で動くときに生成される運動軌跡の画像である、ことと、動きパラメータを取得することであり、動きパラメータは、モーションセンサとターゲットオブジェクトとの間の相対運動のパラメータを表す、ことと、最適化モデルの値を取得するよう、動きパラメータに基づいて最適化モデルの前もってセットされた値を初期化することと、イベント画像の更新された少なくとも1フレームを取得するよう、最適化モデルの値に基づいてイベント画像の少なくとも1フレームを更新することとを含む画像処理方法を提供する。
本願の実施において、最適化モデルは、イベント画像に対して実行される最初の反復の回数を減らし、イベント画像に対して実行される反復の収束速度を加速させ、より少ない反復回数でより鮮明なイベント画像を取得するために、モーションセンサとターゲットオブジェクトとの間の相対運動のパラメータを用いることによって初期化されてよい。
可能な実施において、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって実行される動きの加速度、又はモーションセンサによって実行される動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を示し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を示す。
可能な実施において、動きパラメータを取得することは、慣性計測装置IMUセンサによって収集されたデータを取得することと、IMUセンサによって収集されたデータに基づいて計算により動きパラメータを取得することとを含む。従って、本願のこの実施においては、動きパラメータは、より正確な動きパラメータを取得するよう、IMUにより計算されてよい。
可能な実施において、動きパラメータに基づいて最適化モデルの前もってセットされた値を初期化した後、方法は、最適化モデルの値に基づいてIMUセンサのパラメータを更新することを更に含み、IMUセンサのパラメータは、データを収集するためにIMUセンサによって使用される。
従って、本願のこの実施においては、IMUのパラメータは、IMUに対して偏差補正を実施するよう、最適化モデルの値に基づいて更に構成されてもよく、それにより、IMUによって収集されたデータはより正確である。
第16の態様に従って、本願は画像処理装置を提供する。画像処理装置は、第14の態様又は第14の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備え、あるいは、画像処理装置は、第15の態様又は第15の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。機能は、ハードウェアによって実施されてよく、あるいは、ハードウェアが対応するソフトウェアを実行することによって実施されてよい。ハードウェア又はソフトウェアは、機能に対応する1つ以上のモジュールを含む。
第17の態様に従って、本願は、動き情報を取得することであり、動き情報は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含む、ことと、動き情報に基づいてイベント画像を生成することであり、イベント画像は、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、ことと、イベント画像の少なくとも1フレームに対して任意の反復的な更新を実行することを含み、イベント画像の少なくとも1フレームに対して任意の反復的な更新を実行することは、第1ピクセルのカラータイプが少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルが第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルが、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる、ことを含む。
従って、本願のこの実施においては、撮影されたオブジェクトとモーションセンサとの間に相対運動がある場合に、画像再構築が、再構築画像を取得するよう、モーションセンサによって収集されたデータに基づいて実行されてよく、RGBセンサによる撮影が不鮮明であるときでさえ、鮮明な画像が取得され得る。
可能な実施において、第1再構築画像を取得するよう、イベント画像内にある各ピクセルに対応するカラータイプを、イベント画像に含まれる少なくとも1つのイベントに基づいて決定することは、第1方向でイベント画像内の各ピクセルをスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得することを含み、スキャンにより、第1ピクセルにイベントがあることが見つけられる場合に、第1ピクセルのカラータイプは第1カラータイプとして決定され、第1方向で第1ピクセルの前に配置された第2ピクセルにイベントがない場合に、第2ピクセルに対応するカラータイプは第2カラータイプであり、第1カラータイプ及び第2カラータイプは異なるカラータイプであり、イベントが存在するピクセルは、モーションによってモニタされた位置変化に対応する、イベント画像内にあるピクセルに相当する。
本願のこの実施においては、画像再構築は、より鮮明なイベント画像を取得するよう、イベント画像をスキャンする方法でイベント画像内の各ピクセルのイベントに基づいて実行されてよい。従って、本願のこの実施においては、画像再構築は、再構築された画像を効率的にかつ即座に取得するよう、モーションセンサによって収集された情報を使用することによって実行されてよく、それによって、再構築された画像に対して画像認識、画像分類、などをその後に実行する効率を改善する。たとえ、動いているオブジェクトが撮影されたり、撮影時に手ぶれがあったりする、など、いくつかのシナリオで、より鮮明なRGB画像が撮影され得ないとしても、画像再構築が、モーションセンサによって収集された情報に基づいて実行され得るので、より鮮明な画像が、認識又は分類などのその後のタスクを容易にするために、即座にかつ正確に再構築され得る。
可能な実施において、第1方向は前もってセットされた方向であるか、又は第1方向は、IMUによって収集されたデータに基づき決定されるか、又は第1方向は、カラーRGBカメラによって撮影された画像に基づき決定される。従って、本願のこの実施においては、イベント画像をスキャンする方向は、より多くのシナリオに適応するよう、複数の方法で決定されてよい。
可能な実施において、第1方向で第1ピクセルの後に配置されている複数の連続した第3ピクセルにイベントがない場合に、複数の第3ピクセルに対応するカラータイプは第1カラータイプである。従って、本願のこの実施においては、複数の連続ピクセルにイベントがない場合に、実際のシナリオで同じオブジェクトの動きによりエッジが不鮮明である場合を回避するために、連続したピクセルに対応するカラータイプは同じである。
可能な実施において、第1方向で第1ピクセルの後に配置されかつ第1ピクセルに隣接している第4ピクセルにイベントが存在する場合、かつ、第1方向において第4ピクセルの後に配置されかつ第4ピクセルに隣接している第5ピクセルにイベントがない場合に、第4ピクセル及び第5ピクセルの両方に対応するカラータイプは第1カラータイプである。
従って、イベント画像内の少なくとも2つの連続したピクセルがイベントを有する場合に、第2イベントがスキャンにより検出されるとき、再構築カラータイプは変更されなくてもよく、それによって、ターゲットオブジェクトの過剰に広いエッジによって引き起こされる再構築画像の不鮮明なエッジを回避する。
可能な実施において、第1方向でイベント画像内の各ピクセルをスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得するした後、方法は、第1方向とは異なる第2方向でイベント画像をスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第2再構築画像を取得することと、第1再構築画像及び第2再構築画像を融合して、更新された第1再構築画像を取得することを更に含む。
本願の実施において、イベント画像は、複数の方向で複数の再構築画像を取得するよう、異なる方向でスキャンされてよく、次いで、複数の再構築画像は、より正確な再構築画像を取得するよう融合される。
可能な実施において、方法は、第1再構築画像が前もってセットされた要件を満足しない場合に、動き情報を更新し、更新された動き情報に基づいてイベント画像を更新し、更新されたイベント画像に基づいて、更新された第1再構築画像を取得することを更に含む。
本願のこの実施においては、イベント画像は、モーションセンサによって収集された情報に基づき更新されてよく、それにより、更新されたイベント画像はより鮮明である。
可能な実施において、イベント画像に含まれる少なくとも1つのイベントに基づいて、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得する前に、方法は、補償されたイベント画像を取得するよう、ターゲットオブジェクトとモーションセンサとの間の相対運動の動きパラメータに基づいてイベント画像を補償することを更に含み、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって実行される動きの加速度、又はモーションセンサによって実行される動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を表し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を表す。
従って、本願のこの実施においては、動き補償は、動きパラメータに基づきイベント画像に対して更に実行されてよく、それにより、イベント画像はより鮮明であり、更には、再構築により得られた再構築画像はより鮮明である。
可能な実施において、再構築画像内のピクセルのカラータイプは、カラーRGBカメラによって収集された色に基づいて決定される。本願のこの実施においては、実際のシナリオの色は、RGBカメラに基づいて決定されてよく、それにより、再構築画像の色は実際のシナリオの色と一致するので、ユーザエクスペリエンスは改善される。
可能な実施において、方法は、RGBカメラによって収集されたデータに基づいてRGB画像を取得することと、RGB画像と第1再構築画像とを融合して、更新された第1再構築画像を取得することとを更に含む。従って、本願のこの実施においては、RGB画像及び再構築画像は融合されてよく、それにより、最終的に取得された再構築画像はより鮮明である。
第18の態様に従って、本願は画像処理装置を提供する。画像処理装置は、第18の態様又は第18の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。機能は、ハードウェアによって実施されてよく、あるいは、ハードウェアが対応するソフトウェアを実行することによって実施されてよい。ハードウェア又はソフトウェアは、機能に対応する1つ以上のモジュールを含む。
第19の態様に従って、本願は、第1イベント画像(イベント画像)及び複数の撮影された第1画像を取得することであり、第1イベント画像は、複数の第1画像の撮影期間に前もってセットされた範囲内で動くオブジェクトに関する情報を含み、複数の第1画像に対応する露出時間は異なり、前もってセットされた範囲はカメラの撮影範囲である、ことと、第1イベント画像に基づいて、複数の第1画像の夫々に対応する第1ぶれ度を計算することであり、第1ぶれ度は、複数の第1画像の夫々を撮影している間のカメラの手ぶれの程度を表す、ことと、各第1画像に対応する第1ぶれ度に基づいて複数の第1画像の夫々の融合重みを決定することであり、複数の第1画像の夫々に対応する第1ぶれ度は融合重みと負の相関関係にある、ことと、各第1画像の融合重みに基づき複数の第1画像を融合してターゲット画像を取得することとを含む画像処理方法を提供する。
従って、本願のこの実施においては、RGB画像を撮影している間のぶれ度は、イベント画像に基づいて定量化されてよく、各RGB画像の融合重みは、各RGB画像のぶれ度に基づいて決定されてよい。一般に、ぶれ度が低いRGB画像ほど、より高い融合重みに対応し、それにより、最終的に取得されるターゲット画像に含まれる情報は、より鮮明なターゲット画像を取得するように、より鮮明なRGB画像になる傾向がある。一般に、ぶれ度が高いRGB画像ほど、より小さい重み値に対応し、ぶれ度が低いRGB画像ほど、より大きい重み値に対応し、それにより、最終的に取得されるターゲット画像に含まれる情報は、より鮮明なRGB画像に含まれる情報になる傾向がある。このようにして、最終的に取得されるターゲット画像はより鮮明であり、ユーザエクスペリエンスは改善される。更に、ターゲット画像がその後の画像認識、特徴抽出、などに使用される場合に、取得された認識結果又は抽出された特徴はより正確である。
可能な実施において、第1ぶれ度に基づいて複数の第1画像の夫々の融合重みを決定する前に、方法は、第1ぶれ度が第1プリセット値以下であり、第2プリセットよりも大きい場合に、ぶれ補正後の各第1画像を取得するよう各第1画像に対してぶれ補正処理を実行することを更に含む。
従って、本願のこの実施においては、手ぶれがある場合が、動的データに基づいて区別され得る。手ぶれがない場合に、直接的な融合が実行される。手ぶれが強くない場合、適応的にぶれ補正がRGB画像に実行される。手ぶれが強い場合、RGB画像は再撮影される。複数のぶれ度合いを含むシナリオが使用され、強い汎化能力が存在する。
可能な実施において、第1ぶれ度に基づいて複数の第1画像の夫々の融合重みを決定することは、第1ぶれ度が第1プリセット値よりも大きい場合に、第2画像を取得するよう再撮影することであり、第2画像の第2ぶれ度は第1プリセット値以下である、ことと、各第1画像の第1ぶれ度に基づいて各第1画像の融合重みを計算し、第2ぶれ度に基づいて第2画像の融合重みを計算することとを含み、各第1画像の融合重みに基づいて複数の第1画像を融合してターゲット画像を取得することは、各第1画像の融合重み及び第2画像の融合重みに基づいて複数の第1画像及び第2画像を融合して、ターゲット画像を取得することを含む。
一般に、ぶれ度合いが高いRGB画像ほど、より小さい重み値に対応し、ぶれ度合いが低いRGB画像ほど、より大きい重み値に対応し、それにより、最終的に取得されるターゲット画像に含まれる情報は、より鮮明なRGB画像に含まれる情報になる傾向がある。このようにして、最終的に取得されるターゲット画像はより鮮明であり、ユーザエクスペリエンスは改善される。更に、ターゲット画像がその後の画像認識、特徴抽出、などに使用される場合に、取得された認識結果又は抽出された特徴はより正確である。ぶれ度合いが高いRGB画像の場合に、ぶれ度合いが低い、より鮮明なRGB画像を取得するために、RGB画像は再撮影されてよく、それにより、より鮮明な画像がその後の画像融合に使用され得るので、最終的なターゲット画像をより鮮明にする。
可能な実施において、第2画像を取得するよう再撮影する前に、方法は、第2イベント画像取得することであり、第2イベント画像は、第1イベント画像が取得される前に取得される、ことと、第2イベント画像に含まれる情報に基づいて露出パラメータを計算により取得することであり、露出パラメータは、第2画像を撮影するために使用される、こととを更に含む。
従って、本願のこの実施においては、露出ポリシーは、ダイナミックセンシングカメラ(つまり、モーションセンサ)によって収集された情報を使用することによって、適応的に調整される。具体的に言えば、撮影範囲内のテクスチャに関するダイナミックセンシング情報の高ダイナミックレンジセンシング特徴を使用することによって、露出時間が適切な画像が適応的に再撮影され、それによって、強い又は暗い光の領域でのテクスチャ情報の捕捉に関するカメラの能力は改善される。
可能な実施において、第2画像を取得するよう再撮影することは、第1イベント画像を複数の領域に分割し、第3画像を複数の領域に分割することであり、第3画像は、複数の第1画像の中で露出値が最小である第1画像であり、第1イベント画像に含まれる複数の領域の位置は、第3画像に含まれる複数の領域の位置に対応し、露出値は、露出時間、露出量、又は露出レベル、のうちの少なくとも1つを含む、ことと、第1イベント画像内の各領域が第1テクスチャ情報を含むかどうか、及び第3画像内の各領域が第2テクスチャ情報を含むかどうかを計算することと、第1イベント画像内の第1領域が第1テクスチャ情報を含み、第1領域に対応する、第3画像内の領域が第2テクスチャ情報を含まない場合に、露出パラメータに基づいて撮影して第2画像を取得することであり、第1領域は第1動的領域内のいずれかの領域である、こととを更に含む。
従って、本願のこの実施においては、第1動的領域内の領域がテクスチャ情報を含み、その領域に対応する、最小露出値を有するRGB画像内にある領域がテクスチャ情報を含まない場合に、それは、RGB画像内の領域のぼけ度合いが比較的に高いことを示し、RGB画像は再撮影され得る。第1イベント画像内の各領域がテクスチャ情報を含まない場合に、RGB画像は再撮影される必要がない。
第20の態様に従って、本願は、最初に、ターゲット画像の動き情報を検出することであり、動き情報は、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含んでよく、前もってセットされた範囲は、カメラの撮影範囲である、ことと、次いで、動き情報に基づいて焦点合わせ情報を決定することであり、焦点合わせ情報は、前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせるためのパラメータを含む、ことと、次いで、焦点合わせ情報に基づいて前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせ、前もってセットされた範囲内の画像を撮影することとを含む画像処理方法を提供する。
従って、本願の実施において、カメラの撮影範囲内のターゲットオブジェクトの運動軌跡が検出され得、次いで、焦点合わせ情報が、ターゲットオブジェクトの運動軌跡に基づき決定され、焦点合わせは、より鮮明な画像を撮影するために完了される。ターゲットオブジェクトが動いているとしても、ターゲットオブジェクトは、正確に焦点を合わせられ得、動き状態に対応する鮮明な画像が撮影可能であり、それによってユーザエクスペリエンスは改善される。
可能な実施において、動き情報に基づいて焦点合わせ情報を決定することは、動き情報、つまり、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報に基づいて、前もってセットされた時間内のターゲットオブジェクトの運動軌跡を予測して、予測領域を取得することであり、予測領域は、ターゲットオブジェクトが前もってセットされた時間内に位置している、予測により取得される領域である、ことと、予測領域に基づいて焦点領域を決定することであり、焦点領域は、ターゲットオブジェクトに焦点を合わせる少なくとも1つの焦点を含み、焦点合わせ情報は、少なくとも1つの焦点の位置情報を含む、こととを含んでよい。
従って、本願のこの実施においては、ターゲットオブジェクトの将来の運動軌跡が予測され得、焦点領域は、予測された領域に基づいて決定され得るので、ターゲットオブジェクトに焦点を合わせることは、正確に実行することができる。ターゲットオブジェクトが高速で動いているとしても、本願のこの実施においては、ターゲットオブジェクトは、ターゲットオブジェクトが焦点領域内にいることを可能にするように、予測的に前もって焦点を合わせられ得るので、高速で動いているより鮮明なターゲットオブジェクトが撮影される。
可能な実施において、予測領域に基づいて焦点領域を決定することは、予測領域が前もってセットされた条件を満足する場合に、予測領域を焦点領域として決定すること、又は予測領域が前もってセットされた条件を満足しない場合に、動き情報に基づいて、前もってセットされた時間内のターゲットオブジェクトの運動軌跡を再予測して、新しい予測領域を取得し、新しい予測領域に基づいて焦点領域を決定することを含んでよい。前もってセットされた条件は、予測領域が完全なターゲットオブジェクトを含むこと、予測領域の面積が前もってセットされた値よりも広いこと、などを含む。
従って、本願のこの実施においては、予測領域が前もってセットされた条件を満足する場合にのみ、焦点領域は予測領域に基づいて決定され、カメラは、撮影を行うようトリガされ、また、予測領域が前もってセットされた条件を満足しない場合に、カメラは、撮影を行うようトリガされない。従って、ターゲットオブジェクトの不完全な画像が撮影されたり、意味の無い撮影が行われたりすることは、回避され得る。更に、撮影が実行されない場合、カメラは無効状態にあってよく、カメラは、予測領域が前もってセットされた条件を満足する場合にのみ撮影を行うようトリガされるので、カメラによって生じる電力消費は削減され得る。
可能な実施において、動き情報は、ターゲットオブジェクトの運動方向及び運動速度のうちの少なくとも1つを更に含む。動き情報に基づいて、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測して、予測領域を取得することは、運動方向及び/又は運動速度と、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡とに基づいて、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測して、予測領域を取得することを含んでよい。
従って、本願のこの実施においては、将来の前もってセットされた期間内のターゲットオブジェクトの運動軌跡は、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡、運動方向及び/又は運動速度、などに基づき予測され得る。従って、ターゲットオブジェクトが将来の前もってセットされた期間に位置している領域は、正確に予測することができ、ターゲットオブジェクトは、より正確に焦点を合わせることができ、それによってより鮮明な画像が撮影される。
可能な実施において、運動方向及び/又は運動速度と、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡とに基づいて、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測して、予測領域を取得することは、運動方向及び/又は運動速度と、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡とに基づいて、ターゲットオブジェクトが位置している領域の中心点での時間とともに変化する変化関数をフィッティングすることと、次いで、変化関数に基づいて計算により、予測される中心点を取得することであり、予測される中心点は、ターゲットオブジェクトが前もってセットされた期間に位置している領域の、予測により取得される中心点である、ことと、予測された中心点に基づいて予測領域を取得することとを含んでよい。
従って、本願のこの実施においては、ターゲットオブジェクトが位置している領域の中心点の、時間とともに変化する変化関数は、ターゲットオブジェクトが動いているときに生成されるターゲットオブジェクトの運動軌跡に基づいてフィッティングされてよく、次いで、ターゲットオブジェクトが将来の時点に位置している領域の中心点が、変化関数に基づいて予測される。予測領域は中心点に基づいて決定されるので、より正確な焦点合わせがターゲットオブジェクトに対して実行可能であり、より鮮明な画像が撮影され得る。
可能な実施において、前もってセットされた範囲内の画像は、RGBカメラによって撮影されてよく、焦点合わせ情報に基づいて前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせることはRGBカメラの複数の焦点の中で、フォーマス領域の中心点から最小ノルム距離を有する少なくとも1つのフォーマスをフォーマスとして使用することによって、焦点合わせを実行することを含んでよい。
従って、本願のこの実施においては、焦点領域の中心点からの最も近いノルム距離を有する少なくとも1つの焦点は、ターゲットオブジェクトに対する焦点合わせを完了するために、焦点合わせを実行するための焦点として選択されてよい。
可能な実施において、動き情報は、ターゲットオブジェクトが現在位置している領域を含み、動き情報に基づいて焦点合わせ情報を決定することは、ターゲットオブジェクトが現在位置している領域を焦点領域として決定することを含んでよく、焦点領域は、ターゲットオブジェクトに対する焦点合わせのための少なくとも1つの焦点を含み、焦点合わせ情報は、少なくとも1つの焦点の位置情報を含む。
従って、本願のこの実施においては、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡に関する情報は、ターゲットオブジェクトが現在位置している領域と、ターゲットオブジェクトが過去に位置していた領域とを含んでよい。ターゲットオブジェクトが現在位置している領域は、ターゲットオブジェクトに対する焦点合わせを完了するために、焦点領域として使用されてよい。このようにして、より鮮明な画像が撮影され得る。
可能な実施において、前もってセットされた範囲内で画像を撮影する前に、方法は、露出パラメータを取得することを更に含んでよく、前もってセットされた範囲内で画像を撮影することは、露出パラメータに基づいて、前もってセットされた範囲内で画像を撮影することを含んでよい。
従って、本願のこの実施においては、露出パラメータは、より鮮明な画像を取得するよう、露出パラメータに基づいて撮影を完了するために、更に調整されてよい。
可能な実施において、露出パラメータを取得することは、動き情報に基づいて露出パラメータを決定することを含んでよく、露出パラメータは露出時間を含み、動き情報は、ターゲットオブジェクトの運動速度を含み、露出時間は、ターゲットオブジェクトの運動速度との負の相関関係にある。
従って、本願のこの実施においては、露出時間は、露出時間がターゲットオブジェクトの運動速度と一致するように、ターゲットオブジェクトの運動速度に基づき決定されてよい。例えば、より速い運動速度は、より短い露出時間を示し、より遅い運動速度は、より長い露出時間を示す。過剰露出、露出不足、などは回避することができ、それにより、より鮮明な画像がその後に撮影され得、ユーザエクスペリエンスは改善され得る。
可能な実施において、露出パラメータを取得することは、光強度に基づいて露出パラメータを決定することを含んでよく、露出パラメータは露出時間を含み、前もってセットされた範囲内の光強度の値は、露出時間との負の相関関係にある。
従って、本願のこの実施においては、露出時間は、検出された光強度に基づいて決定されてよい。光強度がより高い場合に、露出時間は短くなり、光強度がより低い場合に、露出時間は長くなる。従って、適切な露出の量が確保され得、より鮮明な画像が撮影され得る。
可能な実施において、前もってセットされた範囲内で画像を撮影した後、方法は、前もってセットされた範囲内のターゲット画像を取得するよう、画像内のターゲットオブジェクトに対応する動きに関するモニタされた情報に基づいて、前もってセットされた範囲内の画像に対して融合を実行することを更に含んでよい。
従って、本願のこの実施においては、画像が撮影される場合に、前もってセットされた範囲内のターゲットオブジェクトの動きは、画像内のターゲットオブジェクトに対応する動きに関する情報、例えば、前もってセットされた範囲内のターゲットオブジェクトの位置及びターゲットオブジェクトの輪郭などの情報を取得するよう、更にモニタされてよい。更に、エンハンスメント処理が、より鮮明なターゲット画像を取得するよう、情報に基づいて撮影画像に対して実行される。
可能な実施において、ターゲットオブジェクトの動き情報を検出することは、動き情報を取得するよう、ダイナミックビジョンセンサ(dynamic vision sensor,DVS)により、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタすることを含んでよい。
従って、本願のこの実施においては、動いているオブジェクトは、正確な動き情報を取得するよう、DVSによりカメラの撮影範囲内でモニタされてよい。ターゲットオブジェクトが高速動作状態にあるとしても、ターゲットオブジェクトの動き情報は、DVSによりたいミリーに捕捉され得る。
第21の態様に従って、本願は画像処理装置を更に提供する。画像処理装置は、第19の態様又は第19の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備え、あるいは、画像処理装置は、第20の態様又は第20の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。機能は、ハードウェアによって実施されてよく、あるいは、ハードウェアが対応するソフトウェアを実行することによって実施されてよい。ハードウェア又はソフトウェアは、機能に対応する1つ以上のモジュールを含む。
第22の態様に従って、本願の実施形態は、グラフィカルユーザインターフェースGUIを提供する。グラフィカルユーザインターフェースは、電子デバイスに記憶されており、電子デバイスは、ディスプレイ、メモリ、及び1つ以上のプロセッサを含み、1つ以上のプロセッサは、メモリに記憶されている1つ以上のコンピュータプログラムを実行するよう構成される。グラフィカルユーザインターフェースは、ターゲットオブジェクトを撮影するためのトリガ操作に基づいて、及び焦点合わせ情報に基づいて、前もってセットされた範囲内で画像を撮影することに応答して、前もってセットされた範囲内の画像を表示するよう構成され、前もってセットされた範囲は、カメラの撮影範囲であり、焦点合わせ情報は、前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせるためのパラメータを含み、焦点合わせ情報は、ターゲットオブジェクトの動き情報に基づき決定され、動き情報は、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含む。
第22の態様及び第22の態様の可能な実施のうちのいずれか1つによってもたらされる有利な効果については、第20の態様及び第20の態様の可能な実施のうちのいずれか1つの記載を参照されたい。
可能な実施において、グラフィカルユーザインターフェースは、ターゲットオブジェクトが前もってセットされた期間内に位置しており、予測を通じて取得される予測領域を取得するよう、動き情報に基づいて前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測し、予測領域に基づいて焦点領域を決定することに応答して、焦点領域をディスプレイに表示するよう構成され、焦点領域は、ターゲットオブジェクトに焦点を合わせるための少なくとも1つの焦点を含み、焦点合わせ情報は、少なくとも1つの焦点の位置情報を含む。
可能な実施において、グラフィカルユーザインターフェースは、予測領域が前もってセットされた条件を満足する場合に、予測領域に基づいて焦点領域を決定することに応答して、焦点領域をディスプレイに表示すること、又は予測領域が前もってセットされた条件を満足しない場合に、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を動き情報に基づいて再予測して、新しい予測領域を取得し、新しい予測領域に基づいて焦点領域を決定することに応答して、焦点領域をディスプレイに表示することを具体的に含んでよい。
可能な実施において、動き情報は、ターゲットオブジェクトの運動方向及び運動速度のうちの少なくとも1つを更に含む。グラフィカルユーザインターフェースは、運動方向及び/又は運動速度と、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡とに基づいて、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測して、予測領域を取得することに応答して、予測領域をディスプレイに表示することを具体的に含んでよい。
可能な実施において、グラフィカルユーザインターフェースは、運動方向及び/又は運動速度と、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡とに基づいて、ターゲットオブジェクトが位置している領域の中心点の、時間とともに変化する変化関数をフィッティングし、変化関数に基づいて計算により、ターゲットオブジェクトが位置している、予測により取得される中心点である予測された中心点を取得し、予測された中心点に基づいて予測領域を取得することに応答して、予測領域をディスプレイに表示することを具体的に含んでよい。
可能な実施において、予測範囲内の画像は、RGBカメラによって撮影され、グラフィカルユーザインターフェースは、RGBカメラの複数の焦点の中で、焦点領域の中心点から最小ノルム距離を有する少なくとも1つの焦点を焦点として使用することによって、焦点合わせを実行することに応答して、焦点として使用される少なくとも1つの焦点に基づいて焦点合わせを実行することによって撮影された画像をディスプレイに表示することを具体的に含んでよい。
可能な実施において、動き情報は、ターゲットオブジェクトが現在位置している領域を含み、グラフィカルユーザインターフェースは、ターゲットオブジェクトが現在位置している領域を、ターゲットオブジェクトに焦点を合わせるための少なくとも1つの焦点を含む焦点領域として使用し、焦点合わせ情報が少なくとも1つの焦点の位置情報を含むことに応答して、焦点領域をディスプレイに表示することを具体的に含んでよい。
可能な実施において、グラフィカルユーザインターフェースは、前もってセットされた範囲内でターゲット画像を取得するよう、前もってセットされた範囲内の画像に、モニタされているターゲットオブジェクト及び画像に対応する動き情報に基づいて、焦点を合わせることに応答して、ターゲット画像をディスプレイに表示することを更に含んでよい。
可能な実施において、動き情報は、ダイナミックビジョンセンサDVSにより、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタすることによって、取得される。
可能な実施において、グラフィカルユーザインターフェースは、前もってセットされた範囲内の画像が撮影される前に露出パラメータを取得することに応答して、露出パラメータをディスプレイに表示することと、露出パラメータに基づいて前もってセットされた範囲内で画像を撮影することに応答して、露出パラメータに基づいて前もってセットされた範囲内で撮影された画像をディスプレイに表示することとを具体的に含んでよい。
可能な実施において、露出パラメータは、動き情報に基づいて決定され、露出パラメータは、露出時間を含み、露出時間は、ターゲットオブジェクトの運動速度との負の相関関係にある。
可能な実施において、露出パラメータは、光強度に基づき決定され、光強度は、カメラによって検出された光強度であってよく、あるいは、モーションセンサによって検出された光強度であってよく、露出パラメータは、露出時間を含み、前もってセットされた範囲内の光強度の値は、露出時間との負の相関関係にある。
第23の態様に従って、本願は画像処理方法を提供する。方法は、最初に、モーションセンサ(例えば、DVS)及びカメラのRGBセンサによりイベントストリーム及びRGB画像(第1RGB画像と呼ばれ得る)のフレームを夫々取得することであり、取得されたイベントストリームは、イベント画像の少なくとも1フレームを含み、イベント画像の少なくとも1フレームの夫々は、ターゲットオブジェクトがモーション1003のモニタリング範囲内で動くときに生成されるターゲットオブジェクト(つまり、動いているオブジェクト)の運動軌跡に関する情報に基づいて生成され、第1RGB画像は、露出時間内の各時点でカメラによって捕捉された撮影シナリオの重ね合わせである、ことと、イベントストリーム及び第1RGB画像が取得された後、イベントストリームに基づいてマスクを構成することであり、マスクは、イベントストリーム内のイベント画像の各フレームの動き領域を決定するためのものであり、つまり、RGB画像内の動いているオブジェクトの位置を決定するためのものである、ことと、イベントストリーム、第1RGB画像、及びマスクが上記のステプに従って取得された後、イベントストリーム、第1RGB画像、及びマスクに基づいて第2RGB画像を取得することであり、第2RGB画像は、ターゲットオブジェクトを除くことによって取得されたRGB画像である、こととを含む。
本願の上記の実施において、動いているオブジェクトは、動いているオブジェクトを含まないRGB画像を取得するよう、1つのRGB画像及びイベントストリームにのみ基づいて除去されてよい。複数のRGB画像及びイベントストリームに基づいて動いているオブジェクトを除去する従来技術での方法と比較して、この方法は、ユーザによって撮影されたただ1つのRGB画像しか必要とせず、より良いユーザエクスペリエンスを提供する。
可能な実施において、イベントストリームに基づいてマスクを構成する前に、方法は、モーションセンサが、第1時点で、突然の動きの変化がモニタリング範囲内で起きたことをモニタする場合に、第3RGB画像を撮影するようカメラをトリガすることを更に含んでよく、イベントストリーム、第1RGB画像、及びマスクに基づいて第2RGB画像を取得することは、イベントストリーム、第1RGB画像、第3RGB画像、及びマスクに基づいて第2RGB画像を取得することを含む。この場合に、イベントストリーム、第1RGB画像、及びマスクに基づいて第2RGB画像を取得することは、イベントストリーム、第1RGB画像、第3RGB画像、及びマスクに基づいて第2RGB画像を取得することであってよい。
本願の上記の実施において、モーションセンサによって収集された動きデータに突然の動きの変化があるかどうかが決定されてよい。突然の動きの変化がある場合に、カメラは、第3RGB画像を撮影するようトリガされる。次いで、イベントストリーム及び第1RGB画像のフレームが、上記の方法と同にようにして取得され、マスクがイベントストリームに基づいて構成される。最後に、動いているオブジェクトを含まない第2RGB画像が、イベントストリーム、第1RGB画像、第3RGB画像、及びマスクに基づいて取得される。第3RGB画像は、突然の動きの変化の最中に自動的にスナップショットを撮るようカメラをトリガすることによって取得され、感度が高い。従って、画像のフレームは、動いているオブジェクトに変化があるとユーザが知覚すると最初に取得され得る。この場合に、より良い除去効果は、第3RGB画像及び第1RGB画像に基づいて、動いているオブジェクトに対して実施され得る。
可能な実施において、モーションセンサが、第1時点で、突然の動きの変化がモニタリング範囲内で起きていることをモニタすることは、モニタリング範囲内で、第1時点でモーションセンサによって収集された第1イベントストリームの生成領域と、第2時点でモーションセンサによって収集された第2イベントストリームの生成領域との間の重複部分が、前もってセットされた値よりも小さいことを含む。
本願の上記の実施で、突然の動きの変化を決定する条件は、具体的に記載されており、実行可能である。
本願の上記の実施において、イベントストリームに基づいてマスクを構成する方法は、次の通りであってよい:最初に、モーションセンサのモニタリング範囲は、複数の前もセットされた隣接領域(隣接領域kとしてセットされる)に分けられてよい。次いで、各隣接領域kの範囲で、前もってセットされた時間Δtの範囲内でのイベントストリーム内のイベント画像の数が閾値Pを超える場合に、対応する隣接領域が動き領域として決定され、動き領域は0としてマークされてよく、前もってセットされた時間Δtの範囲内でのイベントストリーム内のイベント画像の数が閾値Pを超えない場合に、対応する隣接領域は背景領域として決定され、背景領域は1としてマークされてよい。
本願の上記の実施において、マスク構成方法は具体的に記載されており、操作するのが簡単かつ容易である。
第24の態様に従って、本願は画像処理装置を更に提供する。画像処理装置は、第22の態様又は第22の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。機能は、ハードウェアによって実施されてよく、又はハードウェアが対応するソフトウェアを実行することによって実施されてよい。ハードウェア又はソフトウェアは、機能に対応する1つ以上のモジュールのモジュールを含む。
第24の態様に従って、本願は、自己位置推定及び環境地図作成の同時実行(simultaneously localization and mapping,SLAM)シナリオに適用されるポーズ推定方法を提供する。方法は、端末が第1イベント画像及び第1RGB画像を取得することを含み、第1イベント画像は、時系列において第1ターゲット画像とアライメントされ、第1ターゲット画像はRGB画像及びデプス画像を含み、第1イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である。端末は、第1イベント画像の積分時間を決定する。積分時間が第1閾値に満たない場合に、端末は、第1ターゲット画像がポーズ推定を実行するためのものではないことを決定する。端末は、第1イベント画像に基づいてポーズ推定を実行する。
この解決法では、端末が、イベント画像の積分時間が閾値に満たない場合に基づいて、RGBカメラが有効な環境情報を収集することが困難であるシナリオに端末が現在あることを決定する場合に、ポーズ推定精度を向上させるために、端末は、品質が悪いRGB画像がポーズ推定を実行するためのものでないと決定する。
任意に、可能な実施において、方法は、第1イベント画像の取得時間及び第1ターゲット画像の取得時間を決定することと、第1イベント画像の取得時間と第1ターゲット画像の取得時間との間の時間差が第2閾値に満たない場合に、第1イベント画像が時系列において第1ターゲット画像とアライメントされていることを決定することとを更に含む。第2閾値は、SLAMの精度及びRGBカメラによってRGB画像を捕捉する頻度に基づいて決定されてよい。例えば、第2閾値の値は、5ミリ秒又は10ミリ秒であってよい。
任意に、可能な実施において、第1イベント画像を取得することは、N個の連続したDVSイベントを取得することと、N個の連続したDVSイベントを第1イベント画像に統合することとを含む。方法は、N個の連続したDVSイベントの取得時間に基づき第1イベント画像の取得時間を決定することを更に含む。
任意に、可能な実施において、第1イベント画像の積分時間を決定することは、第1イベント画像に統合されるN個の連続したDVSイベントを決定することと、N個の連続したDVSイベントの中の最初のDVSイベントの取得時間及び最後のDVSイベントの取得時間に基づいて第1イベント画像の積分時間を決定することとを含む。第1イベント画像はN個の連続したDVSイベントを統合することによって取得されるので、端末は、N個の連続したDVSイベントに対応する取得時間に基づいて、第1イベント画像の取得時間を決定し得る、言い換えると、第1イベント画像の取得時間がN個の連続したDVSイベントの中で最初のDVSイベントの取得から最後のDVSイベントの取得までの期間であると決定し得る。
任意に、可能な実施において、方法は、第2イベント画像を取得することであり、第2イベント画像は、ターゲットオブジェクトがモーションセンサの前記検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像であり、モーションセンサが第1イベントを検出及び取得する期間は、モーションセンサが第2イベント画像を検出及び取得する期間とは異なる、ことと、RGB画像が時系列において第2イベント画像とアライメントされない場合に、第2イベント画像がポーズ推定を一緒に行うためのRGB画像を有さないことを決定することと、第2イベント画像に基づいてポーズ推定を実行することとを更に含む。
任意に、可能な実施において、第2イベント画像に基づいてポーズ推定を実行することの前に、方法は、時系列において第2イベント画像とアライメントされる慣性計測装置IMUデータがあると決定する場合に、第2イベント画像及び第2イベント画像に対応するIMUデータに基づきポーズを決定すること、又は慣性計測装置IMUデータが時系列において第2イベント画像とアライメントされないと決定する場合に、第2イベント画像にのみ基づいてポーズを決定することを更に含む。
任意に、可能な実施において、方法は、第2ターゲット画像を取得することであり、第2ターゲット画像はRGB画像又はデプス画像を含む、ことと、イベント画像が時系列において第2ターゲット画像とアライメントされない場合に、第2ターゲット画像がポーズ推定を一緒に実行するためのイベント画像を有さないことを決定することと、第2ターゲット画像に基づいてポーズを決定することとを更に含む。
任意に、可能な実施において、方法は、第1イベント画像及びディクショナリに基づいてループバック検出を実行することを更に含み、ディクショナリは、イベント画像に基づいて構成されたディクショナリである。具体的に言えば、ループバック検出を実行する前に、端末は、前もってイベント画像に基づいてディクショナリを構成してよく、それにより、ループバック検出は、ループバック検出を実行する過程でディクショナリに基づいて実行することができる。
任意に、可能な実施において、方法は、複数のイベント画像を取得することであり、複数のイベント画像は訓練用のイベント画像であり、複数のイベント画像は、異なるシナリオにおいて端末によって撮影されたイベント画像であってよい、ことと、複数のイベント画像の視覚的特徴を取得することであり、視覚的特徴は、例えば、画像のテクスチャ、パターン、又はグレースケール統計値などの特徴を含んでよい、ことと、クラスタ化された視覚的特徴を取得するようクラスタ化アルゴリズムに基づいて視覚的特徴をクラスタ化することであり、クラスタ化された視覚的特徴は対応する記述子を有し、視覚的特徴をクラスタ化することによって、類似した視覚的特徴は、その後の照合を容易にするために、1つのカテゴリに分類されてよい、ことと、最後に、クラスタ化された視覚的特徴に基づいてディクショナリを構成することとを更に含む。
任意に、可能な実施において、第1イベント画像及びディクショナリに基づいてループバック検出を実行することは、第1イベント画像の記述子を決定することと、ディクショナリの中で、第1イベント画像の記述子に対応する視覚的特徴を決定することと、視覚的特徴に基づいて、第1イベント画像に対応するバグ・オブ・ワードベクトルを決定することと、第1イベント画像に一致するイベント画像を決定するよう、第1イベント画像に対応するバグ・オブ・ワードベクトルと他のイベント画像のバグ・オブ・ワードベクトルとの間の類似度を決定することとを含む。
第26の態様に従って、本願は、イベント画像を取得することと、第1イベント画像の第1情報を決定することであり、第1情報はイベント画像内のイベント及び/又は特徴を含む、ことと、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像がキーフレームであることを決定することであり、第1条件はイベントの数及び/又は特徴の数に関する、こととを含むキーフレーム選択方法を提供する。
この解決法では、現在のイベント画像がキーフレームであるかどうかは、イベント画像におけるイベントの数、イベント分布、特徴の数、及び/又は特徴分布などの情報を決定することによって決定され、キーフレームは即座に選択され得、アルゴリズム数は少なく、ビデオ解析、ビデオ符号化及び復号化、又はセキュリティ監視などのシナリオでのキーフレームは即座に選択され得る。
任意に、可能な実施において、第1条件は、イベント画像内のイベントの数が第1閾値よりも多いこと、1イベント画像内のイベント有効領域の数が第2閾値よりも多いこと、イベント画像内の特徴の数が第3閾値よりも多いこと、及びイベント画像内の特徴有効領域が第4閾値よりも多いこと、のうちの1つ以上を含む。
任意に、可能な実施において、方法は、時系列においてイベント画像とアライメントされたデプス画像を取得することと、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像及びデプス画像がキーフレームであることを決定することとを更に含む。
任意に、可能な実施において、方法は、時系列においてイベント画像とアライメントされたRGB画像を取得することと、RGB画像の特徴の数及び/又は特徴有効領域の数を取得することと、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定し、かつ、RGB画像の特徴の数が第5閾値よりも多く、及び/又はRGB画像の特徴有効領域の数が第6閾値よりも多い場合に、イベント画像及びRGB画像がキーフレームであることを決定することとを更に含む。
任意に、可能な実施において、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像がキーフレームであることを決定することは、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像の第2情報を決定することであり、第2情報は、イベント画像内の動き特徴及び/又はポーズ特徴を含む、ことと、第2情報に基づいて、イベント画像が少なくとも第2条件を満足すると決定する場合に、イベント画像がキーフレームであることを決定することであり、第2条件は動き変化及び/又はポーズ変化に関する、こととを含む。
任意に、可能な実施において、方法は、イベント画像の鮮明度及び/又は輝度一貫性インジケータを決定することと、第2情報に基づいて、イベント画像が少なくとも第2条件を満足すると決定し、かつ、イベント画像の鮮明度が鮮明度閾値よりも大きく、及び/又はイベント画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、イベント画像がキーフレームであることを決定することとを更に含む。
任意に、可能な実施において、イベント画像の輝度一貫性インジケータを決定することは、イベント画像内のピクセルが光強度変化極性を表す場合に、イベント画像内のイベントの数と隣接キーフレーム内のイベントの数との間の差の絶対値を計算し、イベント画像内のピクセルの数で絶対値を除して、イベント画像の輝度一貫性インジケータを取得すること、又はイベント画像内のピクセルが光強度を表す場合に、イベント画像のピクセルの各グループと隣接キーフレームとの間の輝度減算を実行し、差の絶対値を計算し、ピクセルの各グループに対応する絶対値に対して和演算を実行し、取得された和結果をピクセルの数で除して、イベント画像の輝度一貫性インジケータを取得することを含む。
任意に、可能な実施において、方法は、時系列においてイベント画像とアライメントされたRGB画像を取得することと、RGB画像の鮮明度及び/又は輝度一貫性インジケータを決定することと、第2情報に基づいて、イベント画像が少なくとも第2条件を満足すると決定し、RGB画像の鮮明度が鮮明度閾値よりも大きく、及び/又はRGB画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、イベント画像及びRGB画像がキーフレームであることを決定することとを更に含む。
任意に、可能な実施において、第2条件は、イベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を超えること、イベント画像と前のキーフレームとの間の回転角度が前もってセットされた角度値を超えること、及びイベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を超え、イベント画像と前のキーフレームとの間の回転角度が前もってセットされた角度値を超えること、のうちの1つ以上を含む。
第27の態様に従って、本願は、第1イベント画像及び第1イベント画像に対応するターゲット画像を取得することであり、第1イベント画像内で捕捉される環境情報は、ターゲット画像内で捕捉されるそれと同じであり、ターゲット画像はデプス画像又はRGB画像を含む、ことと、第1イベント画像内にある第1動き領域を決定することと、第1動き領域に基づいて、ターゲット画像内にある対応する第2動き領域を決定することと、ターゲット画像内にある第2動き領域に基づいてポーズ推定を実行することとを含むポーズ推定方法を提供する。
この解決法では、あるシナリオでの動的領域はイベント画像に基づき捕捉され、ポーズは動的領域に基づき決定され、それにより、ポーズ情報は正確に決定され得る。
任意に、可能な実施において、第1イベント画像内にある第1動き領域を決定することは、第1イベント画像を捕捉するDVSが静止している場合に、イベント応答が存在する、第1イベント画像内にあるピクセルを取得することと、イベント応答が存在するピクセルに基づいて第1動き領域を決定することとを含む。
任意に、可能な実施において、イベント応答が存在するピクセルに基づいて第1動き領域を決定することは、イベント応答が存在する、第1イベント画像内にあるピクセルによって形成される輪郭を決定することと、輪郭によって囲まれた面積が第1閾値よりも大きい場合に、輪郭によって囲まれている領域が第1動き領域であることを決定することとを含む。
任意に、可能な実施において、第1イベント画像内にある第1動き領域を決定することは、第1イベント画像を捕捉するDVSが動いている場合に、第2イベント画像を取得することであり、第2イベント画像は、第1イベント画像のイベント画像の前のフレームである、ことと、第2イベント画像に対する第1イベント画像内のピクセルの変位の大きさ及び変位方向を計算することと、第1イベント画像内のピクセルの変位方向が周囲ピクセルの変位方向と異なるか、又は第1イベント画像内のピクセルの変位の大きさと周囲ピクセルの変位の大きさとの間の差が第2閾値よりも大きい場合に、ピクセルが第1動き領域に属することを決定することとを含む。
任意に、可能な実施において、方法は、第1動き領域に基づいて、画像内にある対応する静止領域を決定することと、画像にある静止領域に基づいてポーズを決定することとを更に含む。
第28の態様に従って、本願はデータ処理装置を更に提供する。データ処理装置は、第25の態様又は第25の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。代替的に、データ処理装置は、第26の態様又は第26の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。代替的に、データ処理装置は、第27の態様又は第27の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。機能は、ハードウェアによって実施されてよく、又はハードウェアが対応するソフトウェアを実行することによって実施されてよい。ハードウェア又はソフトウェアは、機能に対応する1つ以上のモジュールを含む。
第29の態様に従って、本願の実施形態は、プロセッサ及びメモリを含む装置を提供する。プロセッサ及びメモリは、ラインを通じて相互接続され、プロセッサは、メモリ内のプログラムコードを呼び出して、第1の態様乃至第27の態様のいずれか1つに示される方法でのプログラム関連機能を実行する。
第30の態様に従って、本願は電子デバイスを提供する。電子デバイスは、表示モジュール、処理モジュール、及び記憶モジュールを含む。
表示モジュールは、記憶モジュールに記憶されているアプリケーションのグラフィカルユーザインターフェースを表示するよう構成される。グラフィカルユーザインターフェースは、第22の態様及びその可能な実施のうちのいずれかの1つで記載されているグラフィカルユーザインターフェースであってよい。
第31の態様に従って、本願の実施形態は装置を提供する。装置は、デジタル処理チップ又はチップとも呼ばれ得る。チップは処理ユニット及び通信インターフェースを含む。処理ユニットは、通信インターフェースを通じてプログラム命令を取得し、プログラム命令は、処理ユニットによって実行される。処理ユニットは、第1の態様乃至第27の態様のいずれかの任意の実施における処理関連機能を実行するよう構成される。
第32の態様に従って、本願の実施形態は、命令を含むコンピュータ可読記憶媒体を提供する。命令がコンピュータで実行される場合に、コンピュータは、第1の態様乃至第27の態様のいずれかの任意の実施の方法を実行することができる。
第33の態様に従って、本願の実施形態は、命令を含むコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータで実行される場合に、コンピュータは、第1の態様乃至第27の態様のいずれかの任意の実施の方法を実行することができる。
以下は、本願の実施形態の添付の図面を参照して、本願の実施形態の技術的解決法について記載する。記載される実施形態は本願の実施形態の一部にすぎず全部ではないことは明らかである。創造的な労力なしで本願の実施形態に基づいて当業者によって取得される全ての他の実施形態は、本願の保護範囲内にあるべきである。
以下は、異なる視点から本願で提供される電子デバイス、システムアーキテクチャ、及び方法について詳細に記載する。
I.電子デバイス
本願で提供される方法は、様々な電子デバイスに適用されてよく、あるいは、電子デバイスは、本願で提供される方法を実行する。電子デバイスは、撮影シナリオ、例えば、撮影シナリオ、セキュリティ撮影シナリオ、自動運転撮影シナリオ、又は無人飛行機撮影シナリオに適用されてよい。
本願の電子デバイスには、スマートモバイルフォン、テレビジョン、タブレットコンピュータ、リストバンド、ヘッドマウントディスプレイ(HMD)、拡張現実(AR)デバイス、複合現実(mixed reality,MR)デバイス、セルラー電話、スマートフォン、パーソナルデジタルアシスタント(PDA)、車載型電子デバイス、ラップトップコンピュータ、パーソナルコンピュータ(PC)、監視デバイス、ロボット、車載型端末、自動運転車、などが含まれ得るが、これらに限られない。確かに、以下の実施形態では、電子デバイスの具体的態様は制限されない。
例えば、本願で提供される電子デバイスアプリケーションのアーキテクチャが図1Aに示される。
車両、携帯電話、AR/VRメガネ、セキュリティ監視デバイス、図1Aに示されるカメラ、又は他のスマートホーム端末などのデバイスのような電子デバイスは、有線又は無線ネットワークを通じてクラウドプラットフォームにアクセスしてよい。クラウドプラットフォームにはサーバが配置され、サーバは中央集権型サーバを含んでよく、又は分散型サーバを含んでもよい。電子デバイスは、データ伝送を実施するよう、有線又は無線ネットワークを通じてクラウドプラットフォームのサーバと通信してよい。例えば、データが収集された後、電子デバイスは、データ損失を防ぐよう、クラウドプラットフォームに対して記憶又はバックアップを実行してよい。
電子デバイスは、クラウドプラットフォームへの無線又は有線アクセスを実施するよう、アクセスポイント又は基地局へ接続されてよい。例えば、アクセスポイントは、基地局であってよく、SIMカードが電子デバイスに配置され、オペレータのネットワーク認証は、無線ネットワークにアクセスするために、SIMカードを介して実施される。代替的に、アクセスポイントは、ルータを含んでもよい。電子デバイスは、ルータを介してクラウドプラットフォームにアクセスするために、2.4GHz又は5GHz無線ネットワークを通じてルータにアクセスする。
更に、電子デバイスは、データ処理を独立して実行してよく、又はクラウドと協働することによってデータ処理を実施してもよく、これは、実際の適用シナリオに基づいて具体的に調整されてよい。例えば、DVSが電子デバイスに配置されてよく、DVSは、電子デバイスのカメラ又は他のセンサと協働して作動してよく、又は独立して作動してもよい。DVSに配置されているプロセッサ、又は電子デバイスに配置されているプロセッサは、DVS又は他のセンサによって収集されたデータを処理し、また、DVS又は他のセンサによって収集されたデータを処理するようクラウドデバイスと協働することもできる。
以下は、例を使用することによって、電子デバイスの具体的な構造について記載する。
例えば、図1Bを参照されたい。以下は、本願で提供される電子デバイスの構造について記載するために一例として具体的な構造を使用する。
本願で提供される電子デバイスは、図1Bに示されるものよりも多い又は少ないコンポーネントを含んでもよいことが留意されるべきである。図1Bに示される電子デバイスは、記載のための例にすぎない。当業者は、要件に基づいて電子デバイスにコンポーネントを付け足したり又は電子デバイスからコンポーネントを削除したりしてもよい。これは本願で制限されない。
電子デバイス100は、プロセッサ110、外部メモリインターフェース120、内部メモリ121、ユニバーサルシリアルバス(USB)ポート130、充電管理モジュール140、電力管理モジュール141、バッテリ142、アンテナ1、アンテナ2、モバイル通信モジュール150、無線通信モジュール160、オーディオモジュール170、スピーカ170A、レシーバ170B、マイクロホン170C、ヘッドセットジャック170D、センサモジュール180、ボタン190、モータ191、インジケータ192、カメラ193、ディスプレイ194、加入者識別モジュール(SIM)カードインターフェース195、などを含んでよい。センサモジュールは、圧力センサ180A、ジャイロスコープセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光学近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、周囲光センサ180L、骨伝導センサ180M、画像センサ180N、などを含んでよい。画像センサ180Nは、独立したカラーセンサ1801N及び独立したモーションセンサ1802Nを含んでよく、又はカラーセンサの感光性ユニット(カラーセンサピクセルと呼ばれることがあり、図1Bには示されない)及びモーションセンサの感光性ユニット(モーションセンサピクセルと呼ばれることがあり、図1Bには示されない)を含んでよい。
本願のこの実施形態で示されている構造は、電子デバイス100に対する具体的な制限を構成しない、ことが理解され得る。本願のいくつかの他の実施形態では、電子デバイス100は、図示されているよりも多い又は少ないコンポーネントを含んでもよく、あるいは、いくつかのコンポーネントを結合してもよく、あるいは、いくつかのコンポーネントを分割してもよく、あるいは、異なるコンポーネントレイアウトを有してもよい。図示されているコンポーネントは、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアとの組み合わせによって実施されてもよい。
プロセッサ110は、1つ以上のプロセッシングユニットを含んでもよい。例えば、プロセッサ110は、アプリケーションプロセッサ(AP)、モデムプロセッサ、グラフィクス処理ユニット(GPU)、画像信号プロセッサ(ISP)、コントローラ、ビデオコーデック、デジタル信号プロセッサ(DSP)、ベースバンドプロセッサ、ニューラルネットワークプロセッシングユニット(neural-network processing unit,NPU)、及び/又はニューラルネットワーク処理ユニット(NPU)を含んでよい。異なるプロセッシングユニットは独立したコンポーネントであってよく、あるいは、1つ以上のプロセッサに一体化されてもよい。
コントローラは、命令操作コード及び時系列信号に基づいて操作制御信号を生成して、命令読み出し及び命令実行の制御を完了し得る。
メモリが更に、プロセッサ110に配置されてもよく、命令及びデータを記憶するよう構成される。いくつかの実施形態で、プロセッサ110内のメモリはキャッシュである。メモリは、プロセッサ110によってまさに使用されているか又は周期的に使用される命令又はデータを記憶し得る。プロセッサ110が命令又はデータを再び使用する必要がある場合に、命令又はデータはメモリから直接呼び出され得る。繰り返しのアクセスは回避され、プロセッサ110の待ち時間は減り、システムの効率は向上する。
いくつかの実施形態で、プロセッサ110は1つ以上のインターフェースを含んでもよい。インターフェースは、インター集積回路(I2C)インターフェース、インター集積回路サウンド(I2S)インターフェース、パルスコード変調(PCM)インターフェース、ユニバーサル非同期受信器/送信器(UART)インターフェース、モバイル産業プロセッサインターフェース(MIPI)、汎用入力/出力(GPIO)インターフェース、加入者識別モジュール(SIM)インターフェース、及び/又はユニバーサルシリアルバス(USB)ポートを含んでもよい。
I2Cインターフェースは、シリアルデータライン(SDA)及びシリアルクロックライン(SCL)を含む双方向の同期シリアルバスである。いくつかの実施形態で、プロセッサ110は、I2Cバスの複数のグループを含んでもよい。プロセッサ110は、タッチセンサ180K、充電器、フラッシュライト、カメラ193などへ異なるI2Cバスインターフェースにより別々に結合されてよい。例えば、プロセッサ110は、タッチセンサ180KへI2Cインターフェースにより結合されてよく、それにより、プロセッサ110は、電子デバイス100のタッチ機能を実施するように、I2Cバスインターフェースによりタッチセンサ180Kと通信する。
I2Sインターフェースは、オーディオ通信に使用され得る。いくつかの実施形態で、プロセッサ110は、I2Sバスの複数のグループを含んでもよい。プロセッサ110は、プロセッサ110とオーディオモジュール170との間の通信を実施するよう、I2Sバスによりオーディオモジュール170へ結合されてよい。いくつかの実施形態で、オーディオモジュール170は、Bluetoothヘッドセットにより電話に出る機能を実施するよう、I2Sインターフェースを通じて無線通信モジュール160へオーディオ信号を転送してよい。
PCMインターフェースも、アナログ信号をサンプリングし、量子化し、符号化するよう、オーディオ通信のために使用され得る。いくつかの実施形態で、オーディオモジュール170及び無線通信モジュール160は、PCMバスインターフェースを通じて結合されてよい。いくつかの実施形態で、オーディオモジュール170は、代替的に、Bluetoothヘッドセットにより電話に出る機能を実施するよう、PCMインターフェースにより無線通信モジュール160へオーディオ信号を転送してもよい。I2Sインターフェース及びPCMインターフェースの両方がオーディオ通信に使用されてもよい。
UARTインターフェースは、非同期通信用の汎用シリアルデータバスである。バスは双方向の通信バスであってよい。UARTインターフェースは、データを、シリアル通信とパラレル通信との間で伝送されるよう変更する。いくつかの実施形態で、UARTインターフェースは、通常、プロセッサ110を無線通信モジュール160へ接続するよう構成される。例えば、プロセッサ110は、Bluetooth機能を実施するよう、UARTインターフェースを通じて無線通信モジュール160のBluetoothモジュールと通信する。いくつかの実施形態で、オーディオモジュール170は、Bluetoothヘッドセットにより音楽を再生する機能を実施するよう、UARTインターフェースにより無線通信モジュール160へオーディオ信号を転送してよい。
MIPIインターフェースは、プロセッサ110を周辺コンポーネント、例えば、ディスプレイ194又はカメラ193へ接続するよう構成されてよい。MIPIインターフェースは、カメラシリアルインターフェース(CSI)、ディスプレイシリアルインターフェース(DSI)、などを含む。いくつかの実施形態で、プロセッサ110及びカメラ193は、電子デバイス100の写真撮影機能を実施するよう、CSIインターフェースにより互いに通信する。プロセッサ110は、電子デバイス100の表示機能を実施するよう、DSIインターフェースによりディスプレイ194と通信する。
GPIOインターフェースは、ソフトウェアによって構成され得る。GPIOインターフェースは、制御信号又はデータ信号として構成され得る。いくつかの実施形態で、GPIOインターフェースは、プロセッサ110をカメラ193、ディスプレイ194、無線通信モジュール160、オーディオモジュール170、センサモジュール180、などへ接続するよう構成されてよい。GPIOインターフェースは、代替的に、I2Cインターフェース、I2Sインターフェース、UARTインターフェース、MIPIインターフェース、などとしても構成され得る。
USBインターフェース130は、USB標準仕様に従うインターフェースであり、具体的には、Mini USBインターフェース、Micro USBインターフェース、USB type-Cインターフェース、などであってよい。USBインターフェース130は、電子デバイス100を充電するために充電器へ接続するよう構成されてよく、あるいは、電子デバイス100と周辺機器との間でデータを伝送するよう構成されてもよく、あるいは、ヘッドセットによりオーディオを再生するためにヘッドセットへ接続するよう構成されてもよい。インターフェースは更に、他の電子デバイス、例えば、ARデバイスへ接続するよう構成されてもよい。
本願のこの実施形態で示されているモジュール間のインターフェース接続関係は、記載のための一例にすぎず、電子デバイス100の構造に対する限定を構成するものではない、ことが理解され得る。本願のいくつかの他の実施形態では、電子デバイス100は、代替的に、異なるインターフェース接続方式、又は上記の実施形態の複数のインターフェース接続方式の組み合わせを使用してもよい。
充電管理モジュール140は、充電器から充電入力を受けるよう構成される。充電器は無線充電器であってよく、又は有線充電器であってもよい。いくつかの有線充電実施形態で、充電管理モジュール140は、USBインターフェース130を通じて有線充電器の充電入力を受けてよい。いくつかの無線充電実施形態で、充電管理モジュール140は、電子デバイス100の無線充電コイルを介して無線充電入力を受けてよい。バッテリ142を充電する場合に、充電管理モジュールは更に、電力管理モジュール141を介して電子デバイスへ電力を供給してもよい。
電力管理モジュール141は、バッテリ142、充電管理モジュール140、及びプロセッサ110へ接続するよう構成される。電力管理モジュール141は、バッテリ142及び/又は充電管理モジュール140の入力を受け取り、電力をプロセッサ110、内部メモリ121、ディスプレイ194、カメラ193、無線通信モジュール160、などへ供給する。電力管理モジュール141は、バッテリ容量、バッテリ周期の数、及びバッテリ健康状態(漏れ及びインピーダンス)などのパラメータをモニタするよう更に構成されてもよい。いくつかの他の実施形態では、電力管理モジュール141もプロセッサ110に配置されてよい。いくつかの他の実施形態では、電力管理モジュール141及び充電管理モジュール140は同じデバイスに配置されてもよい。
電子デバイス100の無線通信機能は、アンテナ1、アンテナ2、モバイル通信モジュール150、無線通信モジュール160、モデムプロセッサ、ベースバンドプロセッサ、などによって実施されてよい。
アンテナ1及びアンテナ2は、電磁波信号を送信及び受信するよう構成される。電子デバイス100の各アンテナは、1つ以上の通信帯域をカバーするよう構成されてよい。異なるアンテナは更に、アンテナ利用を改善するよう再利用されてもよい。例えば、アンテナ1は、無線ローカルエリアネットワークでのダイバーシティアンテナとして再利用されてもよい。いくつかの他の実施形態では、アンテナは、チューニングスイッチとともに使用されてもよい。
モバイル通信モジュール150は、2G/3G/4G/5Gなどを含む、電子デバイス100に適用される無線通信のソリューションを提供し得る。モバイル通信モジュール150は、少なくとも1つのフィルタ、スイッチ、電力増幅器、低雑音増幅器(LNA)、などを含んでよい。モバイル通信モジュール150は、アンテナ1により電磁波を受信し、受信した電磁波に対してフィルタリング及び増幅などの処理を実行し、電磁波を復調のためにモデムプロセッサへ送信してよい。モバイル通信モジュール150は更に、モデムプロセッサによって変調された信号を増幅し、信号をアンテナ1による放射のために電磁波に変更してもよい。いくつかの実施形態で、モバイル通信モジュール150の少なくとも一部の機能モジュールは、プロセッサ110に配置されてもよい。いくつかの実施形態で、モバイル通信モジュール150の少なくとも一部の機能モジュール及びプロセッサ110の少なくとも一部のモジュールは、同じデバイスに配置されてもよい。
モデムプロセッサは変調器及び復調器を含んでよい。変調器は、送信されるべき低周波ベースバンド信号を中間~高周波信号に変調するよう構成される。復調器は、受信した電磁波信号を低周波ベースバンド信号に復調するよう構成される。次いで、復調器は、復調された低周波ベースバンド信号を処理のためにベースバンドプロセッサへ送る。低周波ベースバンド信号は、ベースバンドプロセッサによって処理され、次いでアプリケーションプロセッサへ転送される。アプリケーションプロセッサは、オーディオデバイス(スピーカ170A、レシーバ170B、などに制限されない)によりサウンド信号を出力し、又はディスプレイ194により画像又はビデオを表示する。いくつかの実施形態で、モデムプロセッサは、独立したコンポーネントであってよい。いくつかの他の実施形態で、モデムプロセッサは、プロセッサ110から独立していてよく、モバイル通信モジュール150又は他の機能モジュールと同じコンポーネントに配置される。
無線通信モジュール160は、無線ローカルエリアネットワーク(WLAN)(例えば、ワイヤレス・フィデリティ(Wi-Fi)ネットワーク)、Bluetooth(BT)、全地球航法衛星システム(GNSS)、周波数変調(FM)、近距離通信(NFC)技術、赤外線(IR)技術含む、電子デバイス100に適用される無線通信のソリューションを提供してよい。無線通信モジュール160は、少なくとも1つの通信処理モジュールを組み込み1つ以上のコンポーネントであってよい。無線通信モジュール160は、アンテナ2により電磁波を受信し、電磁波信号に対して周波数変調及びフィルタリング処理を実行し、処理した信号をプロセッサ110へ送る。無線通信モジュール160は更に、送信されるべき信号をプロセッサ110から受信し、信号に対して周波数変調及び増幅を実行し、信号をアンテナ2による放射のために電磁波に変更してもよい。
いくつかの実施形態で、電子デバイス100のアンテナ1は移動体通信モジュール150へ結合され、アンテナ2は無線通信モジュール160へ結合され、それにより、電子デバイス100は、無線通信技術を使用することによってネットワーク及び他のデバイスと通信することができる。無線通信技術には、第5世代(5G)モバイル通信技術システム、グローバル・システム・フォー・モバイル・コミュニケーションズ(GSM)、汎用パケット無線サービス(GPRS)、符号分割多重アクセス(CDMA)、広帯域符号分割多重アクセス(WCDMA)、時分割符号分割多重アクセス(TD-SCDMA)、ロングタームエボリューション(LTE)、Bluetooth、全地球航法衛星システム(GNSS)、ワイヤレス・フィデリティ(Wi-Fi)、近距離通信(NFC)、FM(周波数変調放送とも呼ばれ得る)、Zigbeeプロトコル、無線周波数識別(RFID)技術、及び/又は赤外線(IR)技術が含まれ得るが、これらに限られない。GNSSは、グローバルポジショニングシステム(GPS)、全地球航法衛星システム(GLONASS)、北斗衛星導航系統(BDS)、準天頂衛星システム(QZSS)、及び/又は衛星航法補強システム(SBAS)を含み得る。
いくつかの実施において、電子デバイス100は、代替的に、有線通信モジュール(図1Bに示されず)を含んでもよく、あるいは、ここでのモバイル通信モジュール150又は無線通信モジュール160は、有線通信モジュール(図1Bに示されず)と置換されてもよい。有線通信モジュールは、電子デバイスが有線ネットワークを通じて他のデバイスと通信することを可能にし得る。有線ネットワークは、次の:光伝達網(OTN)、同期デジタルヒエラルキ(SDH)、受動光ネットワーク(PON)、Ethernet、フレキシブルEthernet(FlexE)、などのうちの1つ以上を含んでよいが、これらに限られない。
電子デバイス100は、GPU、ディスプレイ194、アプリケーションプロセッサ、などにより表示機能を実施する。GPUは、画像処理マイクロプロセッサであり、ディスプレイ194及びアプリケーションプロセッサへ接続される。GPUは、グラフィクスレンダリングのための数学及び幾何学計算を実行するために使用される。プロセッサ110は、表示情報を生成及び変更するようプログラム機能を実行する1つ以上のGPUを含んでよい。
ディスプレイ194は、画像、ビデオなどを表示するよう構成される。ディスプレイ194は表示パネルを含む。表示パネルは液晶ディスプレイ(liquid crystal display,LCD)、有機発光ダイオード(OLED)、アクティブマトリクス有機発光ダイオード(AMOLED)、フレキシブル発光ダイオード(FLED)、ミニLED、マイクロLED、マイクロOLED、量子ドット発光ダイオード(,QLED)、などであってよい。いくつかの実施形態で、電子デバイス100は、1つ又はN個のディスプレイ194を含んでよく、ここで、Nは、1よりも大きい正の整数である。
電子デバイス100は、ISP、カメラ193、ビデオコーデック、GPU、ディスプレイ194、アプリケーションプロセッサ、などにより撮影機能を実施してよい。
ISPは、カメラ193によってフィードバックされたデータを処理するよう構成される。例えば、撮影中、シャッターは開かれ、光は、レンズを通ってカメラの感光素子に伝えられ、光信号は電気信号に変更され、カメラの感光素子は電気信号を処理のためにISPへ転送し、ISPは、電気信号を、裸眼で見ることができる画像に変更する。ISPはまた、画像内のノイズ、輝度、及び肌色を最適化することもできる。ISPはまた、撮影シナリオの露出及び色温度などのパラメータも最適化することができる。いくつかの実施形態で、ISPはカメラ193に配置されてよい。
カメラ193は、静止画又はビデオを捕捉するよう構成される。オブジェクトは、レンズを通して光学画像を生成することによって、感光素子に投影される。感光素子は、電荷結合素子(CCD)又は相補型金属酸化膜半導体(CMOS)フォトトランジスタであってよい。感光素子は光信号を電気信号に変更し、次いで、電気信号をデジタル画像信号に変更するためにISPへ電気信号を転送する。ISPは、デジタル画像信号を処理のためにDSPへ出力する。DSPは、標準RGBカメラ(又はRGBセンサと呼ばれる)0及びYUVなどのフォーマットの画像信号にデジタル画像信号を変更する。いくつかの実施形態で、電子デバイス100は、1つ又はN個のカメラ193を含んでもよく、ここで、Nは、1よりも大きい正の整数である。
デジタル信号プロセッサは、デジタル信号を処理するよう構成され、デジタル画像信号に加えて他のデジタル信号を処理してもよい。例えば、電子デバイス100が周波数を選択する場合に、デジタル信号プロセッサは、周波数エネルギに対してフーリエ変換などを実行するよう構成される。
ビデオコーデックは、デジタルビデオを圧縮又は圧縮解除するために使用される。電子デバイス100は、1つ以上のビデオコーデックをサポートしてよい。このようにして、電子デバイス100は、複数の符号化フォーマット、例えば、動画専門家グループ(MPEG)1、MPEG2、MPEG3、及びMPEG4でビデオを再生又は記録してよい。
NPUはニューラルネットワーク(NN)コンピューティングプロセッサである。生体ニューラルネットワークの構造を参照することによって、例えば、人間の脳ニューロンの間の転送モードを参照することによって、NPUは入力情報を即時に処理し、更には、継続的に自己学習を実行し得る。電子デバイス100のインテリジェント・コグニションなどのアプリケーション、例えば、画像認識、顔認識、発話認識、及びテキスト理解が、NPUにより実装されてもよい。
外部メモリインターフェース120は、外部メモリカード、例えば、マイクロSDカードへ接続して、電子デバイス100の記憶容量を拡張するよう構成されてよい。外部メモリカードは、データ記憶機能を実施するよう、外部メモリインターフェース120によりプロセッサ110と通信する。例えば、音楽ファイル及びビデオファイルが外部メモリカードに記憶されている。
内部メモリ121は、コンピュータ実行可能プログラムコードを記憶するよう構成されてよい。実行可能プログラムコードは命令を含む。内部メモリ121は、プログラム記憶エリア及びデータ記憶エリアを含んでよい。プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能(例えば、音響再生機能又は画像再生機能)によって必要とされるアプリケーションを記憶し得る。データ記憶エリアは、電子デバイス100を使用するプロセスなどで生成されたデータ(例えば、オーディオデータ及び電話帳)を記憶し得る。更に、内部メモリ121は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はユニバーサルフラッシュメモリ(UFS)を更に含んでもよい。プロセッサ110は、内部メモリ121に記憶されている命令及び/又はプロセッサに配置されているメモリに記憶されている命令を実行して、電子デバイス100の様々な機能アプリケーション及びデータ処理を実行する。
電子デバイス100は、オーディオモジュール170、スピーカ170A、レシーバ170B、マイクロホン170C、ヘッドセットインターフェース170D、アプリケーションプロセッサ、などによりオーディオ機能、例えば、音楽再生及び録音を実施してよい。
オーディオモジュール170は、デジタルオーディオ情報を出力のためにアナログオーディオ信号に変更するよう構成され、また、アナログオーディオ入力をデジタルオーディオ信号に変更するよう構成される。オーディオモジュール170は更に、オーディオ信号を符号化及び復号化するよう構成されてもよい。いくつかの実施形態で、オーディオモジュール170はプロセッサ110に配置されてよく、あるいは、オーディオモジュール170の一部の機能モジュールがプロセッサ110に配置されてもよい。
スピーカ170Aは、「ホーン」とも呼ばれ、オーディオ電気信号を音響信号に変更するよう構成される。電子デバイス100は、スピーカ170Aを通じてハンズフリー通話を聞いたり音楽を聴いたりし得る。
レシーバ170Bは、「イヤピース」とも呼ばれ、オーディオ電気信号を音響信号に変更するよう構成される。電子デバイス100が電話又はボイス情報に答える場合に、レシーバ170Bは、ボイスに答えるために人間の耳の近くに置かれ得る。
マイクロホン170Cは、音響信号を電気信号に変更するよう構成される。電話を掛けたりボイス情報を送信したりする場合に、ユーザは、マイクロホン170Cの近くの人間の口を使用することによって音響を作り出し、音響信号をマイクロホン170Cに入力し得る。電子デバイス100は、少なくとも1つのマイクロホン170Cを設けられてよい。いくつかの他の実施形態では、電子デバイス100は2つのマイクロホン170Cを設けられてもよい。音響信号を収集することに加えて、マイクロホンは、ノイズ低減機能を更に実施してもよい。いくつかの他の実施形態では、電子デバイス100は、音響信号収集及びノイズ低減を実施するために、3つ、4つ、又はそれ以上のマイクロホン170Cを更に設けられてもよく、更に音源を認識したり、指向性録音機能を実施したり、などしてもよい。
ヘッドセットインターフェース170Dは、無線ヘッドセットへ接続するよう構成される。ヘッドセットインターフェース170DはUSBポート130であってよく、あるいは、3.5mmオープンモバイル端末プラットフォーム(OMTP)標準インターフェース、又はアメリカ合衆国のセルラー電気通信産業組合(CTIA)標準インターフェースであってもよい。
圧力センサ180Aは、圧力信号を検知するよう構成され、圧力信号を電気信号に変更してよい。いくつかの実施形態で、圧力センサ180Aは、ディスプレイ194に配置されてよい。抵抗性圧力センサ、誘導性圧力センサ、及び容量性圧力センサなどの多数のタイプの圧力センサ180Aが存在する。容量性圧力センサは、導電材料を有する少なくとも2つの平行板を含んでよい。圧力センサ180Aに力が加えられるとき、電極間のキャパシタンスは変化する。電子デバイス100は、キャパシタンスの変化に基づいて圧力の力を決定する。タッチ操作がディスプレイ194で行われる場合に、電子デバイス100は、圧力センサ180Aに基づいてタッチ操作の強さを検出する。電子デバイス100は、圧力センサ180Aの検出信号に基づいてタッチ位置を計算してもよい。いくつかの実施形態で、同じタッチ位置で作用するがタッチ操作の力が異なるタッチ操作は、異なる操作命令に対応してもよい。例えば、タッチ操作の力が第1圧力閾値に満たないタッチ操作がSMSメッセージアプリケーションアイコンに作用する場合には、SMSメッセージを見るための命令が実行される。タッチ操作の力が第1圧力閾値以上であるタッチ操作がSMSメッセージアプリケーションアイコンに作用する場合には、SMSメッセージを作成するための命令が実行される。
ジャイロスコープセンサ180Bは、電子デバイス100の動作姿勢を決定するよう構成されてよい。いくつかの実施形態で、3つの軸(つまり、x軸、y軸及びz軸)の周りの電子デバイス100の角速度は、ジャイロスコープセンサ180Bにより決定され得る。ジャイロスコープセンサ180Bは、撮影中の画像安定化のために使用されてもよい。例えば、シャッターが押されると、ジャイロスコープセンサ180Bは、電子デバイス100の手ぶれの角度を検出し、角度に基づいて、レンズモジュールによって補償される必要がある距離を計算し、それにより、レンズは、画像安定化を実施するよう、電子デバイス100の手ぶれを逆の動きにより相殺する。ジャイロスコープセンサ180Bはまた、ナビゲーションシナリオ及び身体ゲームシナリオにも使用されてよい。
気圧センサ180Cは、大気圧を測定するために使用される。いくつかの実施形態で、電子デバイス100は、位置決め及びナビゲーションを支援するよう、気圧センサ180によって測定された大気圧値に基づいて高度を計算する。
磁気センサ180Dはホールセンサを含む。電子デバイス100は、磁気センサ180Dを使用することによってフラップカードの開閉を検出し得る。いくつかの実施形態で、電子デバイス100が折り畳み式電話機である場合に、電子デバイス100は、磁気センサ180Dに基づいて折り畳みの開閉を検出し得る。次いで、折り畳みの自動ロック解除などの機能が、折り畳みの検出された開閉状態又はカバーの検出された開閉状態に基づいてセットされる。
加速度センサ180Eは、全ての方向(一般的には3つの軸)で電子デバイス100の加速度の大きさを検出し得る。電子デバイス100が静止しているときには、重力の大きさ及び方向が検出され得る。加速度センサ180Eはまた、電子デバイスの姿勢を認識するためにも使用されてよく、横向きと縦向きとの間の切り替えや歩数計などの用途で使用される。
距離センサ180Fは、距離を測定するよう構成される。電子デバイス100は、赤外線又はレーザにより距離を測定してよい。いくつかの実施形態で、撮影シナリオにおいて、電子デバイス100は、高速焦点合わせを実施するよう、距離センサ180Fにより距離を測定し得る。
光学近接センサ180Gは、例えば、発光ダイオード(LED)及びフォトダイオードなどの光検出器を含んでよい。発光ダイオードは赤外線発光ダイオードであってよい。電子デバイス100は、発光ダイオードにより赤外線光を外に向けて発する。電子デバイス100は、近くの物から反射された赤外線光をフォトダイオードにより検出する。十分な反射光が検出される場合に、電子デバイス100は、電子デバイス100の近くに物があると決定し得る。不十分な反射光が検出される場合に、電子デバイス100は、電子デバイス100の近くに物は無いと決定し得る。電子デバイス100は、スクリーンを自動的にオフして電力を節約するために、光学近接センサ180Gにより、ユーザが電話を掛けるために耳の近くで電子デバイス100を持っていることを検出してもよい。近接センサ180Gはまた、カバーモード又はポケットモードでの自動ロック解除及び画面ロックにおいても使用され得る。
周囲光センサ180Lは、周囲光輝度を検知するために使用される。電子デバイス100は、認知された周囲光輝度に基づいて、ディスプレイ194の輝度を適応的に調整し得る。周囲光センサ180Lはまた、撮影中のホワイトバランスを自動的に調整するためにも使用され得る。周囲光センサ180Lは更に、偶発的なタッチを防ぐよう、電子デバイス100がポケットの中にあるかどうかを検出するために近接センサ180Gと協働してもよい。
指紋センサ180Hは、指紋を収集するよう構成される。電子デバイス100は、収集された指紋特徴を使用することによって、アプリケーションロックアクセス、指紋撮影、指紋を使用した着呼応答、などを実施し得る。
温度センサ180Jは、温度を検出するために使用される。いくつかの実施形態で、電子デバイス100は、温度センサ180Jによって検出された温度を使用することによって、温度処理ポリシーを実行する。例えば、温度センサ180Jによって報告された温度が閾値を超えるとき、電子デバイス100は、電力消費を削減しかつ熱保護を実施するために、温度センサ180Jの近くに位置しているプロセッサのパフォーマンスを低減させる。いくつかの他の実施形態では、温度が他の閾値よりも低いとき、電子デバイス100は、低温で引き起こされる電子デバイス100の異常シャットダウンを回避するよう、バッテリ142を加熱する。いくつかの他の実施形態では、温度が更に別の閾値よりも低い場合に、電子デバイス100は、低温で引き起こされる異常シャットダウンを回避するよう、バッテリ142の出力電圧を高める。
タッチセンサ180Kは「タッチ制御コンポーネント」とも呼ばれる。タッチセンサ180Kはディスプレイ194に配置されてもよく、タッチセンサ180K及びディスプレイ194は、「タッチパネル」とも呼ばれるタッチスクリーンを形成する。タッチセンサ180Kは、タッチセンサ180Kで又はその近くで作用するタッチ操作を検出するよう構成される。タッチセンサは、タッチイベントタイプを決定するために、検出されたタッチ操作をアプリケーションプロセッサへ転送してよい。タッチ操作に関連した視覚出力がディスプレイ194を通じて供給されてもよい。いくつかの他の実施形態では、タッチセンサ180Kは、電子デバイス100の表面に配置されてもよく、タッチセンサ180Kの位置は、ディスプレイ194のそれとは異なる。
骨伝導センサ180Mは振動信号を取得し得る。いくつかの実施形態で、骨伝導センサ180Mは、人間の身体の声帯部の振動骨の振動信号を取得し得る。骨伝導センサ180Mはまた、人間の脈拍に接触して、血圧拍動信号を受け取ってもよい。いくつかの実施形態で、骨伝導センサ180Mはまた、イヤホンに配置され、骨伝導イヤホンにまとめられてもよい。オーディオモジュール170は、発話機能を実施するよう、骨伝導センサ180Mによって取得された声帯部の振動骨の振動信号に基づいて発話信号を解析し得る。アプリケーションプロセッサは、心拍検出機能を実施するよう、骨伝導センサ180Mによって取得された血圧拍動信号に基づいて心拍情報を解析し得る。
画像センサ180Nは、感光コンポーネント又は感光素子とも呼ばれ、光学画像を電気信号に変更するデバイスであり、デジタルカメラ及び他の電子光学デバイスで広く使用されている。画像センサは、光電子コンポーネント光電気変更機能を使用して、感光表面上の光学画像を、光学画像に比例する電気信号に変更する。感光ダイオード及びフォトトランジスタなどの“ポイント”光源の感光素子と比較して、画像センサは、画像センサの受講面上の光学画像を多くの小さいユニット(つまり、ピクセル)に分けて、小さいユニットを使用可能な電気信号に変更する機能コンポーネントである。夫々の小さいユニットは、画像センサ内の1つの感光性ユニットに対応し、感光性ユニットはセンサピクセルとも呼ばれ得る。画像センサは、ビジコン及びソリッドステート画像センサに分類される。ビジコンと比較して、ソリッドステート画像センサには、小さいサイズ、軽量、高集積、高解像度、低電力消費、長寿命、及び低価格といった特徴がある。異なる要素に基づいて、ソリッドステート画像センサは、電荷結合素子(CCD)及び相補型金属酸化膜半導体(CMOS)の2つのカテゴリに分類され得る。撮影される光学画像の異なるタイプに基づいて、ソリッドステート画像センサは、カラーセンサ1801N及びモーションセンサ1802Nに分類され得る。
具体的に、カラーセンサ1801Nは、従来のRGB画像センサを含み、カメラの撮影範囲内のオブジェクトを検出するよう構成されてよい。各感光性ユニットは、画像センサ内の1つの画像点に対応する。感光性ユニットは光の強さしか検知することができず、色情報を捕捉することができないので、カラーフィルタが感光性ユニットをカバーする必要がある。カバー用のカラーフィルタの使用方法については、異なるセンサ製造業者ごとに、解決法が異なる。最も一般的な方法は、カラーピクセルを形成するために4つの画像点をカバーするよう1:2:1コンポジジョンでRGB赤、緑、及び青色フィルタを使用することである(具体的に、赤色フィルタ及び青色フィルタは1つの画像点を別々にカバーし、緑色フィルタは残り2つの画像点をカバーする)。この比率の理由は、人間の目が緑色に敏感であるかである。照射を受けた後、感光性ユニットは、対応する電流を生成し、電流の大きさは、光の強さに対応する。従って、感光性ユニットによって直接出力される電気信号はアナログであり、次いで、出力されたアナログ電気信号はデジタル信号に変更する。最後に、全てのデジタル信号は、デジタル画像マトリクスの形で専用のDSP処理チップに出力される。従来のカラーセンサは、フレームフォーマットで撮影範囲の完全フレーム画像を出力する。
具体的に、モーションセンサ1802Nは、複数の異なるタイプのビジョンセンサを含んでよい。例えば、モーションセンサ1802Nは、フレームに基づいた動き検出ビジョンセンサ(MDVS)及びイベントに基づいた動き検出ビジョンセンサを含んでよい。モーションセンサは、カメラの撮影範囲内で動いているオブジェクトを検出したり、動いているオブジェクトの動作輪郭又は運動軌跡を収集したり、などするために使用されてよい。
可能なシナリオにおいて、モーションセンサ1802Nは、動き検出(MD)ビジョンセンサを含んでよく、動き情報を検出するためのビジョンセンサの一種である。動き情報は、カメラとターゲットとの間の相対運動に由来する。相対運動はカメラが動くことであってよく、ターゲットが動くことであってよく、又はカメラ及びターゲットの両方が動くことであってよい。動き検出ビジョンセンサは、フレームに基づいた動き検出ビジョンセンサ及びイベントに基づいた動き検出ビジョンセンサを含む。フレームに基づいた動き検出ビジョンセンサは、露出インテグレーションを必要とし、フレーム差に基づいて動き情報を取得する。イベントに基づいた動き検出ビジョンセンサは、インテグレーションを必要とせず、非同期のイベント検出によって動き情報を取得することができる。
可能なシナリオにおいて、モーションセンサ1802Nは、動き検出ビジョンセンサ(MDVS)、動的ビジョンセンサ(DVS)、アクティブピクセルセンサ(APS)、赤外線センサ、DAVIS(Dynamic and Active-pixel Vision Sensor)、ATIS(Asynchronous Time-based Image Sensor)、又はCeleXセンサなどのセンサを具体的に含んでよい。DVSは、生物学的視覚の特徴を利用しており、各ピクセルはニューロンを模倣し、光強度の相対変化に独立して反応する。例えば、モーションセンサがDVSである場合に、光強度の相対変化が閾値を超えるとき、イベント信号がピクセルで出力され、イベント信号には、ピクセル位置、タイムスタンプ、及び光強度の特徴情報が含まれる。本願の以下の実施では、述べられている動き情報、動的データ、動的画像、などはモーションセンサによって収集され得ることが理解されるべきである。
例えば、モーションセンサ1802Nは、オブジェクトの3軸角速度及び加速度を測定する装置である慣性計測装置(IMU)を含んでよい。IMUは、通常、オブジェクトの加速度信号を測定する3つの単軸加速度計と、ナビゲージョン座標系に対して角速度信号を測定する3つの単軸ジャイロスコープとを含み、加速度信号及び角速度信号に基づいてオブジェクトの姿勢を計算する。例えば、上記のIMUは、上記のジャイロスコープセンサ180B及び上記の加速度センサ180Eを具体的に含んでもよい。IMUの利点は高い収集周波数である。IMUのデータ収集周波数は100Hz以上に達することができ、コンシューマグレードのUMUは、最高1600Hzまでのデータを捕捉することができる。短時間で、IMUは、高精度の測定結果をもたらしえる。
例えば、モーションセンサ1802Nは、アクティブピクセルセンサ(APS)を含んでよい。例えば、アクティブピクセルセンサは、100Hzを上回る高い周波数でRGB画像を捕捉し、2つの隣接した画像フレーム間で減算を実行して変化値を取得する。変化値が閾値よりも大きく、例えば>0である場合に、変化値は1にセットされる。変化値が閾値以下、例えば=0である場合に、変化値は0にセットされる。アクティブピクセルセンサによって最終的に取得されたデータは、DVSによって取得されたデータと似ており、アクティブピクセルセンサは、動いているオブジェクトの画像の捕捉を完了する。
ボタン190は、電源ボタン、ボリュームボタン、などを含む。ボタン190は、機械的なボタンであってよく、又はタッチボタンであってよい。電子デバイス100は、ボタン入力を受け取り、電子デバイス100の機能制御及びユーザ設定に関するボタン信号入力を生成し得る。
モータ191は振動アラームを生成し得る。モータ191は、着呼振動プロンプトのために使用されてよく、又はタッチ振動フィードバックのために使用されてよい。例えば、異なるアプリケーション(例えば、撮影及びオーディオ再生)に対して行われた操作は、異なる振動フィードバック効果に対応してよい。ディスプレイ194の異なるエリアで行われたタッチ操作の場合に、モータ191はまた、異なる振動フィードバック効果に対応してもよい。異なる適用シナリオ(例えば、時間リマインダ、情報受け取り、アラーム時計、及びゲーム)も異なる振動フィードバック効果に対応してよい。タッチ振動フィードバック効果はカスタマイズされることもできる。
インジケータ192はインジケータであってよく、充電状態及びバッテリ電力変化を示してよく、又はメッセージ、不在着信、通知、などを示してよい。
SIMカードインターフェース195は、SIMカードへ接続するよう構成される。SIMカードは、電子デバイス100から接触及び分離を実施するよう、SIMIカードインターフェース195に挿入され、又はSIMカードインターフェース195から外されてよい。電子デバイス100は、1つ又はN個のSIMカードインターフェースをサポートしてよく、ここで、Nは、1よりも大きい正の整数である。SIMカードインターフェース195は、ナノSIMカード、マイクロSIMカード、SIMカード、などをサポートしてよい。複数のカードは全て同じSIMカードインターフェース195に挿入されてもよい。複数のカードのタイプは同じでも異なってもよい。SIMカードインターフェース195はまた、異なるタイプSIMカードと互換性を有してもよい。SIMカードインターフェース195はまた、外部メモリカードと互換性を有してもよい。電子デバイス100は、電話及びデータ通信などの機能を実施するよう、SIMカードを介してネットワークと相互作用する。いくつかの実施形態で、電子デバイス100は、eSIMカード、つまり、埋め込みSIMカードを使用する。eSIMカードは、電子デバイスに埋め込まれてもよく、電子デバイス100から分離不可能である。
II.システムアーキテクチャ
電子デバイスが画像を撮影、読み出し、又は記憶するプロセスは、複数のコンポーネントの間の変更を含む。以下は、本願のデータ収集シナリオ、データ符号化及び復号化シナリオ、画像エンハンスメントシナリオ、画像認識シナリオ、又は適用シナリオについて詳細に記載する。
例えば、画像収集及び処理シナリオが一例として使用される。図2に示されるように、電子デバイスの処理プロシージャが一例として記載される。
データ収集:データは、脳型カメラ、RGBカメラ、又はそれらの組み合わせを介して収集され得る。脳型カメラは、シミュレーションビジョンセンサを含んでよく、集積回路を使用することによって生物学的網膜を模倣する。各ピクセルは、生体ニューロンを模倣し、イベントの形で光の強さの変化を表現する。開発後、複数の異なるタイプのバイオニックビジョンセンサが登場しており、上記のモーションセンサDVS又はDAVISなどのセンサの一般的な機能は、ピクセルアレイが独立して非同期に光強度の変化をモニタし、変化をイベント信号として出力することである。RGBカメラは、アナログ信号をデジタル信号に変更し、デジタル信号を記憶媒体に記憶する。代替的に、データは、脳型カメラとRGBカメラとの組み合わせにより収集されてもよい。例えば、脳型カメラ及びRGBカメラによって収集されたデータは、同じキャンバスに投影される。各ピクセルの値は、脳型カメラ及び/又はRGBカメラによってフィードバックされた値に基づいて決定されてよい。代替的に、各ピクセルの値は、独立したチャネルとして別々に使用される脳型カメラ及びRGBの値を含んでもよい。光信号は、イベントの単位でイベントストリームを又はフレームの単位でデータストリームを取得するよう、脳型カメラ、RGBカメラ、又はそれらの組み合わせにより電気信号に変更されてよい。本願では、RGBカメラによって収集された画像はRGB画像と呼ばれ、脳型カメラによって収集されたデータはイベント画像と呼ばれる。
データ符号化及び復号化:データ符号化及びデータ復号化が含まれる。データ符号化は、データ収集後、収集されたデータを符号化し、符号化されたデータを記憶媒体に記憶することを含んでよい。データ復号化は、記憶媒体からデータを読み出し、データを復号し、データを、その後の認識、検出などに使用されるデータに復号することを含んでよい。更に、データ収集方法は、より効率的なデータ収集並びにデータ符号化及び復号化を実施するために、データ符号化及び復号化方式に基づいて更に調整されてよい。データ符号化及び復号化は、脳型カメラに基づいた符号化及び復号化、脳型カメラ及びRGBカメラに基づいた符号化及び復号化、又はRGBカメラに基づいた符号化及び復号化を含む複数のタイプに分類されてよい。具体的に、符号化プロセスにおいて、脳型カメラ、RGBカメラ、又はそれらの組み合わせによって収集されたデータは符号化されてよく、特定のフォーマットで記憶媒体に記憶される。復号化プロセスにおいて、記憶媒体に記憶されているデータは、その後の使用のためのデータに復号されてよい。例えば、最初に日に、ユーザは、脳型カメラ、RGBカメラ、又はそれらの組み合わせによりビデオ又は画像のデータを収集し、ビデオ又は画像のデータを符号化し、ビデオ又は画像のデータを記憶媒体に記憶してよい。次の日に、データは、記憶媒体から読み出されてよく、データは、再生可能なビデオ又は画像を取得するよう復号される。
画像最適化:上記の脳型カメラ又はRGBカメラが画像を捕捉した後、収集された画像は読み出され、次いで、エンハンスメント又は再構成などの最適化処理が、収集された画像に対して実行され、それにより、その後の処理は、最適化された画像に基づいて実行される。例えば、画像エンハンスメント及び再構成は、画像再構築、動き補償、などを含んでよい。動き補償の一例は次の通りである:補償は、DVSによって収集される、動いているオブジェクトの動きパラメータに基づいて、イベント画像又はRGB画像内の動いているオブジェクトに対して実行され、それにより、取得されたイベント画像又はRGB画像はより鮮明である。画像再構築の一例は次の通りである:RGB画像の再構築は、脳型ビジョンカメラによって収集された画像に基づき実行され、それにより、鮮明なRGB画像が、動きシナリオにおいてさえDVSによって収集されたデータに基づいて取得され得る。
適用シナリオ:最適化されたRGB画像又はイベント画像が画像最適化により取得された後、更なるアプリケーションが、最適化されたRGB画像又はイベント画像を使用することによって実行されてもよい。確かに、更なるアプリケーションは、収集されたRGB画像又はイベント画像に対しても実行されてよい。これは、実際の適用シナリオに基づいて具体的に調整されてよい。
具体的に、適用シナリオは、動き写真のエンハンスメント、DVS画像とRGB画像との融合、検出及び認識、自己位置推定及び環境地図作成の同時実行(SLAM)、視線追跡、キーフレーム選択、ポーズ推定、などを含んでよい。例えば、動き写真のエンハンスメントは、より鮮明な動いているオブジェクトを撮影するために、動いているオブジェクトが撮影されるシナリオにおいて撮影画像にエンハンスメント処理を実行することである、DVS画像とRGB画像との融合は、DVSによって捕捉された動いている画像に基づきRGB画像を強調することであり、RGB画像内の動いているオブジェクト又は大きい光比率によって影響を及ぼされるオブジェクトは、より鮮明なRGB画像を取得するために補償される。検出及び認識は、RGB画像又はイベント画像に基づいてターゲット検出又はターゲット認識を実行することである。視線追跡は、収集されたRGB画像若しくはイベント画像、又は最適化されたRGB画像又はイベント画像に基づいてユーザの目の動きを追跡して、ユーザの視点及び視線方向などの情報を決定することである。キーフレーム選択は、脳型カメラによって収集された情報に基づいて、RGBカメラによって収集されたビデオデータからキーフレームとしていくつかのフレームを選択することである。
更に、本願の以下の実施では、異なるセンサが異なる実施において起動される必要がある。例えば、データが収集され、画像が動き補償を通じて最適化される場合に、モーションセンサは起動されてよく、任意に、IMU、ジャイロスコープなどが起動されてもよい。画像再構築の実施においては、モーションセンサは、イベント画像を収集するよう起動されてよく、次いで、最適化がイベント画像に基づいて実行される。代替的に、動き写真のエンハンスメントの実施においては、モーションセンサ、RGBセンサ、などが起動されてもよい。従って、異なる実施では、対応するセンサが起動されるよう選択され得る。
具体的に、本願で提供される方法は、電子デバイスに適用されてよい。電子デバイスは、RGBセンサ、モーションセンサ、などを含んでよい。RGBセンサは、撮影範囲内の画像を収集するよう構成される。モーションセンサは、オブジェクトがモーションセンサの検出範囲内でモーションセンサに対して動くときに生成されるオブジェクトの情報を収集するよう構成される。方法は、シナリオ情報に基づきRGBセンサ及びモーションセンサのうちの少なくとも一方を選択することと、選択されたセンサによりデータを収集することとを含み、シナリオ情報は、電子デバイスのステータス情報、画像を収集するよう要求している電子デバイス内のアプリケーションのタイプ、又は環境情報、のうちの少なくとも1つを含む。
可能な実施において、上記のステータス情報は、電子デバイスのバッテリ電力残量、記憶残量、又はCPU負荷などの情報を含む。
可能な実施において、上記の環境情報は、カラーRGBセンサの撮影範囲及びモーションセンサの撮影範囲における光強度の変化値、又は撮影範囲内で動いているオブジェクトに関する情報を含んでよい。例えば、環境情報は、RGBセンサ若しくはDVSセンサの撮影範囲内の光強度の変化ステータス、又は撮影範囲内のオブジェクトの動き、例えば、オブジェクトの運動速度若しくは運動方向などの情報、又は撮影範囲内のオブジェクトの異常な動き、例えば、オブジェクトの速度の突然の変化若しくはオブジェクトの方向の突然の変化を含んでもよい。
画像を収集するよう要求している電子デバイス内のアプリケーションのタイプは、次の通りに理解され得る:電子デバイスは、Android、Linux、又はHarmonyなどのシステムを担持しており、アプリケーションはシステムで実行されてよく、システムで実行されるアプリケーションは、撮影タイプのアプリケーション又はターゲット検出用のアプリケーションなどの複数のタイプに分類されてよい。
一般に、モーションセンサは、動きの変化に敏感であり、静的なシナリオには反応せず、イベントのプロビジョニングによって動きの変化に反応する。静的な領域ではほとんど全くイベントがプロビジョニングされないので、モーションセンサのイベントデータは、動き変化領域の光強度情報しか表さず、シナリオ全体の完全な光強度情報ではない。RGBカラーカメラは、フルカラーで自然なシナリオを記録し、シナリオ内のテクスチャ詳細を再現するのに優れている。
上記の電子デバイスが携帯電話機である一例が使用され、デフォルトの構成は、DVSカメラ(つまり、DVSセンサ)が無効になっていることである。カメラが使用されるべきであるとき、どのカメラが起動されるかは、現在呼び出されているアプリケーションのタイプに基づき決定される。例えば、カメラが撮影アプリケーションによって呼び出され、携帯電話機が高速運動状態にある場合に、DVSカメラ及びRGBカメラ(つまり、RGBセンサ)は両方とも起動される必要がある。カメラを呼び出すよう要求しているアプリケーションがオブジェクト検出又は動き検出用のアプリケーションであり、オブジェクト撮影又は顔認識を必要としない場合に、DVSカメラが起動されるよう選択されてよく、RGBカメラは起動されなくてもよい。
任意に、カメラ起動モードは、現在のデバイス状態に基づいても選択されてよい。例えば、現在のバッテリ電力が特定の閾値よりも低い場合に、ユーザは節電モードを有効にし、通常撮影を実行することはできず、DVSカメラのみが起動され得る。これは、DVSカメラの写真画像が鮮明でなく、電力消費が低く、高精細画像形成が動いているオブジェクトの検出中には不要であるからである。
任意に、デバイスは、カメラモードを切り替えるべきかどうかを決定するために周囲環境を感知してもよい。例えば、夜シナリオにおいて、又はデバイスが現在高速で動いている場合に、DVSカメラは起動されてよい。静的なシナリオにおいては、DVSカメラは起動されなくてよい。
カメラ電力起動モードは、上記のアプリケーションタイプ、環境情報、及びデバイスステータスに基づいて決定される。更に、実行プロセス中に、カメラモード切替をトリガすべきかどうかが決定されてもよく、それにより、異なるセンサは異なるシナリオで起動され、強い適応性が実装される。
3つの起動モード:RGBカメラのみが起動される、DVSカメラのみが起動される、RGBカメラ及びDVSカメラの両方が起動される、が存在することが理解され得る。更に、異なる製品ごとに、アプリケーションタイプの検出及び環境検出のための基準因子は異なってもよい。
例えば、セキュリティシナリオでのカメラは動き検出機能を備えており、カメラは、動いているオブジェクトを検出したときにのみ記録を格納し、それによって記憶空間を削減し、ハードディスク記憶期間を延ばす。具体的に、DVSカメラ及びRGBカメラが家又はセキュリティカメラで使用される場合に、DVSカメラのみgが、動き検出及び解析を実行するようデフォルトで起動される。DVSカメラが異常な動きを検出及び異常な挙動(例えば、オブジェクトの突然の動き、又は動きの方向の突然の変化)を検出する場合、例えば、人が近づいたり又は光強度が大幅に変化したりする場合に、RGBカメラが撮影のために起動され、そのような期間の完全シナリオテクスチャ画像が監視証明書として記録される。異常な動きが終了した後、DVSへの切り替えが実行される。RGBカメラはスタンバイモードで作動し、これは、モニタデバイスのデータ量及び電力消費を大幅に減らす。
上記の断続的な撮影方法は、DVSの低電力消費を利用し、DVSは、24時間365日の中断のない検出を可能にするよう、画像ベースの動き検出よりも高速な応答及び正確な検出を備えたイベントベースの動き検出を実行し、それにより、より正確で、消費電力が低く、記憶空間を節約した方法が実施される。
他の例として、DVSカメラ及びRGBカメラが車載補助/自動運転に使用される場合に、運転プロセスにおいて、対向車のハイビームランプが点灯したり、車両が直射日光に遭遇したり、又は車両がトンネルから出入りしたりするときに、RGBカメラは有効なシナリオ情報を捕捉できない可能性がある。この場合に、DVSはテクスチャ情報を取得することができないが、DVSは、シナリオ内の大まかな情報を取得することができ、これはドライバの判断に大きく役立つ。更に、霧の天候において、DVSによって捕捉された概要情報は道路状態の決定にも役立ち得る。従って、DVSカメラとRGBカメラとの間のプライマリ/セカンダリ作動ステータスの切り替えは、特定のシナリオで、例えば、光強度が急峻に又は極端な天候で変化するときに、トリガされてよい。
DVSカメラがAR/VRメガネで使用される場合にも、上記のプロセスは適用可能である。DVSがSLAM又は視線追跡に使用される場合に、カメラ起動モードは、デバイスステータス及び周囲環境に基づいて決定され得る。
本願の以下の実施では、センサによって収集されたデータが使用される場合に、センサはオンされる。詳細は以下で記載されない。
以下は、上記の種々の作動モード及び図2を参照して本願で提供される種々の実施について記載する。
III.方法プロシージャ
上記は、一例として本願で提供される電子デバイス及びシステムアーキテクチャについて記載している。以下は、図1Aから図2を参照して詳細に、本願で提供される方法について記載する。具体的に、図2のアーキテクチャを参照して、各モジュールに対応する方法が別々に記載される。本願における以下の方法ステップは独立して実施されてよく、あるいは、1つのデバイスで組み合わされて実施されてもよく、実際の適用シナリオに基づいて具体的に調整されてよい。
上記は、一例として本願で提供される電子デバイス及びシステムアーキテクチャについて記載している。以下は、図1Aから図2を参照して詳細に、本願で提供される方法について記載する。具体的に、図2のアーキテクチャを参照して、各モジュールに対応する方法が別々に記載される。本願における以下の方法ステップは独立して実施されてよく、あるいは、1つのデバイスで組み合わされて実施されてもよく、実際の適用シナリオに基づいて具体的に調整されてよい。
1.データ収集、符号化及び復号化
以下は、データ収集並びにデータ符号化及び復号化のプロセスをまとめて例として記載する。
従来技術では、ビジョンセンサ(例えば、上記のモーションセンサ)は、一般に、イベントストリームに基づいた非同期読み出しモード(「イベントストリームに基づいた読み出しモード」又は「非同期読み出しモード」と以下で呼ばれる)及びフレームスキャンに基づいた読み出しモード(「フレームスキャンに基づいた読み出しモード」又は「同期読み出しモード」と以下で呼ばれる)を採用する。製造されているビジョンセンサの場合に、2つのモードのうちの一方のみが使用され得る。具体的な適用シナリオ及び動き状態に基づいて、上記の2つの読み出しモードで単位時間に読み出される必要がある信号の量は有意に異なる場合があり、更には、読み出されたデータを出力するのに必要なコストも異なる。図3-a及び図3-bは、イベントストリームに基づいた非同期読み出しモード及びフレームスキャンに基づいた同期読み出しモードにおける読み出されたデータの量と時間との間の関係の模式図である。
一方で、生物学的ビジョンセンサは動きに敏感な特徴を備えており、光強度変化イベント(本明細書では「イベント」とも呼ばれる)は通常環境内の静的な領域で生成されるので、そのようなタイプのほぼ全てのセンサは、イベントストリームに基づいた非同期読み出しモードを使用し、このとき、イベントストリームは、特定の順序で配置されているイベントを意味する。以下は、非同期読み出しモードについて記載するために一例としてDVSを使用する。DVSのサンプリング原理に従って、現在の光強度を、前のイベントが生成されたときに使用された光強度と比較することによって、光強度の変化が所定の発光閾値C(所定の閾値と以下で呼ばれる)に達するときに、イベントは生成され出力される。言い換えると、現在の光強度と、前のイベントが生成されたときに使用された光強度との間の差が所定の閾値Cを超える場合に、DVSは、式1-1:
|L-L’|≧C (1-1)
によって記述され得るイベントを生成する。
|L-L’|≧C (1-1)
によって記述され得るイベントを生成する。
Lは、現在の時点での光強度を示し、L’は、前のイベントが生成されたときに使用された光強度を示す。
非同期読み出しモードの場合に、各イベントは、<x,y,t,m>と表現されてよく、(x,y)は、イベントが生成されるピクセル位置を表し、tは、イベントが生成される時間を表し、mは、光強度の特徴情報を表す。具体的に、環境内の光強度の変化は、ビジョンセンサのピクセルアレイ回路内のピクセルで測定される。光強度の測定された変化が所定の閾値を超える場合に、イベントを示すデータ信号がそのピクセルで出力され得る。従って、イベントストリームに基づいた非同期読み出しモードでは、ビジョンセンサのピクセルは、光強度変化イベントが生成されるピクセルと、光強度変化イベントが生成されないピクセルとに更に分類される。光強度変化イベントは、イベントが生成されるピクセルの座標情報(x,y)と、ピクセルでの光強度の特徴情報と、光強度の特徴情報が読み出される時間tと、などに基づいて表されてよい。座標情報(x,y)は、ピクセルアレイ回路内のピクセルを一意に識別するために使用されてよく、例えば、xは、ピクセルがピクセルアレイ回路に位置している行インデックスを表し、yは、ピクセルがピクセルアレイ回路に位置している列インデックスを表す。ピクセルに関連した座標及びタイムスタンプを識別することによって、光強度変化イベントが起こる空間-時間位置は一意に決定され得、次いで、全てのイベントは発生順序でイベントストリームを形成することができる。
いくつかのDVSセンサ(例えば、DAVISセンサ及びATISセンサ)では、mは、光強度の変化傾向を表し、極性情報とも呼ばれることがあり、一般に1ビット又は2ビットによって表され、値はON/OFFであってよく、ONは光強度の増強を示し、OFFは光強度の低下を示す。具体的に言えば、光強度が増え、所定の閾値を超えるとき、ONパルスが生成され、光強度が減り、所定の閾値を下回るとき、OFFパルスが生成される(本願では、「+1」は、光強度の増強を示し、「-1」は、光強度の低下を示す)。CeleXセンサのようないくつかのDVSシナリオがオブジェクトモニタリングを実行するシナリオでは、mは、絶対光強度情報を表し、これは光強度情報とも呼ばれることがあり、通常は、複数のビット、例えば、8ビットから12ビットによって表される。
非同期読み出しモードでは、光強度変化イベントが生成されるピクセルでのデータ信号のみが読み出される。従って、生物学的ビジョンセンサの場合に、読み出される必要があるイベントデータには、疎でありかつ非同期であるという特徴がある。図3-aの曲線101に示されるように、ビジョンセンサは、イベントストリームに基づいた非同期読み出しモードで動作する。ピクセルアレイ回路で起こる光強度変化イベントのレートが変化するとき、ビジョンセンサによって読み出される必要があるデータの量も時間とともに変化する。
他方で、従来のビジョンセンサ、例えば、携帯電話機のカメラ又はデジタルカメラは、通常、フレームスキャンに基づいた同期読み出しモードを使用する。読み出しモードにおいて、光強度変化イベントがビジョンセンサのピクセルで生成されるか否かは、判別されない。光強度変化イベントがピクセルで生成されようとされなかろうと、ピクセルで生成されたデータ信号は読み出される。データ信号を読み出す場合に、ビジョンセンサは、所定の順序でピクセルアレイ回路をスキャンし、各ピクセルでの光強度の特徴情報mを同期読み出しし(光強度の特徴情報mは上述された通りであり、詳細はここで再び説明されない)、データの最初のフレーム、データの2番目のフレーム、などを順に出力する。よって、図3-bの曲線102に示されるように、同期読み出しモードでは、ビジョンセンサによって読み出されるデータの各フレームの量は同じサイズを有しており、データの量は時間にわたって変わらないままである。例えば、8ビットが1つのピクセルの光強度値を表すために使用され、ビジョンセンサのピクセルの総量が66であるとすれば、データの1フレームのデータ量は528ビットである。一般に、フレームデータは、等しい時間インターバルで出力される。例えば、フレームデータは、毎秒30フレーム、毎秒60フレーム、又は毎秒120フレームのレートで出力されてよい。
本出願人は、少なくとも次の側面を含め、現在のビジョンセンサには依然として欠点があることに気付いた。
第1に、単一の読み出しモードが全てのシナリオに適応することはできず、データ伝送及び記憶に対する負担の軽減にはならない。
図3-aの曲線101に示されるように、ビジョンセンサはイベントストリームに基づいた非同期読み出しモードで動作する。ピクセルアレイ回路で起こる光強度変化イベントのレートが変化するとき、ビジョンセンサによって読み出される必要があるデータの量も時間とともに変化する。静的なシナリオでは生成される光強度イベントが少ないので、ビジョンセンサによって読み出される必要があるデータの量は少ない。しかし、動的なシナリオでは、例えば、激しい運動の最中には、大量の光強度変化イベントが生成され、ビジョンセンサによって読み出される必要があるデータの総量もそれに応じて増える。いくつかのシナリオで、大量の光強度変化イベントが生成され、同時に、データの総量は帯域幅制限を超える。イベントの損失又は遅延した読み出しが起こる可能性がある。図3-bの曲線102に示されるように、フレームに基づいた同期読み出しモードでは、ビジョンセンサは、ピクセルが変化するかどうかにかかわらず、1フレームでピクセルの状態又は強度値を表す必要がある。これは、少数のピクセルしか変化しないときに費用がかかる。
2つのモードにおける出力コスト及び記憶コストは、異なる適用シナリオ及び動き状態で大きく変化し得る。例えば、静的なシナリオを撮影する場合に、光強度変化イベントは、ある期間にほんの少数のピクセルでしか生成されない。例として、光強度変化イベントは、1回のスキャンでピクセルアレイ回路内の3つのピクセルでしか生成されない。非同期読み出しモードでは、3つのピクセルの座標情報(x,y)、時間情報t、及び光強度変化のみが、光強度変化イベントを表すために読み出されればよい。非同期読み出しモードで、4ビット及び2ビットと、2ビットと、2ビットとが夫々、1ピクセルの座標と、読み出しタイムスタンプと、光強度変化とに割り当てられるとすれば、読み出しモードで読み出される必要があるデータの総量は30ビットである。対照的に、同期読み出しモードでは、光強度変化イベントを示す有効データ信号が3つのピクセルでしか生成されないとしても、アレイ全体の全てのピクセルでの出力データ信号が、データの1つの完全なフレームを形成するよう依然として読み出される必要がある。同期読み出しモードで、8ビットが各ピクセルに割り当てられ、ピクセルアレイ回路のピクセルの総数が66であり、読み出される必要があるデータの総量が528ビットであるとする。ピクセルアレイ回路内にイベントが生成されない多数のピクセルが存在する場合でさえ、そのような多数のビットが依然として同期読み出しモードでは割り当てられる必要があることが分かる。これは、提示コストの観点から不経済であり、データ転送及び記憶にへの負担を増大させる。従って、この場合には、非同期読み出しモードを使用する方が経済的である。
他の例では、激しい運動がシナリオにおいて起こるか、又は光強度が環境において激しく変化する場合に、例えば、大勢の人々が歩くか、又は光が突然にオン及びオフされる場合に、光強度変化は測定され、光強度変化イベントを示すデータ信号は、ビジョンセンサ内の対数のピクセルで短時間に生成される。非同期読み出しモードで単一のイベントを表すデータの量は、同期読み出しモードで単一のイベントを表すデータの量よりも多いので、この場合に非同期読み出しモードを使用することは、相当な表現コストを必要とする可能性がある。具体的に、光強度変化イベントは、ピクセルアレイ回路の各行における複数の連続したピクセルで生成されてよく、光強度の座標情報(x,y)、時間情報t、及び特徴情報mはイベントごとに伝送される必要がある。これらのイベントの間の座標変化は1単位の偏差にすぎない傾向があり、読み出し時間は基本的に同じである。この場合に、非同期読み出しモードの表現コストは、座標及び時間情報について大きく、これは、データ量の急峻な増加を引き起こす。対照的に、同期読み出しモードでは、如何なる時点でのピクセルアレイ回路で生成される光強度変化イベントの数にかかわらず、光強度変化のみを示すデータ信号が各ピクセルで出力され、各ピクセルの座標情報及び時間情報2ビットを割り当てる必要がない。従って、密なイベントの場合には、同期読み出しモードを使用する方が経済的である。
第2に、単一のイベント表現方式が全てのシナリオに適用することができるわけではない。イベントを表すための光強度情報の使用は、データ伝送及び記憶に対する負担を軽減するのに役立たない。イベントを表すための極性情報の使用は、イベント処理及び解析に影響を与える。
同期読み出しモード及び非同期読み出しモードが上述された。全ての読み出しイベントは、光強度の特徴情報mに基づいて表現される必要があり、光強度の特徴情報には、極性情報及び光強度情報が含まれる。極性情報に基づき表されるイベントは、極性フォーマットでのイベントとここでは呼ばれ、光強度情報に基づき表されるイベントは、光強度フォーマットでのイベントとここでは呼ばれる。製造されているビジョンセンサの場合に2つのイベントフォーマットのうちの一方のみが使用され得、具体的に言えば、ビジョンセンサは、イベントを表すために極性情報を使用するか、又はイベントを表すために光強度情報を使用することができる。以下は、極性フォーマットでのイベント及び光強度フォーマットでのイベントの利点及び欠点について記載するために一例として非同期読み出しモードを使用する。
非同期読み出しモードで、極性情報がイベントを表すために使用される場合に、極性情報pは通常1ビット又は2ビットによって表され、ほとんど情報を運ばず、光強度の変化傾向が増えているか減っているかのみを示すことができる。従って、イベントを表すために極性情報を使用することは、イベントの処理及び解析に影響を与える。例えば、極性情報を使用することによって表されるイベントの場合に、画像を再構成することは難しく、オブジェクト認識の精度も悪い。光強度情報がイベントを表すために使用される場合に、光強度情報は通常は複数のビット、例えば、8ビットから12ビットによって表される。極性情報と比較して、光強度情報はより多くの情報を運ぶことができ、これにより、イベント処理及び解析は容易になり、例えば、画像再構成品質は向上する。しかし、大量のデータ量により、光強度情報に基づき表されるイベントを取得するには、より長い時間がかかる。DVSサンプリング原理に従ってイベントは、ピクセルの光強度変化が所定の閾値を超えるときに生成される。広い面積のオブジェクト移動又は光強度変動がシナリオ(例えば、トンネルの入口及び出口、又は部屋の明かりの音及びオフなどのシナリオ)において起こる場合に、視覚センサは、イベントの突然の増加という問題に直面する。視覚センサの前もってセットされた最大帯域幅(帯域幅と以下で呼ばれる)が固定されているとき、イベントデータが読み出され得ない場合がある。現在、ランダム破棄が通常使用されている。ランダム破棄が使用される場合に、伝送されるべきデータの量が帯域幅を超えないことは確かにされ得るが、データ損失が生じる。いくつかの特別な適用シナリオ(例えば、自動運転)では、ランダムに破棄されたデータは高い重要性を持つ場合がある。言い換えると、大量のイベントがトリガされる場合に、データ量は帯域幅を超え、光強度フォーマットでのデータは、DVSの外へ完全には出力されない可能性がある。その結果、一部のイベントは失われる。このようなイベントの欠落は、イベント処理及び解析にとって好ましくないことがあり、例えば、輝度再構築中に動きのぼけや不完全な輪郭を引き起こす可能性がある。
上記の問題を解決するために、本願の実施形態は、ビジョンセンサを提供し、2つの読み出しモードでのデータ量は、現在の適用シナリオ及び動き状態に適した読み出しモードに切り替えるよう、ピクセルアレイ回路によって生成された光強度変化イベントの統計的な結果に基づいて比較される。更に、ピクセルアレイ回路によって生成された光強度変化イベントの統計的な結果に基づいて、光強度情報に基づいて表現されるイベントのデータ量と帯域幅との間の関係の比較は、イベントの表現精度を調整するために実行される。帯域幅制限が満足されるとき、全てのイベントは、適切な表現方式で伝えられ、全てのイベントは、可能な限り高い表現精度で伝えられる。
以下は、本願の実施形態で提供されるビジョンセンサについて記載する。
図4-aは、本願に従うビジョンセンサのブロック図である。ビジョンセンサは、ビジョンセンサチップとして実施されてよく、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの少なくとも一方で、イベントを示すデータ信号を読み出すことができる。図4-aに示されるように、ビジョンセンサ200は、ピクセルアレイ回路210及び読み出し回路220を含む。ビジョンセンサは制御回路230へ結合されている。図4-aに示されるビジョンセンサは、例示のみを目的とし、本願の範囲に対する如何なる制限も暗示するものではないことが理解されるべきである。本願の実施形態は、異なるセンサアーキテクチャで更に具現化されてもよい。更に、ビジョンセンサは、画像収集、画像処理、及び画像伝送などの目的を実施するよう構成されている他の要素又はエンティティを更に含んでもよいことが更に理解されるべきである。記載を容易にするために、これらの要素又はエンティティは示されないが、それは、本願の実施形態がこれらの要素又はエンティティを備えないことを意味しているわけではない。
ピクセルアレイ回路210は1つ以上のピクセルアレイを含んでよい。各ピクセルアレイは複数のピクセルを含み、各ピクセルは、一意の識別のための位置情報、例えば、座標(x,y)を有する。ピクセルアレイ回路210は、光強度の変化を測定し、複数のピクセルに対応する複数のデータ信号を生成するよう構成されてよい。いくつかの可能な実施形態で、各ピクセルは、環境内の光強度変化に独立して反応するよう構成される。いくつかの可能な実施形態で、測定された光強度の変化は、ピクセルで所定の閾値と比較される。測定された光強度の変化が所定の閾値を超える場合に、光強度変化イベントを示す第1データ信号がそのピクセルで生成される。例えば、第1データ信号は極性情報、例えば、+1又は-1を含む。代替的に、第1データ信号は絶対光強度情報であってもよい。この例で、第1データ信号は、対応するピクセルでの光強度変化傾向又は絶対光強度値を示し得る。いくつかの可能な実施形態で、測定された光強度の変化が所定の閾値を超えない場合に、第1データ信号とは異なる、例えば0などの第2データ信号がピクセルで生成される。本願の実施形態で、データ信号は、光強度極性、絶対光強度値、光強度の変化値、などを示し得るが、これらに限られない。光強度極性は、通常+1又は-1と表現される光強度変化の傾向、例えば、増強又は低減を示し得る。絶対光強度値は、現在時点で測定された光強度値を表し得る。センサの構造、使用法、又はタイプに基づいて、光強度又は光強度の変化は異なる物理的な意味を有する場合がある。本願の範囲はこの点に関して制限されない。
読み出し回路220は、ピクセルアレイ回路210及び制御回路230へ結合され、それらと通信し得る。読み出し回路220は、ピクセルアレイ回路210によって出力されたデータ信号を読み出すよう構成される。読み出し回路220は、ピクセルアレイ210によって出力されたデータ信号を読み出し、データ信号を制御回路230へ送信することが理解され得る。制御回路230は、読み出し回路220がデータ信号を読み出すモードを制御するよう構成され、制御回路230はまた、出力されるデータ信号の表現方式を制御する、言い換えると、データ信号の表現精度を制御するよう構成されてもよい。例えば、制御回路は、極性情報に基づき表されるイベント、光強度情報に基づき表されるイベント、固定されたビットの数に基づき表されるイベント、などを出力するようビジョンセンサを制御してよく、これは、具体的な実施を参照して以下で説明される。
本願の可能な実施形態に従って、制御回路230は、図4-aに示されるようにビジョンセンサ200の外にある独立した回路又はチップとして使用されてよく、バスインターフェースを通じてビジョンセンサ200へ接続される。いくつかの他の可能な実施形態では、制御回路230は、代替的に、ビジョンセンサ内の回路又はチップとして使用されてもよく、ビジョンセンサにピクセルアレイ回路及び読み出し回路とともに集積される。図4-bは、本願の可能な実施形態に従う他の視覚センサ300のブロック図である。ビジョンセンサ300は、ビジョンセンサ200の実施例であってよい。図4-bは、本願に従う他の視覚センサのブロック図である。ビジョンセンサは、ピクセルアレイ回路310、読み出し回路320、及び制御回路330を含む。ピクセルアレイ回路310、読み出し回路320、及び制御回路330は夫々、図4-aに示されるピクセルアレイ回路210、読み出し回路220、及び制御回路230と機能的に同じである。従って、詳細は再びここで記載されない。ビジョンセンサは、例示のみを目的としており、本願の範囲に対する如何なる制限も暗示するものではないことが理解されるべきである。本願の実施形態は、異なるビジョンセンサで更に具現化されてもよい。更に、ビジョンセンサは、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよいことが更に理解されるべきである。しかし、それは、本願の実施形態はそれらの要素又はエンティティを備えないことを意味しているわけではない。
ビジョンセンサの上記のアーキテクチャに基づいて、本願で提供されるビジョンセンサは、以下で詳細に記載される。
読み出し回路220は、対応するピクセルで生成されたデータ信号を読み出すよう所定の順序でピクセルアレイ回路210内のピクセルをスキャンするよう構成されてよい。本願の実施形態で、読み出し回路220は、1よりも多い信号読み出しモードのうちの1つで、ピクセルアレイ回路210によって出力されたデータ信号を読み出すことができるよう構成される。例えば、読み出し回路220は、第1読み出しモード及び第2読み出しモードのうちの1つで読み出しを実行してよい。本明細書の文脈中、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは他方の読み出しモードに対応する。更に、第1読み出しモードは、読み出し回路220の現在の読み出しモードを指してもよく、第2読み出しモードは、切り替え可能な代替の読み出しモードを指してもよい。
図5は、本願の実施形態に従う、フレームスキャンに基づいた同期読み出しモード及びイベントストリームに基づいた非同期読み出しモードの原理の模式図である。図5の上半分に示されるように、黒点は、光強度変化イベントが生成されるピクセルを表し、白点は、光強度変化イベントが生成されないピクセルを表す。左側の破線ボックスは、フレームスキャンに基づいた同期読み出しモードを表し、このとき、電気信号は、受信された光信号に基づいて全てのピクセルで生成され、データ信号は、アナログ-デジタル変更が実行された後に出力される。当該モードで、読み出し回路220は、全てのピクセルで生成されたデータ信号を読み出すことによってデータの1フレームを構成する。右側の破線ボックスは、イベントストリームに基づいた非同期読み出しモードを表す。当該モードで、ピクセルの座標情報(x,y)は、読み出し回路220が、スキャンを通じて、光強度変化イベントが生成されているピクセルを検出する場合に、取得され得る。次いで、読み出し回路は、光強度変化イベントが生成されているピクセルで生成されたデータ信号のみを読み出し、読み出し時間tを記録する。光強度変化イベントが生成される複数のピクセルがピクセルアレイ回路に存在する場合に、読み出し回路220は、スキャン順に複数のピクセルで生成されたデータ信号を順次読み出し、出力としてイベントストリームを形成する。
図5の下半分は、表現コスト(例えば、読み出される必要があるデータの量)の観点から2つの読み出しモードを表す。図5に示されるように、同期読み出しモードでは、読み出し回路220は、毎回同じ量のデータ、例えば、データの1フレームを読み出す。最初のフレームデータ401-1及び2番目のフレームデータ401-2が図5に示されている。単一ピクセルのデータ量(例えば、ビットの数Bp)及びピクセルアレイ回路内のピクセルの総数Mに基づいて、読み出されるデータの1フレームの量はM・Bpと決定され得る。非同期読み出しモードでは、読み出し回路220は、光強度変化イベントを示すデータ信号を読み出し、次いで、全てのイベントを使用して、発生順にイベントストリーム402を形成する。この場合に、毎回読み出し回路220によって読み出されるデータの量は、単一のイベントを表すイベントデータの量Bev(例えば、イベントが生成されるピクセルを表す座標(x,y)と、読み出しタイムスタンプtと、光強度の特徴情報のビットの数との和)及び光強度変化イベントの数Nevに関係がある。
いくつかの実施で、読み出し回路220は、制御回路230に少なくとも1つの読み出されたデータ信号を供給するよう構成されてよい。例えば、読み出し回路220は、制御回路230に対して、ある期間に読み出されたデータ信号を供給してよく、それにより、制御回路230は、過去のデータの統計値を収集し、解析を行う。
いくつかの可能な実施形態で、現在使用されている第1読み出しモードがイベントストリームに基づいた読み出しモードであるとき、読み出し回路220は、光強度変化イベントが生成される、ピクセルアレイ回路210内にあるピクセルで生成されたデータ信号を読み出す。記載を容易にするために、以降、当該データ信号は第1データ信号とも呼ばれる。具体的に、読み出し回路220は、ピクセルアレイ回路210をスキャンすることによって、光強度変化イベントに関係があるピクセルの位置情報(x,y)を決定する。ピクセルの位置情報(x,y)に基づいて、読み出し回路220は、ピクセルで生成されている、複数のデータ信号のうちの第1データ信号を読み出して、第1データ信号によって示される光強度の特徴情報及び読み出し時間情報tを取得する。例として、イベントストリームに基づいた読み出しモードでは、毎秒読み出し回路220によって読み出されるイベントデータの量は、Bev・Nevビットと表すことができ。言い換えると、読み出し回路220のデータ読み出しレートは、毎秒Bev・Nevビット(ビット毎秒,bps)であり、ここで、Bevは、イベントストリームに基づいた読み出しモードで各光強度変化イベントに割り当てられているイベントデータ量(例えば、ビットの数)であり、最初のbx個及びby個のビットは、ピクセル座標(x,y)を示し、次のbt個のビットは、データ信号が読み出されるタイムスタンプtを示し、最後のbf個のビットは、データ信号によって示されるビット強度の特徴情報を示す。つまり、Bev=bx+by+bt+bfは、ある期間にわたってピクセルアレイ回路210内で生成された光強度変化イベントの過去の統計値に基づき読み出し回路220によって取得される、毎秒生成されるイベントの平均数である。フレームスキャンに基づいた読み出しモードでは、読み出し回路220によって読み出されるデータの各フレームの量は、M・Bpビットと表すことができ、毎秒読み出されるデータ量はM・Bp・fビットであり、つまり、読み出し回路のデータ読み出しレートはM・Bp・fbpsであり、このとき、ビジョンセンサ200内のピクセルの総数はMであり、Bpは、フレームスキャンに基づいた読み出しモードで各ピクセルに割り当てられているピクセルデータの量(例えば、ビットの数)であり、fは、フレームスキャンに基づいた読み出しモードでの読み出し回路220の所定のフレームレートであることが与えられている。言い換えると、読み出し回路220は、ピクセルアレイ回路210内の全てのピクセルで生成されたデータ信号を読み出すよう当該モードで所定のフレームレートfHzでピクセルアレイ回路210をスキャンする。従って、M、Bp及びfは全て、既知の変数であり、フレームスキャンに基づいた読み出しモードでの読み出し回路220のデータ読み出しレートは直接取得され得る。
いくつかの可能な実施形態で、現在使用されている第1読み出しモードがフレームスキャンに基づいた読み出しモードであるとき、読み出し回路220は、ある期間にわたってピクセルアレイ回路210で生成された光強度変化イベントの数の過去の統計値に基づいて計算により、毎秒生成されるイベントの平均数Nevを取得してよい。フレームスキャンに基づいた読み出しモードで取得されたNevに基づいて、イベントストリームに基づいた読み出しモードで毎秒読み出し回路220によって読み出されるイベントデータの量は、Bev・Nevと計算することができ、つまり、読み出し回路220のデータ読み出しレートは、イベントストリームに基づいた読み出しモードでBev・Nevビットである。
上記の2つの実施から、フレームスキャンに基づいた読み出しモードでの読み出し回路220のデータ読み出しレートは、事前定義されたパラメータに基づいて計算により直接求めることができ、イベントストリームに基づいた読み出しモードでの読み出し回路220のデータ読み出しレートは、2つのモードのどちらか一方で取得されたNevに基づいて計算により求めることができることが分かる。
制御回路230は、読み出し回路220へ結合され、ピクセルアレイ回路210によって生成されたデータ信号を特定の読み出しモードで読み出すように読み出し回路220を制御するよう構成される。いくつかの可能な実施形態で、制御回路230は、読み出し回路220から少なくとも1つのデータ信号を取得し、少なくとも1つのデータ信号に基づいて、現在の読み出しモード及び代替の読み出しモードのうちのどちらの一方が現在の適用シナリオ及び動き状態にとってより適切であるかを決定してよい。更に、いくつかの実施形態で、制御回路230は、決定に基づいて、現在のデータ読み出しモードから他のデータ読み出しモードへ切り替えるよう読み出し回路220に指示してもよい。
いくつかの可能な実施形態で、制御回路230は、光強度変化イベントの過去の統計値に基づいて読み出し回路220へ、読み出しモードの切り替えに関する指示を送信してもよい。例えば、制御回路230は、読み出し回路220から受信された少なくとも1つのデータ信号に基づいて、少なくとも1つの光強度変化イベントに関する統計データを決定してよい。統計データが所定の切り替え条件を満足すると決定される場合に、制御回路230は、モード切替信号を読み出し回路220へ送信して、読み出し回路220が第2読み出しモードに切り替わるようにする。比較を容易にするために、統計データは、第1読み出しモード及び第2読み出しモードで別々にデータ読み出しレートを測定するために使用されてよい。
いくつかの実施形態で、統計データは、単位時間にピクセルアレイ回路210によって測定されたイベントの数の総データ量を含んでよい。第1読み出しモードで読み出し回路220によって読み出される、光強度変化イベントのデータの総量が、第2読み出しモードでの光強度変化イベントのデータの総量よりも多いか又はそれと等しい場合に、それは、読み出し回路220が第1読み出しモードから第2読み出しモードに切り替わる必要があることを示す。いくつかの実施形態で、第1読み出しモードは、フレームスキャンに基づいた読み出しモードであり、第2読み出しモードは、イベントストリームに基づいた読み出しモードである、ことが与えられる。制御回路230は、ピクセルアレイ回路のピクセル数M、フレームレートf、及びピクセルデータ量Bpに基づいて、第1読み出しモードで読み出される、光強度変化イベントのデータの総量M・Bp・fを決定し得る。制御回路230は、光強度変化イベントの数Nevと、イベントストリームに基づいた読み出しモードに関連したイベントデータ量Bevとに基づいて、光強度変化イベントの総データ量Bev・Nev、つまり、第2読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevを決定し得る。いくつかの実施形態で、切り替えパラメータは、2つの読み出しモードでの総データ量の間の関係を調整するために使用されてよい。次の式(1)に示されるように、第1読み出しモードで読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードでの光強度変化イベントの総データ量Bev・Nevよりも多いか又はそれと等しい場合に、読み出し回路220は、第2読み出しモードに切り替わる必要がある:
η・M・Bp・f≧Bev・Nev (1)
η・M・Bp・f≧Bev・Nev (1)
ηは、調整のための切り替えパラメータである。上記の式(1)から、第1閾データ量d1=M・Bp・f・ηであることが更に求められ得る。具体的に言えば、光強度変化イベントの総データ量Bev・Nevが閾データ量d1以下である場合に、それは、第1読み出しモードで読み出される、光強度変化イベントのデータの総量が既に、第2読み出しモードでの光強度変化イベントの総データ量以上であることを示す。制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定してよい。この実施形態では、閾データ量d1が、ピクセルアレイ回路のピクセル数Mと、フレームスキャンに基づいた読み出しモードに関連するフレームレートf及びピクセルデータ量Bpとに少なくとも基づいて、決定されてよい。
上記の実施形態の代替の実施では、第1読み出しモードで読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードでの光強度変化イベントの総データ量Bev・Nev以上である場合は、次の式(2)で示されてもよい:
M・Bp・f-Bev・Nev≧θ (2)
M・Bp・f-Bev・Nev≧θ (2)
θは、調整のための切り替えパラメータである。上記の式(2)から、第2閾データ量d2=M・Bp・f-θであることが更に求められ得る。
具体的に言えば、光強度変化イベントの総データ量Bev・Nevが第2閾データ量d2以下である場合に、それは、第1読み出しモードで読み出される、光強度変化イベントのデータの総量が既に、第2読み出しモードでの光強度変化イベントの総データ量以上であることを示す。制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定してよい。この実施形態では、閾データ量d2が、ピクセルアレイ回路のピクセル数Mと、フレームスキャンに基づいた読み出しモードに関連するフレームレートf及びピクセルデータ量Bpとに少なくとも基づいて、決定されてよい。
いくつかの実施形態で、第1読み出しモードは、イベントストリームに基づいた読み出しモードであり、第2読み出しモードは、フレームスキャンに基づいた読み出しモードである。イベントストリームに基づいた読み出しモードでは、読み出し回路220は、イベントが生成されるピクセルで生成されたデータ信号のみを読み出すので、それに応じて、制御回路230は、読み出し回路220によって供給されたデータ信号の数に基づいて、ピクセルアレイ回路210によって生成された光強度変化イベントの数Nevを直接決定することができる。制御回路230は、イベントストリームに基づいた読み出しモードに関連したイベントの数Nev及びイベントデータ量Bevに基づいて、光強度変化イベントの総データ量、つまり、第1読み出しモードで読み出されるイベントのデータの総量Bev・Nevを決定してよい。同様に、制御回路230は更に、ピクセルアレイ回路のピクセル数M、フレームレートf及びピクセルデータ量Bpに基づいて、第2読み出しモードで読み出される、光強度変化イベントのデータの総量M・Bp・fを決定してもよい。次の式(3)に示されるように、第1読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevは、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上であり、読み出し回路220は第2読み出しモードに切り替わる必要がある:
Bev・Nev≧η・M・Bp・f (3)
Bev・Nev≧η・M・Bp・f (3)
ηは、調整のための切り替えパラメータである。上記の式(3)から、第1閾データ量d1=η・M・Bp・fであることが更に求められ得る。光強度変化イベントの総データ量Bev・Nevが閾データ量d1以上である場合に、制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定する。この実施形態では、閾データ量d1が、ピクセルアレイ回路のピクセル数Mと、フレームレートf及びピクセルデータ量Bpとに少なくとも基づいて、決定されてよい。
上記の実施形態の代替の実施では、第1読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上である場合は、次の式(4)で示されてもよい:
M・Bp・f-Bev・Nev≦θ (4)
M・Bp・f-Bev・Nev≦θ (4)
θは、調整のための切り替えパラメータである。上記の式(4)から、第2閾データ量d2=M・Bp・f-θであることが更に求められ得る。光強度変化イベントの総データ量Bev・Nevが第2閾データ量d2以上である場合に、制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定してよい。この実施形態では、閾データ量d2が、ピクセルアレイ回路のピクセル数Mと、フレームレートf及びピクセルデータ量Bpとに少なくとも基づいて、決定されてよい。
他の実施形態では、統計データは、単位時間にピクセルアレイ回路210によって測定されたイベントの数Nevを含んでもよい。第1読み出しモードがフレームスキャンに基づいた読み出しモードであり、第2読み出しモードがイベントストリームに基づいた読み出しモードである場合に、制御回路230は、読み出し回路220によって供給された複数のデータ信号のうちの第1データ信号の数に基づき、光強度変化イベントの数Nevを決定する。統計データによって示される、光強度変化イベントの数Nevが第1閾数n1よりも少ない場合に、制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定し、また、ピクセルアレイ回路のピクセルの数Mと、フレームスキャンに基づいた読み出しモードに関連するフレームレートf及びピクセルデータ量Bpと、イベントストリームに基づいた読み出しモードに関連したイベントデータ量Bevとに少なくとも基づいて第1閾数n1を決定してもよい。例えば、上記の実施形態では、次の式(5)が、式(1)に基づいて更に取得され得る:
Nev≦(η・M・Bp・f)/Bev (5)
Nev≦(η・M・Bp・f)/Bev (5)
すなわち、第1閾数n1は、n1=(η・M・Bp・f)/Bevと決定され得る。
上記の実施形態の代替の実施では、次の式(6)が、式(2)に基づいて更に取得され得る:
Nev≦(M・Bp・f-θ)/Bev (6)
Nev≦(M・Bp・f-θ)/Bev (6)
相応して、第2閾数n2は、n2=(M・Bp・f-θ)/Bevと決定され得る。
更に他の実施形態では、第1読み出しモードがイベントストリームに基づいた読み出しモードであり、第2読み出しモードがフレームスキャンに基づいた読み出しモードである場合に、制御回路230は、読み出し回路220によって供給された少なくとも1つのデータ信号の数に基づいて、光強度変化イベントの数Nevを直接決定し得る。統計データによって示される、光強度変化イベントの数Nevが第1閾数n1以上である場合に、制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定する。第1閾数n1=(η・M・Bp・f)/Bevは、ピクセルアレイ回路210のピクセルの数Mと、フレームスキャンに基づいた読み出しモードに関連するフレームレートf及びピクセルデータ量Bpと、イベントストリームに基づいた読み出しモードに関連したイベントデータ量Bevとに少なくとも基づいて決定され得る。例えば、上記の実施形態では、次の式(7)が、式(3)に基づいて更に取得され得る:
Nev≧(η・M・Bp・f)/Bev (7)
Nev≧(η・M・Bp・f)/Bev (7)
すなわち、第1閾数n1は、n1=(η・M・Bp・f)/Bevと決定され得る。
上記の実施形態の代替の実施では、次の式(8)が、式(4)に基づいて更に取得され得る:
Nev≧(M・Bp・f-θ)/Bev (8)
Nev≧(M・Bp・f-θ)/Bev (8)
相応して、第2閾数n2は、n2=(M・Bp・f-θ)/Bevと決定され得る。
上で与えられている式、切り替え条件、及び関連する計算方法は、本願の実施形態の実施例にすぎず、他の適切なモード切替条件、切り替えポリシー、及び計算方法も使用されてよいことが理解されるべきである。本願の範囲はこの点に関して制限されない。
図6-aは、本願の実施形態に従う、フレームスキャンに基づいた読み出しモードでのビジョンセンサの動作の模式図である。図6-bは、本願の実施形態に従う、イベントストリームに基づいた読み出しモードでのビジョンセンサの動作の模式図である。図6-aに示されるように、読み出し回路220又は320は、第1読み出しモード、つまり、フレームスキャンに基づいた読み出しモードで現在動作している。制御回路230又は330は、過去の統計値に基づいて、現在のピクセルアレイ回路210又は310で生成されているイベントの数が比較的に小さいと、例えば、データの1フレームに有効なデータが4つしかないと決定し、次いで、次の期間における可能なイベント発生率が相対的に低いと予想するので、読み出し回路220又は320が引き続きフレームスキャンに基づいた読み出しモードで読み出す場合に、ビットは、イベントが生成されるピクセルに繰り返し割り当てられ、その結果、大量の冗長データが生成される。この場合に、制御回路230又は330は、第1読み出しモードから第2読み出しモードへ読み出し回路220又は320を切り替えるようモード切替信号を読み出し回路220又は320へ送信する。切り替え後、図6-bに示されるように、読み出し回路220又は320は、第2動作モードで動作し、有効なデータ信号のみを読み出し、それによって、大量の無効なデータ信号によって占有される伝送帯域幅及び記憶リソースを回避する。
図6-cは、本願の実施形態に従う、イベントストリームに基づいた読み出しモードでのビジョンセンサの動作の模式図である。図6-dは、本願の実施形態に従う、フレームスキャンに基づいた読み出しモードでのビジョンセンサの動作の模式図である。図6-cに示されるように、読み出し回路220又は320は、第1読み出しモード、つまり、イベントストリームに基づいた読み出しモードで現在動作している。制御回路230又は330は、過去の統計値に基づいて、ピクセルアレイ回路210又は310で現在生成されているイベントの数が比較的に大きいと決定する。例えば、光強度変化が所定の閾値よりも高いことを別々に示すデータ信号が、短時間にピクセルアレイ回路210又は310内のほぼ全てのピクセルで生成される。その場合に、読み出し回路220又は320は、次の期間における可能なイベント発生率が相対的に高いと予想する。読み出しデータ信号には大量の冗長なデータ、例えば、ほぼ同じピクセル位置情報及び読み出しタイムスタンプが存在するので、読み出し回路220又は320が引き続きイベントストリームに基づいた読み出しモードで読み出す場合に、読み出されるデータの量は急激に増える。よって、この場合に、制御回路230又は330は、第1読み出しモードから第2読み出しモードへ読み出し回路220又は320を切り替えるようモード切替信号を読み出し回路220又は320へ送信する。切り替え後、図6-dに示されるように、読み出し回路220又は320は、フレームスキャンに基づいたモードで動作して、単一ピクセルのより低い表現コストでの読み出しモードでデータ信号を読み出し、それによって、データ信号に記憶及び伝送に対する負担を軽減する。
いくつかの可能な実施形態で、ビジョンセンサ200又は300は、パーシング回路を更に含んでもよく、パーシング回路は、読み出し回路220又は320によって出力されたデータ信号をパースするよう構成されてよい。いくつかの可能な実施形態で、パーシング回路は、読み出し回路220又は320の現在のデータ読み出しモードに適したパーシングモードを使用することによってデータ信号をパースし得る。これは以下で詳細に説明される。
他の既存の又は開発されることになっている将来のデータ読み出しモード、データパーシングモードなども、本願の可能な実施形態に適用可能であり、本願の実施形態における全ての値は、限定よりむしろ実例であることが理解されるべきである。例えば、本願の可能な実施形態で、切り替えは、2よりも多いデータ読み出しモードの間で実行されてもよい。
本願の可能な実施形態に従って、ビジョンセンサチップが提供され、ピクセルアレイ回路で生成された強度変化イベントの過去の統計値に基づき複数の読み出しモード間で適応的に切り替わることができる。このようにして、動的シナリオか静的シナリオかを問わず、ビジョンセンサチップは常に、優れた読み出し及びパーシング性能を実装して、冗長なデータの生成を回避し、かつ、画像処理、伝送及び記憶に対する負担を軽減することができる。
図7は、本願の可能な実施形態に従うビジョンセンサチップの作動方法のフローチャートである。いくつかの可能な実施形態で、方法は、図4-aに示されるビジョンセンサ200、図4-bに示されるビジョンセンサ300、及び以下で図9に示される電子デバイスを使用することによって実施されてよく、あるいは、現在知られているか又は将来開発される様々なデバイスを含む任意の適切なデバイスを使用することによって実施されてもよい。議論を容易にするために、方法は、図4-aに示されるビジョンセンサ200に基づいて以下で説明される。
図7を参照されたい。本願の実施形態に従うビジョンセンサチップの作動方法は、次のステップを含み得る。
501:ピクセルアレイ回路内の複数のピクセルに対応する複数のデータ信号を生成する。
ピクセルアレイ回路210は、光強度の変化を測定し、ピクセルアレイ回路210内の複数のピクセルに対応する複数のデータ信号を生成する。本明細書の文脈中、データ信号は、光強度極性、絶対光強度値、光強度の変化値、などが含まれることを示し得るが、制限されない。
502:第1読み出しモードでピクセルアレイ回路から複数のデータ信号のうちの少なくとも1つを読み出す。
読み出し回路220は、第1読み出しモードでピクセルアレイ回路210から複数のデータ信号のうちの少なくとも1つを読み出し、データ信号は、読み出された後にビジョンセンサ200内の記憶及び伝送リソースを占有する。特定の読み出しモードに基づいて、ビジョンセンサチップ200がデータ信号を読み出す方式は変化し得る。いくつかの可能な実施形態で、例えば、イベントストリームに基づいた読み出しモードでは、読み出し回路220は、ピクセルアレイ回路210をスキャンすることによって、光強度変化イベントに関係があるピクセルの位置情報(x,y)を決定する。位置情報に基づいて、読み出し回路220は、複数のデータ信号のうちの第1データ信号を読み出し得る。この実施形態では、読み出し回路220は、データ信号を読み出すことによって、光強度の特徴情報、光強度変化イベントが生成されるピクセルの位置情報(x,y)、データ信号が読み出されるタイムスタンプt、などを取得する。
いくつかの他の可能な実施形態で、第1読み出しモードは、フレームスキャンに基づいた読み出しモードであってよい。このモードでは、ビジョンセンサ200は、ピクセルアレイ回路210によって生成された全てのデータを読み出すよう、フレームスキャンに基づいた読み出しモードに関連したフレーム周波数でピクセルアレイ回路210をスキャンする。この実施形態で、読み出し回路220は、データ信号を読み出すことによって光強度の特徴情報を取得する。
503:制御回路に少なくとも1つのデータ信号を供給する。
読み出し回路220は、制御回路230に少なくとも1つの読み出されたデータ信号を供給して、制御回路230が統計値を収集して解析を行うようにする。いくつかの実施形態で、制御回路230は、少なくとも1つのデータ信号に基づいて、少なくとも1つの光強度変化イベントに関する統計データを決定してよい。制御回路230は、切り替えポリシーモジュールを使用して、統計データを解析してもよい。統計データが所定の切り替え条件を満足すると決定される場合に、制御回路230は、モード切替信号を読み出し回路220へ送信する。
第1読み出しモードがフレームスキャンに基づいた読み出しモードであり、第2読み出しモードがイベントストリームに基づいた読み出しモードである場合に、いくつかの実施形態で、制御回路230は、複数のデータ信号のうちの第1データ信号の数に基づいて光強度変化イベントの数を決定してよい。更に、制御回路230は、光強度変化イベントの数を第1閾数と比較する。統計データによって示される、光強度変化イベントの数が第1閾数以下である場合に、制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定し、モード切替信号を送信する。この実施形態で、制御回路230は、ピクセルアレイ回路のピクセルの数と、フレームスキャンに基づいた読み出しモードに関連するフレームレート及びピクセルデータ量と、イベントストリームに基づいた読み出しモードに関連したイベントデータ量とに基づいて、第1閾数を決定又は調整し得る。
第1読み出しモードがイベントストリームに基づいた読み出しモードであり、第2読み出しモードがフレームスキャンに基づいた読み出しモードである場合に、いくつかの実施形態で、制御回路230は、読み出し回路から受信された第1データ信号に基づいて、光強度変化イベントに関する統計データを決定し得る。更に、制御回路230は、光強度変化イベントの数を第2閾数と比較する。光強度変化イベントの数が第2閾数以上である場合に、制御回路230は、光強度変化イベントの統計データが所定の切り替え条件を満足することを決定し、モード切替信号を送信する。この実施形態で、制御回路230は、ピクセルアレイ回路のピクセルの数と、フレームスキャンに基づいた読み出しモードに関連するフレームレート及びピクセルデータ量と、イベントストリームに基づいた読み出しモードに関連したイベントデータ量とに基づいて、第2閾数を決定又は調整し得る。
504:モード切替信号に基づいて第1読み出しモードを第2読み出しモードに切り替える。
読み出し回路220は、制御回路220から受信されたモード切替信号に基づいて、第1読み出しモードから第2読み出しモードに切り替わる。更に、読み出し回路220は、第2読み出しモードで、ピクセルアレイ回路210によって生成された少なくとも1つのデータ信号を読み出す。制御回路230は、次いで、ピクセルアレイ回路220によって生成された光強度変化イベントの過去の統計値を引き続き収集し、切り替え条件が満足されると、モード切替信号を送信して、読み出し回路220が第2読み出しモードから第1読み出しモードに切り替わることができるようにし得る。
本願の可能な実施形態で提供される方法に従って、制御回路は、読み出し及びパーシングプロセス全体で、ピクセルアレイ回路で生成された光強度変化イベントに対する過去の統計値の収集及び実時間の解析を連続的に実行し、切り替え条件が満足されるとモード切替信号を送信して、読み出し回路が現在の読み出しモードからより適切な代替の切り替えモードへ切り替わるようにする。適応的な切り替えプロセスは、全てのデータ信号が読み出されるまで繰り返される。
図8は、本願の実施形態に従う制御回路の可能なブロック図である。制御回路は、図4-aの制御回路230、図5の制御回路330、などを実施するよう構成されてよく、あるいは、他の適切なデバイスを使用することによって実施されてもよい。制御回路は、例示のみを目的としており、本願の範囲に対する如何なる制限も暗示するものではない。本願の実施形態は、異なる制御回路で更に具現化されてもよい。更に、制御回路は、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよいことが更に理解されるべきである。しかし、それは、本願の実施形態がそれらの要素又はエンティティを備えないことを意味しているわけではない。
図8に示されるように、制御回路は、少なくとも1つのプロセッサ602、プロセッサ602へ結合されている少なくとも1つのメモリ604、及びプロセッサ602へ結合されている通信メカニズム612を含む。メモリ604は、少なくとも、コンピュータプログラム、及び読み出し回路から取得されたデータ信号を記憶するよう構成される。統計モデル606及びポリシーモジュール608がプロセッサ602で事前設定される。制御回路630は、通信メカニズム612を通じて、図4-aに示されるビジョンセンサ200の読み出し回路220へ、又はビジョンセンサの外にある読み出し回路へ通信可能に結合されて、読み出し回路に対する制御機能を実施してよい。記載を容易にするために、以下は、図4-aの読み出し回路220を参照する。しかし、本願のこの実施形態は、周囲の読み出し回路の構成にも適用可能である。
図4-aに示される制御回路230と同様に、いくつかの可能な実施形態で、制御回路は、特定のデータ読み出しモード(例えば、フレームに基づいた同期読み出しモード、又はイベントストリームに基づいた非同期読み出しモード)で、ピクセルアレイ回路210によって生成された複数のデータ信号を読み出すように、読み出し回路220を制御するよう構成されてよい。更に、制御回路は、読み出し回路220からデータ信号を取得するよう構成されてよく、データ信号は、光強度極性、絶対光強度値、光強度の変化値、などを示し得るが、これらに限られない。例えば、光強度極性は、通常+1又は-1と表現される光強度変化の傾向、例えば、増強又は低減を示し得る。絶対光強度値は、現在時点で測定された光強度値を表し得る。センサの構造、使用法、又はタイプに基づいて、光強度又は光強度の変化に関する情報は、異なる物理的な意味を有する場合がある。
制御回路は、読み出し回路220から取得されたデータ信号に基づいて、少なくとも1つの光強度変化イベントに関する統計データを決定する。いくつかの実施形態で、制御回路は、読み出し回路220から、ある期間にピクセルアレイ回路210によって生成されたデータ信号を取得し、過去の統計値の収集及び解析のためにメモリ604にデータ信号を格納してもよい。本願の文脈中、第1読み出しモードは、イベントストリームに基づいた非同期読み出しモード及びフレームスキャンに基づいた同期読み出しモードのうちの一方であってよく、第2読み出しモードは他方であってよい。しかし、読み出しモードを適応的に切り替えることのここで記載される全ての特徴は、2よりも多いデータ読み出しモードの間の切り替えに加えて、現在知られているか又は将来開発される他のタイプのセンサ及びデータ読み出しモードに同じく適用可能であることが留意されるべきである。
いくつかの可能な実施形態で、制御回路は、1つ以上の事前設定された統計モデル606を使用することによって、ピクセルアレイ回路210によってある期間に生成されて読み出し回路220によって供給される光強度変化イベントに対して過去の統計値の収集を実行してもよい。統計モデル606は、次いで、統計データをポリシーモジュール608へ出力として送信してよい。上述されたように、統計データは、光強度変化イベントの数を示すことができ、あるいは、光強度変化イベントの総データ量を示すことができる。如何なる適切な統計モデル又は統計アルゴリズムも、本願の可能な実施形態に適用されてよく、本願の範囲は、これの点に関して制限されないことが理解されるべきである。
統計データは、ある期間にビジョンセンサによって生成された光強度変化イベントの過去のステータスの統計的な結果であるから、ポリシーモジュール608は、次の期間におけるイベント発生率を解析及び予測することができる。ポリシーモジュール608は、1つ以上の切り替え決定により事前設定されてよい。複数の切り替え決定がある場合に、制御回路は、要件に基づいて、例えば、ビジョンセンサのタイプ、光強度変化イベントの特徴、外部環境の属性、及び動き状態などの因子に基づいて、解析及び決定のために複数の切り替え決定の中から1つを選択してよい。本願の可能な実施形態で、他の適切なポリシーモジュール及びモード切替条件又はポリシーも使用されてよい。本願の範囲は、この点に関して制限されない。
いくつかの実施形態で、統計データがモード切替条件を満足するとポリシーモジュール608が決定する場合に、読み出しモードを切り替える指示が読み出し回路220へ出力される。他の実施形態では、統計データがモード切替条件を満足しないとポリシーモジュール608が決定する場合に、読み出しモードを切り替える指示は読み出し回路220へ出力されない。いくつかの実施形態で、読み出しモードを切り替える指示は、上記の実施形態で記載されるような明示的な形式、例えば、読み出しモードを切り替えるよう読み出し回路220に指示するための切り替え信号又はフラグビットの形式であってよい。
図9は、本願の実施形態に従う電子デバイスの可能なブロック図である。図9に示されるように、電子デバイスはビジョンセンサチップを含む。電子デバイスは、例示を目的として使用され、現在知られている様々なセンサデバイス及び将来開発される様々なセンサデバイスを含む如何なる適切なデバイスによっても実施されてよいことが理解されるべきである。本願の実施形態は、異なるセンサシステムで更に具現化されてもよい。更に、電子デバイスは、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよいことが更に理解されるべきである。しかし、それは、本願の実施形態がそれらの要素、モジュール、又はエンティティを備えないことを意味しているわけではない。
図9に示されるように、ビジョンセンサはピクセルアレイ回路710呼び読み出し回路720を含み、読み出し回路720の読み出しコンポーネント720-1及び720-2は、夫々、通信インターフェース702及び703を介して制御回路730へ結合されている。本願のこの実施形態で、読み出しコンポーネント720-1及び720-2は、独立したデバイスを使用することによって別々に実施されてよく、あるいは、同じデバイスに集積されてもよい。例えば、図4-aに示される読み出し回路220は、集積の実施例である。記載を容易にするために、読み出しコンポーネント720-1及び720-2は、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードで夫々データ読み出し機能を実施するよう構成されてよい。
ピクセルアレイ回路710は、図4-aのピクセルアレイ回路210又は図5のピクセルアレイ回路310を使用することによって実施されてよく、あるいは、任意の他の適切なデバイスを使用することによって実施されてもよい。これは本願で制限されない。ピクセルアレイ回路710の特徴はここで再び記載されない。
読み出し回路720は、特定の読み出しモードで、ピクセルアレイ回路710によって生成されたデータ信号を読み出してよい。例えば、読み出しコンポーネント720-1がオンされ、読み出しコンポーネント720-2がオフされる例では、読み出し回路720は、最初に、フレームスキャンに基づいた読み出しモードを使用することによってデータ信号を読み出す。読み出しコンポーネント720-2がオンされ、読み出しコンポーネント720-1がオフされる例では、読み出し回路720は、最初に、イベントストリームに基づいた読み出しモードを使用することによってデータ信号を読み出す。読み出し回路720は、図4の読み出し回路220又は図5の読み出し回路320を使用することによって実施されてよく、あるいは、任意の他の適切なデバイスを使用することによって実施されてもよい。読み出し回路720の特徴はここで再び記載されない。
本願のこの実施形態で、制御回路730は、指示信号又はフラグビットに基づいて、読み出し回路720に、第1読み出しモードから第2読み出しモードに切り替わるよう指示してよい。この場合に、読み出し回路720は、制御回路730から、読み出しモードを切り替えるための、例えば、読み出しコンポーネント720-1をオンし、読み出しコンポーネント720-2をオフするための、又は読み出しコンポーネント720-2をオンし、読み出しコンポーネント720-1をオフするための指示を受信してよい。
上述されたように、電子デバイスは、パーシング回路704を更に含んでよい。パーシング回路704は、読み出し回路720によって読み出されたデータ信号をパースするよう構成されてよい。本願の可能な実施形態で、パーシング回路は、読み出し回路720の現在のデータ読み出しモードに適したパーシングモードを使用してよい。一例で、読み出し回路720が最初に、イベントストリームに基づいた読み出しモードでデータ信号を読み出す場合に、パーシング回路は、それに応じて、当該読み出しモードに関連した第1データ量Bev・Nevに基づいてデータ信号をパースする。読み出し回路720が、制御回路730の指示に基づいて、イベントストリームに基づいた読み出しモードからフレームスキャンに基づいた読み出しモードに切り替わるとき、パーシング回路は、第2データ量、つまり、データの1フレームのサイズM・Bpに基づいて、データ信号をパースし始める。読み出し回路720がフレームスキャンに基づいた読み出しモードからイベントストリームに基づいた読み出しモードに切り替わるとき、パーシング回路は、第1データ量に基づいてデータ信号をパースし始める。
いくつかの実施形態で、パーシング回路704は、信号又はフラグビットを明示的に切り替えずにパーシング回路のパーシングモードの切り替えを実施してもよい。例えば、パーシング回路704は、制御回路730と同じ又は対応する統計モデル及び切り替えポリシーを使用して、読み出し回路720によって供給されるデータ信号に対して、制御回路730と同じ統計的な解析及び一貫した切り替え予測を行ってもよい。一例で、読み出し回路720が最初に、イベントストリームに基づいた読み出しモードでデータ信号を読み出す場合に、相応して、パーシング回路は最初に、当該読み出しモードに関連した第1データ量Bev・Nevに基づいてデータをパースする。例えば、パーシング回路によるパーシングにより取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に、bf個のビットは、光強度の特徴情報を示すために使用される。パーシング回路は、読み出し回路720から少なくとも1つのデータ信号を取得し、少なくとも1つの光強度変化イベントに関する統計データを決定する。統計データが切り替え条件を満足するとパーシング回路704が決定する場合に、パーシング回路704は、フレームスキャンに基づいた読み出しモードに対応するパーシングモードへ切り替わり、フレームデータのサイズM・Bpによってデータ信号をパースする。
他の例では、読み出し回路720が最初に、フレームスキャンに基づいた読み出しモードでデータ信号を読み出す場合に、パーシング回路704は、当該読み出しモードに対応するパーシングモードでBp個のビットごとにフレーム内の各ピクセル位置の値を順次抽出し、光強度変化イベントが生成されないピクセルの位置の値は0である。パーシング回路704は、データ信号に基づいて1フレーム内の非ゼロの数に関する統計値を、つまり、当該フレーム内の光強度変化イベントの数を収集し得る。
いくつかの可能な実施形態で、パーシング回路704は、読み出し回路720から少なくとも1つのデータ信号を取得し、少なくとも1つのデータ信号に少なくとも基づいて、現在のパーシングモード及び代替のパーシングモードのどちらの一方が読み出し回路720の読み出しモードに対応するかを決定する。更に、いくつかの実施形態で、パーシング回路704は、決定に基づいて、現在のパーシングモードから他のパーシングモードへ切り替わり得る。
いくつかの可能な実施形態で、パーシング回路704は、光強度変化イベントに関する過去の統計値に基づいて、パーシングモードを切り替えるべきかどうかを決定してもよい。例えば、パーシング回路704は、読み出し回路720から受信された少なくとも1つのデータ信号に基づいて、少なくとも1つの光強度変化イベントに関する統計データを決定してよい。統計データが切り替え条件を満足すると決定される場合に、パーシング回路704は、現在のパーシングモード及び代替のパーシングモードへ切り替わる。比較を容易にするために、統計データは、読み出し回路720の第1読み出しモード及び第2読み出しモードで別々にデータ読み出しレートを測定するために使用されてよい。
いくつかの実施形態で、統計データは、単位時間にピクセルアレイ回路710によって測定されたイベントの数の総データ量を含んでよい。パーシング回路740が少なくとも1つのデータ信号に基づいて、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量が、読み出し回路720の第2読み出しモードでの光強度変化イベントのデータの総量以上であると決定する場合に、それは、読み出し回路720が第1読み出しモードから第2読み出しモードへ切り替わっていることを示す。この場合に、パーシング回路704は、それに応じて、現在の読み出しモードに対応するパーシングモードへ切り替わる必要がある。
いくつかの実施形態で、第1読み出しモードはフレームスキャンに基づいた読み出しモードであり、第2読み出しモードはイベントストリームに基づいた読み出しモードである、ことが与えられる。この実施形態で、パーシング回路704は最初に、第1読み出しモードに対応する、フレームスキャンに基づいているパーシングモードで、読み出し回路720から取得されたデータ信号をパースする。パーシング回路704は、ピクセルアレイ回路710のピクセルの数M、フレームレートf、及びピクセルデータ量Bpに基づいて、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fを決定し得る。パーシング回路704は、イベントストリームに基づいた読み出しモードに関連した光強度変化イベントの数Nev及びイベントデータ量Bevに基づいて、第2読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量Bev・Nevを決定し得る。いくつかの実施形態で、切り替えパラメータは、2つの読み出しモードでの総データ量の間の関係を調整するために使用されてよい。更に、パーシング回路704は、例えば、上記の式(1)に従って、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードでの光強度変化イベントの総データ量Bev・Nev以上であるかどうかを決定してもよい。第1読み出しモードでのデータ量が第2読み出しモードでのデータ量よりも多い場合に、パーシング回路704は、読み出し回路720がイベントストリームに基づいた読み出しモードに切り替わっていると決定し、それに応じて、フレームスキャンに基づいたパーシングモードからイベントストリームに基づいたパーシングモードへ切り替わる。
上記の実施形態の代替の実施で、パーシング回路704は、上記の式(2)に従って、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量Bev・Nev以上であるかどうかを決定してもよい。同様に、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードでの光強度変化イベントの総データ量Bev・Nev以上である場合に、パーシング回路704は、読み出し回路720がイベントストリームに基づいた読み出しモードに切り替わっていると決定し、それに応じて、フレームに基づいたパーシングモードからイベントストリームに基づいたパーシングモードへ切り替わる。
いくつかの実施形態で、第1読み出しモードはイベントストリームに基づいた読み出しモードであり、第2読み出しモードはフレームスキャンに基づいた読み出しモードである。この実施形態で、パーシング回路704は最初に、第1読み出しモードに対応する、イベントストリームに基づいているパーシングモードで、読み出し回路720から取得されたデータ信号をパースする。上述されたように、パーシング回路704は、読み出し回路720によって供給された第1データ信号の数に基づいて、ピクセルアレイ回路710によって生成された光強度変化イベントの数Nevを直接決定することができる。パーシング回路704は、イベントストリームに基づいた読み出しモードに関連した数Nev及びイベントデータ量Bevに基づいて、第1読み出しモードで読み出し回路720によって読み出されるイベントのデータの総量Bev・Nevを決定し得る。同様に、パーシング回路704は更に、ピクセルアレイ回路のピクセルの数M、フレームレートf、及びピクセルデータ量Bpに基づいて、第2読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fを決定し得る。次いで、パーシング回路704は、例えば、上記の式(3)に従って、第1読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上であるかどうかを決定してもよい。同様に、第1読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上であると決定する場合に、パーシング回路704は、読み出し回路720がフレームスキャンに基づいた読み出しモードに切り替わっていると決定し、それに応じて、イベントストリームに基づいたパーシングモードからフレームに基づいたパーシングモードへ切り替わる。
上記の実施形態の代替の実施で、パーシング回路704は、上記の式(4)に従って、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・f以上であるかどうかを決定してもよい。同様に、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上であると決定する場合に、パーシング回路704は、読み出し回路720がフレームスキャンに基づいた読み出しモードに切り替わっていると決定し、それに応じて、イベントストリームに基づいたパーシングモードからフレームスキャンに基づいたパーシングモードへ切り替わる。
フレームスキャンに基づいた読み出しモードでのイベントの読み出し時間tについては、同じフレーム内の全てのイベントは、デフォルトで同じ読み出し時間tを有する。イベント読み出し時間の精度に対する要求が比較的に高い場合に、各イベントの読み出し時間は更に、次の方法で決定されてもよい。上記の実施形態が一例として使用され、フレームスキャンに基づいた読み出しモードで、読み出し回路720がピクセルアレイ回路をスキャンする周波数がfHzである場合に、データの2つの隣接フレームを読み出す時間インターバルはS=1/fであり、各フレームの開始時間は次の通りに与えられる:
Tk=T0+kS (9)
Tk=T0+kS (9)
T0は、最初のフレームの開始時間であり、kは、フレームシーケンス数である。この場合に、M個のピクセルのうちの1つでデジタル-アナログ変更を実行するのに必要な時間は、次の式(10)に従って決定され得る:
Δt=s/M=1/(f・M) (10)
Δt=s/M=1/(f・M) (10)
光強度変化イベントがk番目のフレーム内のi番目のピクセルで生成される時間は、次の式(11)に従って決定され得る:
Ti=Tk+(i-1)/(f・M) (11)
Ti=Tk+(i-1)/(f・M) (11)
iは正の整数である。現在の読み出しモードが同期読み出しモードである場合に、非同期読み出しモードへの切り替えが実行され、データは、イベントごとにBev個のビットを使用することによってパースされる。上記の実施形態で、パーシングモードの切り替えは、信号又はフラグビットを明示的に切り替えずに実施されてよい。他の現在知られているか又は将来開発されるデータ読み出しモードについても、パーシング回路は、データ読み出しモードに適した同様の方法でデータをパースしてよく、詳細はここで記載されない。
図10は、本願の実施形態に従う、データ量が単一のデータ読み出しモード及び適応的に切り替えられた読み出しモードで時間とともに変化する可能な模式図である。図10の左半分は、同期読み出しモード又は非同期読み出しモードのみを使用する従来のビジョンセンサ又はセンサシステムについての、時間にわたって変化する、読み出されたデータの量の模式図である。同期読み出しモードしか使用されない場合に、曲線1001によって示されるように、各フレームは一定量のデータを有するので、読み出されたデータの量は時間にわたって一定のままであり、言い換えると、データ読み出しレート(単位時間に読み出されるデータの量)は安定している。上述されたように、大量のイベントがピクセルアレイ回路で生成される場合には、フレームスキャンに基づいた読み出しモードでデータ信号を読み出す方が道理にかなっており、フレームデータのほとんどは、生成されたイベントを示す有効データであり、ほとんど冗長性はない。しかし、ピクセルアレイで生成されるイベントが少ない場合には、1フレーム内の生成されたイベントを示す大量の無効データが存在する。この場合に、ピクセルでの光強度情報が依然としてフレームデータ構造で表現され読み出される場合に、これは冗長性をもたらし、伝送帯域幅及び記憶リソースを浪費する。
非同期読み出しモードしか使用されない場合に、曲線1002によって示されるように、読み出されるデータの量は、イベント発生率とともに変化するので、データ読み出しレートは一定ではない。ピクセルアレイ回路で生成されるイベントが少ない場合に、ピクセルの座標情報(x,y)、データ信号が読み出されるタイムスタンプt、及び光強度の特徴情報fのためのビットは、少量のイベントにしか割り当てられる必要がなく、読み出されるデータの総量は小さい。この場合に、非同期読み出しモードを使用することは適当である。大量のイベントが短時間にピクセルアレイ回路で生成される場合に、これらのイベントを表すための大量のビットが割り当てられる必要がある。しかし、ピクセル座標はほぼ隣接しており、データ信号はほぼ同時に読み出される。すなわち、読み出されるイベントデータには大量の複製データが存在する。その結果、冗長性の問題も非同期読み出しモードには存在する。この場合に、データ読み出しレートは、同期読み出しモードでのデータ読み出しレートを超えており、依然として非同期読み出しモードを使用することは不適当である。
図10の右半分は、本願の実施形態に従う、データ量が適応的なデータ読み出しモードで時間とともに変化する可能な模式図である。適応的なデータ読み出しモードは、図4-aに示されるビジョンセンサ200、図4-bに示されるビジョンセンサ300、又は図9に示される電子デバイスを使用することによって実施されてよく、あるいは、従来のビジョンセンサ又はセンサシステムが、図8に示される制御回路を使用することによって、適応的なデータ読み出しモードを実施してもよい。記載を容易にするために、適応的なデータ読み出しモードの特徴は、図4-aに示されるビジョンセンサ200を参照して以下で記載される。曲線1003によって示されるように、ビジョンセンサ200は、例えば、初期化状態で非同期読み出しモードを選択する。このモードで各イベントを表すために使用されるビットの数Bevは予め決定されているので(例えば、Bev=bx+by+bt+bf)、イベントが生成され読み出される場合に、ビジョンセンサ200は、現在のモードでのデータ読み出しレートで統計値を収集し得る。更に、同期読み出しモードで各フレームの各ピクセルを表すビットの数Bpも予め決定されているので、この期間における同期読み出しモードでのデータ読み出しレートは計算により取得され得る。次いで、ビジョンセンサ200は、2つの読み出しモードでのデータレートの間の関係がモード切替条件を満足するかどうかを決定し得る。例えば、ビジョンセンサ200は、事前定義された閾値に基づいて、2つの読み出しモードのうちのどちらがより小さいデータ読み出しレートを有するかを比較してよい。モード切替条件が満足されることが決定されると、ビジョンセンサ200は他の読み出しモードに切り替わり、例えば、初期の非同期読み出しモードから同期読み出しモードへ切り替わる。上記のステップは、全てのデータが出力されるまで、データ信号を読み出してパースするプロセスで連続的に実行される。曲線1003によって示されるように、ビジョンセンサ200は、データ読み出しプロセス全体で最適な読み出しモードを適応的に選択し、2つの読み出しモードは交互に起こるので、ビジョンセンサ200のデータ読み出しレートは常に、同期読み出しモードのデータ読み出しレートを超えない。従って、ビジョンセンサのデータ伝送、パーシング、及び記憶のコストは削減される。
更に、本願の実施形態で提供される適応的なデータ読み出し方法に従って、視覚センサ200は、次の期間における可能なイベント発生率を予測するようイベントの過去のデータに関する統計値を収集してもよい。従って、適用シナリオ及び動き状態にとってより適切な読み出しモードが選択され得る。
上記の解決法に従って、ビジョンセンサは、複数のデータ読み出しモードの間を適応的に切り替えることができるので、データ読み出しレートは常に、所定のデータレート閾値を超えず、それによってビジョンセンサのデータ伝送、パーシング、及び記憶のコストを削減し、センサの性能を大幅に改善する。更に、そのようなビジョンセンサは、次の期間における可能なイベント発生率を予測するよう、ある期間に生成されたイベントのデータに関する統計値を収集してもよく、それにより、現在の外部環境、適用シナリオ、及び動き状態にとってより適切な読み出しモードが選択され得る。
上述されたように、ピクセルアレイ回路は、光強度の変化を測定し、複数のピクセルに対応する複数のデータ信号を生成するよう構成されてよい。データ信号は、光強度極性、絶対光強度値、光強度の変化値、などが含まれることを示すことができるが、これらは制限されない。以下は、ピクセルアレイ回路がデータ信号を出力する場合について詳細に記載する。
図11は、本願に従うピクセル回路900の模式図である。ピクセルアレイ回路210、ピクセルアレイ回路310、及びピクセルアレイ回路710の夫々は、1つ以上のピクセルアレイを含んでよく、各ピクセルアレイは複数のピクセルを含む。各ピクセルは、1つのピクセル回路と見なすことができ、各ピクセル回路は、ピクセルに対応するデータ信号を生成するよう構成される。図11は、本願の実施形態に係るピクセル回路の模式図である。本願で、1つのピクセル回路は、略して1つのピクセルと呼ばれることがある。図11に示されるように、本願のピクセル回路は、光強度検出部901、閾値比較部902、読み出し制御部903、及び光強度捕捉部904を含む。
光強度検出部901は、取得された光信号を第1電気信号に変更するよう構成される。光強度検出部901は、ピクセル回路上に放射された光強度情報をリアルタイムでモニタし、取得された光信号をリアルタイムで電気信号に変更し、電気信号出力し得る。いくつかの可能な実施形態で、光強度検出部901は、取得された光信号を電圧信号に変更してもよい。光強度検出部の具体的な構造は、本願で制限されない。光信号を電気信号に変更することができる構造が、本願の実施形態では使用されてもよい。例えば、光強度検出部は、フォトダイオード及びトランジスタを含んでもよい。フォトダイオードのアノードは接地され、フォトダイオードのカソードはトランジスタのソースへ接続され、トランジスタのドレイン及びゲートは電源へ接続される。
閾値比較部902は、第1電気信号が第1目標閾値よりも大きいかどうか、又は第1電気信号が第2目標閾値よりも小さいかどうかを決定するよう構成される。第1電気信号が第1目標閾値よりも大きいか、又は第1電気信号が第2目標閾値よりも小さい場合に、閾値比較部902は第1データ信号を出力し、第1データ信号は、ピクセルに光強度変更イベントが存在することを示す。閾値比較部902は、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が所定の閾値を超えるかどうかを比較するよう構成され、これは式1-1を参照して理解され得る。第1目標閾値は、第1所定閾値と第2電気信号との和として理解することができ、第2目標閾値は、第2所定閾値と第2電気信号との和として理解することができる。第2電気信号は、前のイベントが起こったときに光強度検出部901によって出力された電気信号である。本願の実施形態の閾値比較部はハードウェアによって実施されてよく、あるいは、ソフトウェアによって実施されてよい。これは本願の実施形態で制限されない。閾値比較部902によって出力される第1データ信号のタイプは様々であり得る。いくつかの可能な実施形態で、第1データ信号は、第1データ信号は、光強度の増強又は光強度の低下を示す極性情報、例えば、+1又は-1を含む。いくつかの可能な実施形態で、第1データ信号はアクティベーション信号であってもよく、第1電気信号を収集して第1電気信号をバッファリングするように光強度捕捉部904を制御することを読み出し制御部903に指示する。第1データ信号がアクティベーション信号である場合に、第1データ信号は極性情報であってもよい。第1データ信号を取得する場合に、読み出し制御部903は、第1電気信号を収集するよう光強度捕捉部904を制御する。
読み出し制御部903は、光強度捕捉部904に記憶されている第1電気信号を読み出すことを読み出し回路に指示するよう、又は閾値比較部902によって出力された第1データ信号を読み出すことを読み出し回路に指示するよう更に構成され、第1データ信号は極性情報である。
読み出し回路905は、対応するピクセルで生成されたデータ信号を読み出すために所定の順序でピクセルアレイ回路内のピクセルをスキャンするよう構成されてよい。いくつかの可能な実施形態で、読み出し回路905については、理解するために読み出し回路220、読み出し回路320、及び読み出し回路720を参照されたい。具体的には、読み出し回路905は、ピクセル回路によって出力されたデータ信号を1つよりも多い読み出しモードで読み出すことができるよう構成される。例えば、読み出し回路905は、第1読み出しモード及び第2読み出しモードのうちの一方で読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは他方のモードに対応する。いくつかの可能な実施形態で、読み出し回路905は、ただ1つの単一読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出してもよい。例えば、読み出し回路905は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路905は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。図11に対応する実施形態で、読み出し回路905によって読み出されるデータ信号は種々の様態で表される。具体的には、いくつかの可能な実施形態で、読み出し回路によって読み出されるデータ信号は、極性情報に基づいて表される。例えば、読み出し回路は、閾値比較部によって出力された極性情報を読み出してよい。いくつかの可能な実施形態で、読み出し回路によって読み出されるデータ信号は、光強度情報に基づいて表される。例えば、読み出し回路は、光強度捕捉部によってバッファリングされた電気信号を読み出してよい。
図11-aを参照されたい。ピクセル回路によって出力されたデータ信号がイベントストリームに基づいた読み出しモードで読み出される例が、光強度情報に基づいて表されるイベント及び極性情報に基づいて表されるイベントについて記載するために使用される。図11-aの上半分に示されるように、黒点は、光強度変化イベントが生成されるピクセルを示す。図11-aは、全部で8つのイベントを含む。最初の5つのイベントは光強度情報に基づいて表され、最後の3つのイベントは極性情報に基づいて表される。図11-aの下半分に示されるように、光強度情報に基づいて表されるイベント及び極性情報に基づいて表されるイベントは両方とも、座標情報(x,y)及び時間情報tを含む必要がある。違いは、光強度情報に基づいて表されるイベントでは、光強度の特徴情報が光強度情報aであり、極性情報に基づいて表されるイベントでは、光強度の特徴情報が極性情報pである点にある。光強度情報と極性情報との間の違いについては上述されており、ここで再び記載されない。極性情報に基づいて表されるイベントのデータ量は、光強度情報に基づいて表されるイベントのデータ量よりも少ないことのみが強調される。
読み出し回路によって読み出されたデータ信号を表すためにどのような情報が使用されるかを決定する方法は、制御回路によって送信された指示に基づいて決定される必要があり、これは以下で詳細に記載される。
いくつかの実施において、読み出し回路905は、少なくとも1つの読み出されたデータ信号を制御回路906に供給するよう構成されてよい。例えば、読み出し回路905は、ある期間に読み出されたデータ信号の総データ量を制御回路906に供給してもよく、それにより、制御回路906は、過去のデータの統計値を収集し、解析を行う。1つの実施では、読み出し回路905は、ある期間にわたってピクセルアレイ回路内の各ピクセル回路900によって生成された光強度変化イベントの数に関する統計値を収集することによって、毎秒ピクセルアレイ回路によって生成されるイベントの数Nevを取得し得る。Nevは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方で取得されてよい。
制御回路906は、読み出し回路905へ結合され、ピクセル回路900によって生成されたデータ信号を特定のイベント表現方式で読み出すように読み出し回路906を制御するよう構成される。いくつかの可能な実施形態で、制御回路906は、少なくとも1つのデータ信号を読み出し回路905から取得し、少なくとも1つのデータ信号に基づいて、現在のイベント表現方式及び代替のイベント表現方式のうちのどちらの一方が現在の適用シナリオ及び動き状態により適しているかを決定してよい。更に、いくつかの実施形態で、制御回路906は、その決定に基づいて、現在のイベント表現方式から他のイベント表現方式へ切り替わることを読み出し回路905に指示してもよい。
いくつかの可能な実施形態で、制御回路906は、光強度変化イベントの過去の統計値に基づいて読み出し回路905へ、イベント表現方式を切り替えることに関する指示を送信してよい。例えば、制御回路906は、読み出し回路905から受信された少なくとも1つのデータ信号に基づいて、少なくとも1つの光強度変化イベントに関する統計データを決定してよい。統計データが所定の変更条件を満足すると決定される場合に、制御回路906は、読み出し回路905が読み出しイベントフォーマットを変更することを可能にするよう指示信号を読み出し回路905へ送信する。
いくつかの可能な実施形態で、読み出し回路905は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成され、読み出し回路905によって制御回路906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の総データ量である、と仮定される。現在の制御回路906は、閾値比較部によって出力されたデータを読み出すように読み出し回路905を制御すると、つまり、イベントが極性情報に基づいて表されるとすれば、読み出し回路905は、光強度変化イベントの数Nev及びデータフォーマットのビット幅Hに基づいて、光強度変化イベントの総データ量Nev×Hを決定し得る。データフォーマットのビット幅はH=bx+by+bt+Bpであり、Bp個のビットは、データ信号によって示される光強度の極性情報を示し、通常は1ビット又は2ビットである。光強度の極性情報は、通常、1ビット又は2ビットによって表されるので、極性情報に基づいて表されるイベントの総データ量は確かに帯域幅よりも少ない。より高い精度でのイベントデータが、帯域幅制限を超えずに可能な限り多く伝送され得ることを確かにするために、光強度情報に基づいて表されるイベントの総データ量も帯域幅以下である場合には、イベント表現方式は、光強度情報に基づいてイベントを表すことに変更される。いくつかの実施形態で、あるイベント表現方式でのデータ量と帯域幅Kとの間の関係は、変更パラメータを使用することによって調整されてもよい。次の式(12)に示されるように、光強度情報に基づいて表されるイベントの総データ量Nev×Hは、帯域幅以下である。
Nev×H≦α×K (12)
Nev×H≦α×K (12)
αは、調整のための変更パラメータである。上記の式(12)からは、光強度情報に基づいて表されるイベントの総データ量が帯域幅以下である場合に、制御回路906は、光強度変化イベントの統計データが所定の切り替え情報を満足することを決定し得る、ことが更に分かる。いくつかの可能な適用シナリオは、ピクセル収集回路がある期間にほとんどイベントを生成しない場合、又はピクセル収集回路がある期間に比較的に低いレートでイベントを生成する場合を含む。これらの場合に、イベントは光強度情報に基づいて表されることがある。光強度情報に基づいて表されるイベントは、より多くの情報を運ぶことができ、これは、イベントのその後の処理及び解析を容易にし、例えば、画像再構成品質を向上させ得る。
いくつかの実施において、現在の制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すように読み出し回路905を制御すると、つまり、イベントは光強度情報に基づいて表されるとすれば、読み出し回路905は、光強度変化イベントの数Nev及びデータフォーマットのビット幅Hに基づいて、光強度変化イベントの総データ量Nev×Hを決定し得る。イベントストリームに基づいた読み出しモードが使用される場合に、データフォーマットのビット幅は、H=bx+by+bt+baであり、ba個のビットは、データ信号によって指示される光強度情報を示し、通常は複数のビット、例えば8ビットから12ビットである。いくつかの実施形態で、あるイベント表現方式でのデータ量と帯域幅Kとの間の関係は、変更パラメータを使用することによって調整されてもよい。次の式(13)に示されるように、光強度情報に基づいて表されるイベントの総データ量Nev×Hは、帯域幅よりも多い。この場合に、読み出し回路220は、閾値比較部902によって出力されたデータを読み出す必要があり、つまり、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。
Nev×H>β×K (13)
Nev×H>β×K (13)
βは、調整のための変更パラメータである。上記の式(13)からは、光強度変化イベントの総データ量Nev×Hが閾データ量β×Kよりも多い場合に、それは、光強度情報に基づいて表される光強度変化イベントの総データ量が帯域幅以上であることを示し、制御回路905は、光強度変化イベントの統計データが所定の変更条件を満足すると決定し得ることが分かる。いくつかの可能な適用シナリオは、多数のイベントがある期間にピクセル収集回路によって生成される場合、又はイベントがある期間に比較的に高いレートでピクセル収集回路によって生成される場合を含む。これらの場合に、イベントが引き続き光強度情報に基づいて表される場合に、イベント喪失が起こる可能性がある。従って、イベントは極性情報に表現され得、これにより、データ伝送に対する負担は軽減され、データ損失は低減される。
いくつかの実施において、読み出し回路905によって制御回路906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベントの数Nevである。いくつかの可能な実施形態で、現在の制御回路906は、閾値比較部902によって出力されたデータを読み出すよう読み出し回路905を制御すると、つまり、イベントが極性情報に基づいて表されるとすれば、制御回路は、光強度変化イベントの数NevとαK/Hとの間の関係を決定し、所定の変更条件が満足されるかどうかを決定し得る。NevがαK/H以下である場合に、読み出し回路220は、光強度捕捉部904にバッファリングされている電気信号を読み出す必要があり、つまり、イベント表現方式は、光強度情報に基づいてイベントを表すことに変更される。このようにして、極性情報に基づいたイベントの目下の表現は、光強度情報に基づいたイベントの表現に変更される。例えば、上記の実施形態で、次の式(14)が、式(12)に基づいて更に取得されてもよい:
Nev≦αK/H (14)
Nev≦αK/H (14)
いくつかの実施において、現在の制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すよう読み出し回路905を制御すると、つまり、イベントが光強度情報に基づいて表されるとすれば、制御回路906は、光強度変化イベントの数NevとβK/Hとの間の関係に基づいて、所定の変更条件が満足されるかどうかを決定し得る。NevがβK/Hよりも多い場合に、読み出し回路220は、閾値比較部902から出力された信号を読み出す必要があり、つまり、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。このようにして、光強度情報に基づいたイベントの目下の表現は、極性情報に基づいたイベントの表現に変更される。例えば、上記の実施形態で、次の式(15)が、式(12)に基づいて更に取得されてもよい:
Nev>βK/H (15)
Nev>βK/H (15)
いくつかの可能な実施形態で、読み出し回路905は、フレームスキャンに基づいた読み出しモードでのみ、ピクセル回路によって出力されたデータ信号を読み出すよう構成され、読み出し回路905によって制御回路906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の総データ量である、と仮定される。フレームスキャンに基づいた読み出しモードが使用される場合に、データフォーマットのビット幅HはH=Bpであり、Bpは、フレームスキャンに基づいた読み出しモードで各ピクセルに割り当てられているピクセルデータ量(例えば、ビットの数)である。イベントが極性情報に基づいて表される場合に、Bpは、通常、1ビット又は2ビットであり、イベントが光強度情報に基づいて表される場合に、Bpは、通常、8から12ビットである。読み出し回路905は、光強度変化イベントの総データ量M×Hを決定してよく、Mは、ピクセルの総数を表す。現在の制御回路906は、閾値比較部によって出力されたデータを読み出すように読み出し回路905を制御すと、つまり、イベントが極性情報に基づいて表されると仮定される。極性情報に基づいて表されるイベントの総データ量は確かに帯域幅に満たない。より高い精度でのイベントデータが、帯域幅制限を超えずに可能な限り多く伝送され得ることを確かにするために、光強度情報に基づいて表されるイベントの総データ量も帯域幅以下である場合に、イベント表現方式は、光強度情報に基づいてイベントを表すことに変更される。いくつかの実施形態で、あるイベント表現方式でのデータ量と帯域幅Kとの間の関係は、変更パラメータを使用することによって調整されてもよい。次の式(16)に示されるように、光強度情報に基づいて表されるイベントの総データ量Nev×Hは、帯域幅以下である。
M×H≦α×K (16)
M×H≦α×K (16)
いくつかの実施において、現在の制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すように読み出し回路905を制御すると、つまり、イベントは光強度情報に基づいて表されるとすれば、読み出し回路905は、光強度変化イベントの数Nev及びデータフォーマットのビット幅Hに基づいて、光強度変化イベントの総データ量M×Hを決定し得る。いくつかの実施形態で、あるイベント表現方式でのデータ量と帯域幅Kとの間の関係は、変更パラメータを使用することによって調整されてもよい。次の式(17)に示されるように、光強度情報に基づいて表されるイベントの総データ量M×Hは、帯域幅よりも多い。この場合に、読み出し回路220は、閾値比較部902によって出力されたデータを読み出す必要があり、つまり、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。
M×H>β×K (17)
M×H>β×K (17)
いくつかの可能な実施形態で、読み出し回路905は、第1読み出しモード及び第2読み出しモードのうちの一方で読み出しを実行するよう構成され、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは他方のモードに対応する、ことが仮定される。例えば、以下は、切り替え条件が満足されるかどうかを制御回路がどのように決定するかを記載するために、読み出し回路905が現在、イベントストリームに基づいた読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出す場合と、制御回路906が、閾値比較部902によって出力されたデータを読み出すよう読み出し回路905を制御する、つまり、イベントが極性情報に基づいて表される場合との組み合わせモードを使用する。
初期状態で、任意の読み出しモードが選択され得る。例えば、フレームスキャンに基づいた読み出しモードが選択されてよく、あるいは、イベントストリームに基づいた読み出しモードが選択されてよい。更に、初期状態で、任意のイベント表現方式が選択され得る。例えば、制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すよう読み出し回路905を制御し、つまり、イベントは、光強度情報に基づいて表現される。代替的に、制御回路906は、閾値比較部902によって出力されたデータを読み出すよう読み出し回路905を制御し、つまり、イベントは、極性情報に基づいて表現される。読み出し回路905は現在、イベントストリームに基づいた読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出しており、制御回路906は、閾値比較部902によって出力されたデータを読み出すよう読み出し回路905を制御している、つまり、イベントは極性情報に基づいて表現されている、ことが仮定される。読み出し回路905によって制御回路906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の第1総データ量であってよい。ピクセルの総数Mは知られており、フレームスキャンに基づいた読み出しモードで各ピクセルに割り当てられているピクセルデータの量Bpは知られており、イベントが光強度情報に基づいて表される場合に使用されるデータフォーマットのビット幅Hは知られている。上記の既知のM、Bp及びHに基づいて、単位時間にピクセルアレイ回路によって測定されたイベントの数の第2総データ量は、ピクセル回路によって出力されたデータ信号がイベントストリームに基づいた読み出しモードに基づいて読み出される場合と、イベントが光強度情報に基づいて表される場合との組み合わせモードで取得されてよく、単位時間にピクセルアレイ回路によって測定されたイベントの数の第3総データ量は、ピクセル回路によって出力されたデータ信号がフレームスキャンに基づいた読み出しモードに基づいて読み出される場合と、イベントが極性情報に基づいて表される場合との組み合わせモードで取得されてよく、単位時間にピクセルアレイ回路によって測定されたイベントの数の第4総データ量は、ピクセル回路によって出力されたデータ信号がフレームスキャンに基づいた読み出しモードに基づいて読み出される場合と、イベントが光強度情報に基づいて表される場合との組み合わせモードで取得されてよい。第2データ量、第3データ量及び第4データ量をM、Bp及びHに基づいて計算する具体的な方法は、上述されており、詳細はここで再び記載されない。切り替え条件が満足されるかどうかは、帯域幅Kと読み出し回路905によって供給される第1総データ量、計算を通じて得られる第2総データ量、計算を通じて得られる第3総データ量、又は計算を通じて得られる第4総データ量との間の関係に基づいて決定される。現在の組み合わせモードが、より高い精度でのイベントデータが帯域幅制限を超えずに可能な限り多く伝送されることを確かにすることができない場合に、切り替え条件は満足されると決定され、組み合わせモードは、より高い精度でのイベントデータが帯域幅制限を超えずに可能な限り多く伝送されることを確かにすることができる組み合わせモードに切り替えられる。
上記のプロセスをより良く理解するために、以下は、具体例を参照して記載する。
帯域幅制限はKであり、帯域幅調整係数はαである、ことが仮定される。イベントストリームに基づいた読み出しモードで、イベントが極性情報に基づいて表される場合に、データフォーマットのビット幅はH=bx+by+bt+Bpであり、イベントが光強度情報に基づいて表される場合に、データフォーマットのビット幅はH=bx+by+bt+baである。一般に、1≦bp<baである。例えば、bpは、通常、1ビット又は2ビットであり、baは、通常、8ビットから12ビットである。
フレームスキャンに基づいた読み出しモードで、座標及び時間はイベントに対して表現される必要がなく、イベントは各ピクセルの状態に基づいて決定される。各ピクセルに割り当てられているデータビット幅は、極性モードでbspであり、光強度モードでbsaであり、ピクセルの総数はMである、ことが仮定される。帯域幅制限K=1000bps、bx=5ビット、by=4ビット、bt=10ビット、bp=1ビット、ba=8ビット、bsp=1ビット、bsa=8ビット、ピクセルの総数Mは100、帯域幅調整係数αは0.9である、ことが仮定される。1秒目で10個のイベントが生成され、2秒目で15個のイベントが生成され、3秒目で30個のイベントが生成される、ことが仮定される。
初期状態で、イベントストリームに基づいた読み出しモード、及び極性モードで表されるイベントが、デフォルトで使用される、ことが仮定される。
以降、イベントストリームに基づいた読み出しモード及び極性情報に基づいて表されるイベントは、非同期極性モードと呼ばれ、イベントストリームに基づいた読み出しモード及び光強度情報に基づいて表されるイベントは、非同期光強度モードと呼ばれ、フレームスキャンに基づいた読み出しモード及び極性情報に基づいて表されるイベントは、同期極性モードと呼ばれ、フレームスキャンに基づいた読み出しモード及び光強度情報に基づいて表されるイベントは、同期光強度モードと呼ばれる。
1秒目:10個のイベントが生成される。
非同期極性モード:Nev=10、H=bx+by+bt+bp=5+4+10+1=20ビット、及び推定データ量Nev・Hは200ビットである。Nev・H<α・K、これは帯域幅制限を満足する。
非同期光強度モード:この場合に、H=bx+by+bt+ba=5+4+10+8=27ビット、光強度モードでの推定データ量Nev・Hは270ビットである。Nev・H<α・K、これは依然として帯域幅制限を満足する。
同期極性モード:M=100、及びH=bsp=1ビット。この場合に、推定データ量は、M・H=100ビットである。M・H<α・K、これは依然として帯域幅制限を満足する。
同期光強度モード:M=100、及びH=bsa=8ビット。この場合に、推定データ量は、M・H=800ビットである。M・H<α・K、これは依然として帯域幅制限を満足する。
まとめると、1秒目で選択された非同期光強度モードでは、10個全てのイベントの光強度情報は、帯域幅制限を超えずに少量のデータ量(270ビット)で伝送される。制御回路906が、現在の組み合わせモードでは、より高い精度でのイベントデータが帯域幅制限を超えずに可能な限り多く伝送されることを確かにすることができないと決定する場合に、制御回路906は、切り替え条件が満足されることを決定する。この場合に、制御回路906は、非同期極性モードを非同期光強度モードへ切り替えるよう制御する。例えば、制御回路は、現在のイベント表現方式から他のイベント表現方式に切り替わることを読み出し回路905に指示するために指示信号を送信する。
2秒目:15個のイベントが生成される。
非同期極性モード:推定データ量は、Nev・H=15×20=300ビットであり、これは帯域幅制限を満足する。
非同期光強度モード:推定データ量は、Nev・H=15×27=405ビットであり、これは帯域幅制限を満足する。
同期極性モード:推定データ量は、M・H=100×1=100ビットであり、これは帯域幅制限を満足する。
同期光強度モード:推定データ量は、M・H=100×8=800ビットであり、これは帯域幅制限を満足する。
まとめると、2秒目では、制御回路906は、現在の組み合わせモードでは、より高い精度でのイベントデータが帯域幅制限を超えずに可能な限り多く伝送されることを確かにすることができると決定し、切り替え条件が満足されないことを決定し、依然として非同期光強度モードを選択する。
3秒目:30個のイベントが生成される。
非同期極性モード:推定データ量は、Nev・H=30×20=600ビットであり、これは帯域幅制限を満足する。
非同期光強度モード:推定データ量は、Nev・H=30×27=810ビットであり、これは帯域幅制限を満足する。
同期極性モード:推定データ量は、M・H=100×1=100ビットであり、これは帯域幅制限を満足する。
同期光強度モード:推定データ量は、M・H=100×8=800ビットであり、これは帯域幅制限を満足する。
3秒目では、同期光強度モードにおいて、30個全てのイベントの光強度情報は、800ビットのデータ量で伝送することができる。3秒目では、現在の組み合わせモード(非同期光強度モード)の使用により、より高い精度でのイベントデータが帯域幅制限を超えずに可能な限り多く伝送されることを確かにすることができず、切り替え条件が満足されることが決定される。この場合に、制御回路906は、非同期光強度モードを同期光強度モードに切り替えるよう制御する。例えば、制御回路は、現在のイベント読み出しモードから他のイベント読み出しモードに切り替わることを読み出し回路905に指示するために指示信号を送信する。
上で与えられている式、変更条件、及び関連する計算方法は、本願の実施形態の実施の例に過ぎず、他の適切なイベント表現方式の変更条件、変更ポリシー、及び計算方法も使用されてよいことが理解されるべきである。本願の範囲はこの点に関して制限されない。
いくつかの実施において、読み出し回路905は、閾値比較部902によって出力された信号を読み出すように、又は光強度捕捉部904にバッファリングされている電気信号を読み出すように読み出し回路を制御するよう構成されるデータフォーマット制御部9051を含む。以下は、2つの実施に係るデータフォーマット制御部9051について記載する。
図12-aは、本願の実施形態に係る読み出し回路内のデータフォーマット制御部の構造の模式図である。データフォーマット制御部は、ANDゲート951、ANDゲート954、ORゲート953、及びNOTゲート952を含み得る。ANDゲート951の入力端は、制御回路906によって送信された変更信号と、閾値比較部902によって出力された極性情報とを受けるよう構成され、ANDゲート954の入力端は、制御回路906によって送信されてNOTゲート952を通過した変更信号と、光強度捕捉部904によって出力された電気信号(光強度情報)とを受けるよう構成される。ANDゲート951及びANDゲート954の出力端は、ORゲート953の入力端に接続され、ORゲート953の出力端は制御回路906に結合されている。可能な実施において、変更信号は0又は1であってよく、データフォーマット制御部9051は、閾値比較部902によって出力された極性情報の読み出しを制御するか、又は光強度捕捉部904によって出力された極性情報の読み出しを制御してよい。例えば、変更信号が0である場合に、データフォーマット制御部9051は、閾値比較部902での極性情報の出力を制御してよく、変更信号が1である場合に、データフォーマット制御部9051は、光強度捕捉部904における光強度情報の出力を制御してよい。可能な実施において、データフォーマット制御部9051は、フォーマット信号ケーブルを通じて制御回路906へ接続され、フォーマット信号ケーブルを通じて、制御回路906によって送信された変更信号を受信してよい。
図12-aに示されるデータフォーマット制御部は、可能な構造にすぎず、ライン切り替えを実装することができる他の論理構造も、本願のこの実施形態で使用されてよいことが留意されるべきである。図12-bに示されるように、読み出し回路905は、読み出しコンポーネント955及び956を含み得る。読み出しコンポーネント955及び読み出しコンポーネント956は、独立したデバイスを使用することによって別々に実施されてよく、あるいは、同じデバイスに組み込まれてもよい。読み出しコンポーネント955は、閾値比較部902によって出力されたデータを読み出すよう構成されてよく、読み出しコンポーネント956は、光強度捕捉部によってバッファリングされた電気信号を読み出すよう構成されてよい。
読み出し回路905は、特定のイベント表現方式で、ピクセルアレイ回路によって生成されたデータを読み出してよい。例えば、制御回路が、読み出しコンポーネント955をオンされるよう制御し、読み出しコンポーネント956をオフされるよう制御し得る例では、読み出し回路905は、読み出しインターバルで、閾値比較部902から出力されたデータを読み出し、読み出し回路は、極性情報に基づいて表されているイベントを読み出す。読み出しコンポーネント956がオンされ、読み出しコンポーネント955がオフされる例では、読み出し回路905は、光強度捕捉部904にバッファリングされている電気信号を読み出すことによって、光強度情報に基づいて表されているイベントを読み出す。
次いで、いくつかの可能な実施において、読み出し回路は、他の回路構造を更に含んでもよく、例えば、アナログ信号をデジタル信号に変更するよう構成されるアナログ-デジタル変更部を更に含んでもよいことが留意されるべきである。他の例として、読み出し回路は、単位時間にピクセルアレイ回路によって測定されたイベントの数Nevに関する統計値を収集するよう構成される統計値捕捉部を更に含んでもよい。更なる他の例として、読み出し回路は、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の総データ量を計算するよう構成される計算部を更に含んでもよい。更に、本願での接続は、直接の接続又は結合を示し得ることが留意されるべきである。例えば、ORゲート953は制御回路906へ接続される。可能な実施において、接続は、ORゲート953が制御回路906へ結合されることを示してもよい。ORゲート953は、統計値捕捉部の入力端へ接続されてよく、制御回路906は、統計値捕捉部の出力端へ接続されてよい。
本願の可能な実施形態で提供される方法に従って、制御回路906は、読み出し及びパーシングプロセスの全体で、ピクセルアレイ回路で生成された光強度変化イベントに対して過去の統計値の収集及び実時間の解析を連続的に実行し、変更条件が満足されると変更信号を送信し、それにより、読み出し回路905は、閾値比較部902内の情報を読み出すことから、光強度捕捉部904内の情報を読み出すことに変更するか、又は読み出し回路905は、光強度捕捉部904内の情報を読み出すことから、閾値比較部902内の情報を読み出すことに変更する。この適応的な変更プロセスは、全てのデータ信号が読み出されるまで繰り返される。
図13は、本願の実施形態に係る制御回路の可能なブロック図である。制御回路は、図11及び図12-aにおける制御回路906などを実装するよう構成されてよい。図13に示されるように、制御回路は、少なくとも1つのプロセッサ1101、プロセッサ1101に結合されている少なくとも1つのメモリ1102、及びプロセッサ1101に結合されている通信メカニズム1103を含む。メモリ1102は、少なくとも、コンピュータプログラムと、読み出し回路から取得されたデータ信号とを記憶するよう構成される。統計モデル111及びポリシーモジュール112は、プロセッサ1101で事前設定される。制御回路は、読み出し回路に対する制御機能を実施するよう、通信メカニズム1103を通じて、図11及び図12に示されるビジョンセンサの読み出し回路905、又はビジョンセンサ外の読み出し回路へ通信可能に結合されてよい。
いくつかの可能な実施形態で、制御回路は、ピクセルアレイ回路によって生成された複数のデータ信号を特定のイベント表現方式で読み出すように読み出し回路905を制御するよう構成されてよい。更に、制御回路は、読み出し回路905からデータ信号を取得するよう構成されてよい。制御回路が、光強度情報に基づいて表されるイベントを読み出すよう読み出し回路905を制御する場合に、データ信号は、絶対光強度値を示してよく、絶対光強度値は、現在の時点で測定されている光強度値を表し得る。制御回路が、極性情報に基づいて表されるイベントを読み出すよう読み出し回路905を制御する場合に、データ信号は、光強度極性などを示してよい。例えば、光強度極性は、光強度変化の傾向、例えば、通常は+1又は-1と表される増強又は低下を示し得る。
制御回路は、読み出し回路から取得されたデータ信号に基づいて、少なくとも1つの光強度変化イベントに関する統計データを決定する。例えば、上述された統計データは、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の総データ量であってよく、あるいは、統計データは、単位時間にピクセルアレイ回路によって測定されたイベントの数Nevであってよい。いくつかの実施形態で、制御回路は、読み出し回路905から、ある期間にピクセルアレイ回路によって生成されたデータ信号を取得し、過去の統計値の収集及び解析のためにデータ信号をメモリ1102に格納してよい。
いくつかの可能な実施形態で、制御回路は、1つ以上の事前設定された統計モデル111を使用することによって、ピクセルアレイ回路によってある期間に生成されて読み出し回路906によって供給された光強度変化イベントに対して過去の統計値の収集を実行してよい。統計モデル111は次いで、統計データをポリシーモジュール112へ伝送してよい。上述されたように、統計データは、光強度変化イベントの数を示してよく、あるいは、光強度変化イベントの総データ量を示してよい。任意の適切な統計モデル又は統計アルゴリズムが、本願の可能な実施形態に適用されてよく、本願の範囲は、この点に関して制限されない。ことが理解されるべきである。
統計データは、ある期間にビジョンセンサによって生成された光強度変化イベントの過去のステータスの統計的な結果であるから、ポリシーモジュール112は、次の期間のイベント発生率又はデータ量を解析及び予測することができる。ポリシーモジュール112は、1つ以上の変更決定により事前設定されてよい。複数の変更決定がある場合に、制御回路は、要件に基づいて、例えば、ビジョンセンサのタイプ、光強度変化イベントの特徴、外部環境の属性、及び動き状態などの因子に基づいて、解析及び決定ために複数の変更決定から1つを選択してよい。
いくつかの実施形態で、プロセッサは、複数の統計モデルと、複数の統計モデルに対応するポリシーモジュールとを含んでよい。図14は、本願の実施形態に係る他の制御回路のブロック図である。統計モデル1(121)については、理解のために、図13に対応する統計モデル111を参照されたい。ポリシーモジュール1(122)については、理解のために、図13に対応するポリシーモジュール112を参照されたい。統計モデル2(123)については、理解のために、図8に対応する統計モデル606を参照されたい。ポリシーモジュール2(124)については、理解のために、図8に対応するポリシーモジュール608を参照されたい。通信メカニズム1203については、理解のために、図13に対応する通信メカニズム1103及び図8に対応する通信メカニズム612を参照されたい。これらの実施において、制御回路は、ピクセルアレイ回路によって生成された複数のデータ信号を特定のデータ読み出しモード(例えば、フレームスキャンに基づいた同期読み出しモード、又はイベントストリームに基づいた非同期読み出しモード)で読み出すように読み出し回路202を制御するよう構成されてよい。更に、制御回路は、読み出し回路から異なる表現方式のデータ信号を得るよう(例えば、極性情報に基づいて表されるデータ信号及び光強度情報に基づいて表されるデータ信号を得るよう)構成されてもよい。メモリ1202は、少なくとも、コンピュータプログラムと、読み出し回路から取得されたデータ信号とを記憶するよう構成される。メモリ1202に記憶されているコンピュータプログラムは、データ読み出しモードを切り替えることに関するプログラムと、イベント表現方式を切り替えることに関するプログラムとを含んでよい。更に、統計モデル1及び統計モデル2は、異なるデータに基づいて統計値を収集してもよいことが留意されるべきである。例えば、統計モデル1は、単位時間にピクセルアレイ回路によって測定されたイベントの数Nevに基づいて統計値を収集し、結果をポリシーモジュール1に出力する。統計モデル2は、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の総データ量に基づいて統計値を収集し、結果をポリシーモジュール2に出力する。代替的に、統計モデル1は、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の総データ量に基づいて統計値を収集し、結果をポリシーモジュール1に出力する。統計モデル2は、単位時間にピクセルアレイ回路によって測定されたイベントの数Nevに基づいて統計値を収集し、結果をポリシーモジュール2に出力する。
いくつかの実施形態で、図15を参照されたい。複数のプロセッサ(例えば、プロセッサ1301及びプロセッサ1302)が含まれ得る。各プロセッサは、制御ポリシーを出力するよう構成される。統計モデル1(131)、ポリシーモジュール1(132)、統計モデル2(133)、及びポリシーモジュール2(134)については、理解のために、図14に対応する統計モデル1、ポリシーモジュール1、統計モデル2,及びポリシーモジュール2を参照されたい。いくつかの実施形態で、図15を参照されたい。複数のメモリ(例えば、メモリ1303及びメモリ1304)が含まれ得る。各メモリは、読み出し回路から取得されたデータ信号又は制御ポリシーに関するコンピュータプログラムを記憶するよう構成される。例えば、メモリ1は、読み出し回路から取得されたデータ信号と、イベント表現方式の変更に関するプログラムとを記憶するよう構成され、メモリ2は、読み出し回路から取得されたデータ信号と、データ読み出しモードの切り替えに関するプログラムとを記憶するよう構成される。他の例として、1つのメモリは、読み出し回路から取得されたデータ信号を記憶するよう構成され、もう1つのメモリは、制御ポリシーに関するコンピュータプログラムを記憶するよう構成される(このソリューションは図示されず)。
いくつかの実施形態で、ただ1つの通信メカニズムしか含まれなくてもよく、あるいは、複数の通信メカニズムが含まれてもよい。図15の通信メカニズム1305及び通信メカニズム1306は、1つの通信メカニズムと理解されてよく、あるいは、2つの異なる通信メカニズムと理解されてもよい。理解のために、図14に対応する通信メカニズム1203及び通信メカニズム1204を参照されたい。
いくつかの実施形態で、ポリシーモジュールが、統計データが変更条件を満足すると決定する場合に、ポリシーモジュールは、イベント表現方式を変更する指示を読み出し回路に出力する。他の実施形態では、ポリシーモジュールは、統計データが変更条件を満足しないと決定する場合に、ポリシーモジュールは、イベント表現方式を変更する指示を読み出し回路に出力しない。いくつかの実施形態で、イベント表現方式を変更する指示は、上記の実施形態で記載された明示的形式、例えば、変更信号が0又は1である方式であってよい。
制御回路は、例示のみを目的としており、本願の範囲に対する如何なる限定も暗示しないことが理解されるべきである。本願の実施形態は、異なる制御回路で更に具現化されてもよい。更に、制御回路は、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよいことが更に理解されるべきである。しかし、それは、本願の実施形態がこれらの要素又はエンティティを有さないことを意味するものではない。例えば、以下は、制御回路が、ハードウェア形式で、異なる表現方式にあるイベントを読み出すよう読み出し回路を制御する解決法を提供する。
図16は、本願の実施形態に係る制御回路のブロック図である。制御回路1400は、図11又は図12-aの制御回路906、などを実装するよう構成されてよい。図16に示されるように、制御回路1400は、カウンタ1401及びコンパレータ1402を含んでよい。カウンタはコンパレータに結合されている。カウンタは、通信メカニズムを通じて読み出し回路1403と通信してよい。コンパレータも、通信メカニズムを通じて読み出し回路1403と通信してよい。
制御回路1400は、ピクセルアレイ回路によって生成された複数のデータ信号を特定のイベント表現方式で読み出すように読み出し回路1403を制御するよう構成されてよい。制御回路1400は、カウンタ1401を介して、読み出し回路1403によって送信されたデータ信号を取得してよい。カウンタ1401がイベントを受け取るたびに、カウンタの値は1ずつ増える。カウンタは、イベントのカウントされた数をコンパレータ1402へ送ってよく、コンパレータ1402は、変更条件及びカウンタによって示されたイベントの数に基づいて、変更信号を読み出し回路1403に出力すべきかどうかを決定する。例えば、イベントが現在極性情報に基づいて表されている場合に、変更条件は式(14)に従って理解され得る。コンパレータにより、カウンタによって出力された値がαK/H以下であると決定される場合に、コンパレータ1402は、変更信号を読み出し回路1403に出力し、光強度捕捉部にバッファリングされている電気信号を読み出すよう読み出し回路1403を制御する。他の例として、イベントが現在光強度情報に基づいて表されている場合に、変更条件は式(15)に従って理解され得る。コンパレータにより、カウンタによって出力された値がβK/H以上であると決定される場合に、コンパレータ1402は、変更信号を読み出し回路1403に出力し、閾値比較部によって出力された信号を読み出すよう読み出し回路1403を制御する。コンパレータ1402が比較を完了するたびに、コンパレータは、カウンタ1401にリセットするよう指示する。読み出し回路1403については、理解のために、図11及び図12-aに対応する読み出し回路905を参照されたい。
いくつかの実施形態で、ユーザは更に、イベント表現方式の選択をカスタマイズすることを許可され得る。図17は、本願の実施形態に係る他の制御回路のブロック図1500のブロック図である。固定信号は、固定されたイベント表現方式でデータ信号を読み出すことを読み出し回路に指示し、例えば、閾部によって出力された信号(極性情報に基づいて表されるイベント)を読み出すこと、又は光強度捕捉部によってバッファリングされた信号(光強度情報に基づいて表されるイベント)を読み出すことを読み出し回路に指示する。セレクタ1503は、固定信号と、コンパレータ1502によって出力された信号とを受信するよう構成される。固定信号を受信する場合に、セレクタ1503は、固定信号の指示に基づいて読み出し回路を制御する。セレクタ1503が固定信号を受信しない場合に、セレクタ1503は、コンパレータ1502によって出力された変更信号に基づいて読み出し回路を制御する。カウンタ1501については、理解のために、図16のカウンタ1401を参照されたい。コンパレータ1502については、理解のために、図16のコンパレータ1402を参照されたい。読み出し回路1503については、理解のために、図16の読み出し回路1403を参照されたい。
図18は、本願に係る、単一のイベント表現方式と適応的に変更されたイベント表現方式との間の相違の模式図である。図18に示されるように、単一のイベント表現方式が使用される。例えば、光強度情報に基づいてイベントを表す方式(当該方式は図18で光強度モードとして表される)が使用される。ビジョンセンサによって伝送される必要があるデータの量がビジョンセンサの前もってセットされた最大帯域幅を超える場合に、一部のデータはランダムに破棄される。図18で曲線1601によって示されるように、大量のイベントがピクセルアレイ回路で生成され、伝送されるべきデータの量が曲線1601で破線部によって示されるように帯域幅よりも多い場合に、イベントデータが読み出され得ない場合がある、つまり、データが失われる場合がある。本願で提供される解決法が使用される場合に、イベント表現精度を調整するために、光強度情報に基づいて表されるイベントのデータ量と帯域幅との間の関係の比較が実行される。データ量が比較的に少なく、伝送されるデータの量が帯域幅を超えない場合に、イベントは光強度情報に基づいて表され、それにより、サンプリングされたピクセル輝度変化情報は可能な限り多く出力されることになり、イベントの表現精度は相対的に高くなる。光強度情報はその後の処理で、例えば、輝度再構築中に、直接使用されてよく、複雑な処理は不要である。大量のデータがトリガされ、イベントのデータ量が帯域幅を超える場合に、イベント表現方式は、極性情報に基づいてイベントを表す方式(当該方式は図18で極性モードとして表される)に切り替えられ、イベント表現精度は相対的に低い。極性情報は通常1ビット又は2ビットしか必要としないので、データ量は大幅に削減可能であり、それによって伝送負担は軽減され、データ損失は低減される。極性情報に基づいて輝度再構築を実行する方法は、本願の実施形態で使用されてもよいことが留意されるべきである。例えば、モデリング及び推定の方法が使用されてよい。イベントは、輝度変化が指定された閾値Cよりも大きいために生成される。再構成時点より前の時点での輝度が知られている場合に、輝度再構築は、負達の時点の間の極性情報と、イベント生成原理とに基づいて、式1-2に従って表され得る。
x及びyは、ピクセルの行及び列の座標(座標情報)を表し、tは、再構築時点のタイムスタンプ(時間情報)である。epは、極性情報に基づいて現在表されているイベントを表す。I(x,y,tpre)は、再構築時点より前の時点での輝度情報を表す。より正確な輝度情報が取得される必要がある場合に、推定は、ピクセルの空間情報及び時間領域情報に基づいて行われてよい。例えば、線形補間法又はダブルキュービック補間法が使用されてよい。いくつかの可能な実施形態で、I(x,y,tpre)は再構築時点の前の時点を表すので、量子化誤差は更に低減され得る。従来技術では、極性情報に基づいて輝度再構築を行うことは比較的に難しく、オブジェクト認識の精度も悪いことが留意されるべきである。従来技術とは異なり、本願で提供される解決法では、極性情報に基づいて表されるイベントと光強度情報に基づいて表されるイベントとの間の変更が使用されるので、極性情報に基づいて輝度再構築を実行するプロセスで、再構築時点より前の時点での輝度(光強度情報)が使用され得る。従来技術と比較して、本願は、輝度再構築の困難性を緩和し、オブジェクト認識精度を向上させることができる。本願では、光強度情報は、輝度情報とも呼ばれることがあり、両者は同じ意味を有することが留意されるべきである。
適応的に変更されるイベント表現方式の利点をより良く証明するために、以下は、具体例に基づいて説明する。ビジョンセンサの前もってセットされた最大帯域幅は200bpsであり、α及びβは両方とも1にセットされる、ことが仮定される。初期イベント表現方式は、光強度情報に基づいたイベントの表現であり、各イベントは8ビットによって表され、4秒内のピクセルアレイ回路のデータ量は、夫々、1秒目に生成される30個のイベント、2秒目に生成される60個のイベント、3秒目に生成される40個のイベント、4秒目に生成される20個のイベント、及び5秒目に生成される15個のイベントである。イベントが常に光強度情報に基づいて表される場合に、1秒目では、生成されるデータ量が240ビットであり、帯域幅200ビットよりも多いので、25個のイベントしか正常に伝送されない可能性があり、他のイベントは、限られた帯域幅により失われる可能性がある。2秒目では、同じ理由により、生成されるデータ量は帯域幅よりも多い。帯域幅の制限により、一部のイベントしか正常に伝送されず、一部のイベントは失われる。3秒目では、同様に、帯域幅の制限により、一部のイベントしか正常に伝送されず、一部のイベントは失われる。4秒目では、全てのイベントが正常に伝送され得る。5秒目では、全てのデータ量が正常に伝送され得る。本願で提供される適応的に変更されるイベント表現方式の解決法が使用される場合に、1秒目に伝送される必要があるデータの量は帯域幅を超えるので、変更条件が満足され、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。イベントが極性情報に基づいて表される場合に、各イベントは2ビットで表される、ことが仮定される。極性情報に基づいて1つのイベントを表すのに必要なビットの量は、光強度情報に基づいて1つのイベントを表すことのそれよりも少ないので、イベント損失率は、極性情報に基づいてイベントを表すことによって低減され得る。2秒目では、イベントは極性情報に基づいて表される場合には、伝送されるべきデータの総量は帯域幅よりも少なく、イベントが光強度情報に基づいて表される場合には、伝送されるべきデータの量は帯域幅を超える。従って、イベント損失率を低減するために、イベントは依然として極性情報に基づいて表される。3秒目では、イベントが光強度情報に基づいて表される場合に、伝送される必要があるデータの量は依然として帯域幅を超えるので、イベントは依然として極性情報に基づいて表され、それによってイベント損失率を低減する。4秒目では、イベントが極性情報に基づいて表される場合に、伝送される必要があるデータの総量は帯域幅よりも少ない。更に、イベントが光強度情報に基づいて伝送される場合に、伝送される必要があるデータの量は帯域幅よりも少ない。従って、変更条件が満足され、イベント表現方式は、光強度情報に基づいてイベントを表すことに変更され、それにより、イベント表現の精度は向上し、イベントはより多くの情報を運ぶことができる。5秒目では、伝送される必要があるデータの量は、イベントが目下光強度情報に基づいて表されている場合に帯域幅よりも少ないので、変更条件は満足されず、イベントは依然として光強度情報を使用することによって表され、それにより、イベントはより多くの情報を運ぶことができる。
この例から、単一のイベント表現方式が使用される場合、例えば、光強度情報に基づいてイベントを表す方式しか使用されない場合に、データ損失率は36.4%であることが分かる。本願で提供される適応的に変更されるイベント表現方式の解決法が使用される場合に伝送されるべきデータの量が帯域幅よりも多いとき、イベント表現方式は、極性情報に基づいてイベントを表すことに変更され、これは、イベント損失率を大幅に低減する。更に、限られた帯域幅は超えられず、イベントがより多くの情報を運ぶために可能な限り多く使用される。
図19は、本願の実施形態に係る電子デバイスの可能なブロック図である。図19に示されるように、電子デバイスは、ビジョンセンサチップ1700、制御回路1701、及びパーシング回路1702を含む。制御回路1701については、理解のために、制御回路906を参照されたい。電子デバイスは、例示のために使用されており、現在知られている様々なセンサデバイス及び将来開発される様々なセンサデバイスを含む任意の適切なデバイスで実施されてよいことが理解されるべきである。本願の実施形態は、異なるセンサシステムで更に具現化されてもよい。更に、電子デバイスは、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよい。しかし、それは、本願の実施形態がこれらの要素、モジュール、又はエンティティを有さないことを意味するものではない。
ビジョンセンサチップ1700及び制御回路1701については、理解のために、図11乃至図18に記載されるビジョンセンサ及び制御回路を参照されたい。詳細はここで再び記載されない。パーシング回路1702は、ビジョンセンサチップ1700内にある読み出し回路によって読み出されたデータ信号をパースするよう構成されてよい。本願の可能な実施形態で、パーシング回路1702は、ビジョンセンサチップ1700内にある読み出し回路の現在のイベント表現方式に適応したパーシングモードを使用し得る。一例で、読み出し回路が最初に、極性情報に基づいてイベントを読み出す場合に、パーシング回路は、それに応じて、当該表現方式に関連したビットの数に基づいてイベントをパースする。例えば、極性情報は1ビットによって表されることが予め決定される。この場合に、パーシング回路は、それに応じて、1ビットに基づいてイベントをパースする。読み出し回路が最初に、光強度情報に基づいて表されるイベントを読み出す場合に、パーシング回路は、それに応じて、当該表現方式に関連したビットの数に基づいてイベントをパースする。例えば、光強度情報は12ビットによって表されることが予め決定される。この場合に、パーシング回路は、それに応じて、12ビットに基づいてイベントをパースする。
いくつかの実施形態で、パーシング回路1702は、明示的に信号又はフラグビットを切り替えずに、パーシング回路のパーシングモードの切り替えを実施してよい。例えば、パーシング回路1702は、読み出し回路によって供給されたデータ信号に対して制御回路1701と同じ統計解析及び一貫した変更予測を行うために、制御回路1701と同じ又は対応する統計モデル及び変更ポリシーを使用してよい。読み出し回路がイベントストリームに基づいた読み出しモードでデータ信号を読み出す例が、説明のために使用される。上述されたように、イベントストリームに基づいた読み出しモードでは、各イベントは<x,y,t,m>と表すことができ、(x,y)は、イベントが生成されるピクセル位置を表し、tは、イベントが生成される時間を表し、mは、光強度の特徴情報を表し、mは、極性情報及び光強度情報を含む。xはbx個のビットによって表され、yはby個のビットによって表され、tはbt個のビットによって表され、mは、極性情報を表す場合には1ビットによって表され、又はmは、光強度情報を表す場合には12ビットによって表される。相応して、制御回路1701が、極性情報に基づいて表されるイベントを読み出すよう初期状態で読み出し回路を制御する場合に、相応して、パーシング回路1702が初期状態にあるとき、パーシングを通じて取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に1ビットは、光強度の特徴情報を示すために使用される。具体的に、光強度の特徴情報は極性情報である。パーシング回路1702は、読み出し回路からデータ信号を取得し、光強度変化イベントに関する統計データを決定する。統計データが変更条件を満足することをパーシング回路1702が決定する場合に、パーシング回路1702は、光強度情報に基づいて表されるイベントに対応するパーシングモードに変更する。例えば、極性情報に基づいてイベントを表すことが、光強度情報に基づいてイベントを表すことに変更される場合に、パーシング回路1702によってパーシングを通じて取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に12ビットは、光強度の特徴情報を示すために使用される。具体的に、光強度の特徴情報は、光強度情報である。
他の例では、読み出し回路905が最初に、光強度情報に基づいて表されるデータ信号を読み出す場合に、パーシング回路1702は、当該イベント表現方式に対応するパーシングモードにある。例えば、パーシングを通じて取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に、12ビットは、光強度の特徴情報を示すために使用される。パーシング回路1702は、読み出し回路からデータ信号を取得し、光強度変化イベントに関する統計データを決定する。統計データが変更条件を満足することをパーシング回路1702が決定する場合に、パーシング回路1702は、極性情報に基づいて表されるイベントに対応するパーシングモードに切り替わる。例えば、光強度情報に基づいてイベントを表すことが、極性情報に基づいてイベントを表すことに変更される場合に、パーシング回路1702によってパーシングを通じて取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に1ビットは、極性情報を示すために使用される。
他の例では、読み出し回路905が最初に、イベントストリームに基づいた読み出しモードで、ピクセルアレイ回路によって出力されたデータ信号を読み出す、具体的に、光強度情報に基づいて表されるデータ信号を読み出す場合に、パーシング回路1702は、当該読み出しモード及び当該イベント表現方式に対応するパーシングモードで、例えば、イベントストリームに基づいた読み出しモードに対応するモードで、読み出し回路905から取得されたデータ信号をパースする。パーシングを通じて取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に12ビットは、光強度情報を示すために使用される。パーシング回路1702は、読み出し回路からデータ信号を取得し、光強度変化イベントに関する統計データを決定する。統計データが変更条件を満足することをパーシング回路1702が決定する場合に、パーシング回路1702は、極性情報に基づいて表されるイベントに対応するパーシングモードに切り替わる。例えば、極性情報に基づいてイベントを表すことが、光強度変化イベントに基づいてイベントを表すことに変更される場合に、パーシング回路1702によってパーシングを通じて取得された最初のbx個のビットは、ピクセルの座標xを示し、次のby個のビットは、ピクセルの座標yを示し、続くbt個のビットは、読み出し時間を示し、最後に1ビットは、極性情報を示すために使用される。
いくつかの可能な実施形態で、パーシング回路1702は、読み出し回路905からデータ信号を取得し、データ信号に基づいて、現在のパーシングモード及び代替のパーシングモードのうちのどちらの1つが読み出し回路905によって読み出されているイベントの表現方式に対応しているかを決定する。更に、いくつかの実施形態で、パーシング回路1702は、決定に基づいて、現在のパーシングモードから他のパーシングモードへ切り替わってもよい。
本願の実施形態は、ビジョンセンサチップの作動方法を更に提供する。図20は、本願の実施形態に係るビジョンセンサチップの作動方法の可能なフローチャートである。方法は、次のステップを含んでよい。
1801:光強度の変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成する。
ピクセルアレイ回路は、光強度の変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成し、少なくとも1つのデータ信号は、光強度変化イベントを示し、光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度の変化が所定の閾値を超えることを示す。ピクセルアレイ回路は、1つ以上のピクセルアレイを含んでよく、各ピクセルアレイは、複数のピクセルを含む。各ピクセルは、1つのピクセル回路と見なされ得る。ピクセル回路については、理解のために、ピクセル回路900を参照されたい。
1802:第1イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出す。
読み出し回路は、第1イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出す。読み出し回路については、理解のために、読み出し回路905を参照されたい。
いくつかの可能な実施形態で、第1イベント表現方式は、極性情報に基づいてイベントを表現することである。ピクセルアレイ回路は複数のピクセルを含む。各ピクセルは閾値比較部を含む。閾値比較部は、光強度の変化が所定の閾値を超える場合に極性情報を出力するよう構成される。極性情報は、光強度の変化が増強又は低減されるかどうかを示す。読み出し回路は、具体的に、閾値比較部によって出力された極性情報を読み出すよう構成される。
いくつかの可能な実施形態で、第1イベント表現方式は、光強度情報に基づいてイベントを表現することである。ピクセルアレイ回路は複数のピクセルを含み、各ピクセルは閾値比較部、読み出し制御部、及び光強度捕捉部を含む。
光強度検出部は、光強度検出部に照射された光信号に対応する電気信号を出力するよう構成され、電気信号は光強度を示す。
閾値比較部は、電気信号に基づいて、光強度の変化が所定の閾値を超えることを決定する場合に、第1信号を出力するよう構成される。
読み出し制御部は、第1信号の受信に応答して、第1信号の受信時に対応する電気信号を捕捉及びバッファリングすることを光強度捕捉部に指示するよう構成される。
読み出し回路は、具体的に、光強度捕捉部によってバッファリングされた電気信号を読み出すよう構成される。
光強度検出部については、理解のために、光強度検出部901を参照されたい。閾値比較部については、理解のために、閾値比較部902を参照されたい。読み出し制御部については、理解のために、読み出し制御部903を参照されたい。光強度捕捉部については、理解のために、光強度捕捉部904を参照されたい。
1803:少なくとも1つのデータ信号を制御回路に供給する。
読み出し回路は、少なくとも1つのデータ信号を制御回路に供給するよう更に構成される。制御回路については、理解のために、制御回路906を参照されたい。
1804:少なくとも1つのデータに基づいて生成された変更信号を制御回路から受信する場合に、第2イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すことに変更する。
読み出し回路は、少なくとも1つのデータ信号に基づいて生成された変更信号を制御回路から受信する場合に、第2イベント表現方式でピクセルアレイ回路から少なくとも1つのデータ信号を読み出すことに変更するよう構成される。
可能な実施形態で、制御回路は、読み出し回路によって受信された少なくとも1つのデータ信号に基づいて統計データを決定し、統計データが所定の変更条件を満足すると決定する場合に、変更信号を読み出し回路を送信するよう更に構成され、所定の変更条件は、ビジョンセンサチップの前もってセットされた帯域幅に基づいて決定される。
可能な実施形態で、第1イベント表現方式が極性情報に基づいてイベントを表現することであり、第2イベント表現方式が光強度情報に基づいてイベントを表現することである場合に、所定の変更条件は、少なくとも1つのデータ信号が第2イベント表現方式でピクセルアレイ回路から読み出される場合に、読み出されたデータの総量が前もってセットされた帯域幅以下であることであり、又は所定の変更条件は、少なくとも1つのデータ信号の数量が第1ビットに対する前もってセットされた帯域幅の比以下であることであり、第1ビットは、データ信号のデータフォーマットの前もってセットされたビットである。
可能な実施において、第1イベント表現方式が光強度情報に基づいてイベントを表現することであり、第2イベント表現方式が極性情報に基づいてイベントを表現することである場合に、所定の変更条件は、第1イベント表現方式でピクセルアレイ回路から読み出されるデータの総量がプリセット帯域幅よりも多いことであるか、又は所定の変更条件は、少なくとも1つのデータ信号の数量が、第1ビットに対するプリセット帯域幅の比よりも多いことであり、第1ビットは、データ信号のデータフォーマットの前もってセットされたビットである。本願のこの実施形態で提供される適応的なイベント表現方式に従って、ビジョンセンサは、次の期間における可能なイベント発生率を予測するためにイベントの過去のデータに関する統計値を収集してよい。従って、適用シナリオ及び動き状態により適しているイベント表現方式が選択され得る。
上記の解決法に従って、ビジョンセンサは、2つのイベント表現方式の間を適応的に切り替えることができ、それにより、データ読み出しレートは常に、所定のデータ読み出しレート閾値を超えないので、ビジョンセンサのデータ伝送、パーシング及び記憶のコストは削減され、センサの性能は大幅に向上する。更に、このようなビジョンセンサは、次の期間における可能なイベント発生率を予測するためにある期間に生成されたイベントのデータに関する統計値を収集し得るので、現在の外部環境、適用シナリオ、及び動き状態により適している読み出しモードが選択可能である。
ビジョンセンサは、2つのイベント表現方式の間を適応的に切り替えることができ、2つのイベント表現方式には、極性情報に基づいてイベントを表現することと、光強度情報に基づいてイベントを表現することとがある、ことが上述された。本願で提供される適応的なイベント表現方式が使用される場合に、光強度情報に基づいて表されるイベントのデータ量と帯域幅との間の関係の比較は、イベントの表現精度を調整するために実行される。帯域幅制限が満足される場合には、全てのイベントが適切な表現方式で伝送され、全てのイベントは可能な限り高い表現精度で伝送される。いくつかの実施において、視覚センサは、より高い表現精度で全てのイベントを伝送する目的をより良く達成するために、複数のイベント表現方式の間で適応的に切り替わってもよい。これは、いくつかの具体的な実施形態を参照して以下で記載される。
図21は、本願に係るピクセル回路1900の模式図である。ピクセルアレイ回路210、ピクセルアレイ回路310、及びピクセルアレイ回路710の夫々は1つ以上のピクセルアレイを含んでよく、各ピクセルアレイは複数のピクセルを含む。各ピクセルは1つのピクセル回路と見なすことができ、各ピクセル回路は、ピクセルに対応するデータ信号を生成するよう構成される。図21は、本願の実施形態に係る他のピクセル回路の模式図である。本願では、1つのピクセル回路は略してピクセルと呼ばれることがある。図21に示されるように、本願のピクセル回路は、光強度検出部1901、閾値比較部1902、読み出し制御部1903、及び光強度捕捉部1904を含む。
光強度検出部1901は、取得された光信号を第1電気信号に変換するよう構成される。光強度検出部1901については、理解のために、図11に対応する実施形態の光強度検出部901を参照されたく、詳細はここで再び記載されない。
閾値比較部1902は、第1電気信号が第1目標閾値よりも大きいかどうか、又は第1電気信号が第2目標閾値よりも小さいかどうかを決定するよう構成される。第1電気信号が第1目標閾値よりも大きいか、又は第1電気信号が第2目標閾値よりも小さい場合に、閾値比較部1902は第1データ信号を出力し、第1データ信号は、ピクセルに光強度変更イベントがあることを示す。閾値比較部1902は、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が所定の閾値を超えるかどうかを比較するよう構成され、これは式1-1を参照して理解され得る。第1目標閾値は、第1所定閾値と第2電気信号との和として理解することができ、第2目標閾値は、第2所定閾値と第2電気信号との和として理解することができる。第2電気信号は、前のイベントが起きたときに光強度検出部901によって出力された電気信号である。本願の実施形態の閾値比較部は、ハードウェアによって実施されてよく、又はソフトウェアによって実施されてよい。これは本願の実施形態で制限されない。
第1データ信号を取得すると、読み出し制御部1903は、第1電気信号を収集するよう光強度捕捉部1904を制御する。読み出し制御部1903は、ピクセル回路によって出力されたデータ信号を読み出すことを読み出し回路1905に指示するよう更に構成される。
読み出し回路1905は、対応するピクセルで生成されたデータ信号を読み出すために所定の順序でピクセルアレイ回路内のピクセルをスキャンするよう構成されてよい。いくつかの可能な実施形態で、読み出し回路905については、理解のために、読み出し回路220、読み出し回路320、及び読み出し回路720を参照されたい。具体的に言えば、読み出し回路905は、ピクセル回路によって出力されたデータ信号を1つよりも多い信号読み出しモードで読み出すことができるよう構成される。例えば、読み出し回路1905は、第1読み出しモード及び第2読み出しモードのうちの一方で読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは、他方のモードに対応する。いくつかの可能な実施形態で、読み出し回路1905はまた、ただ1つの信号読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出してもよい。例えば、読み出し回路1905は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路1905は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。
第1符号化部1907は、現在取得されているビット幅に基づいて、光強度捕捉部1904によってバッファリングされた第1電気信号に対して符号化処理を実行するよう構成される。読み出し回路1905は、第1符号化部1907によって符号化されたデータ信号を読み出すよう更に構成される。第1符号化部1907は、取得されたビット幅に基づいて第1電気信号に対して符号化処理を実行するために制御回路1906によって制御される必要があり、これは以下で詳細に記載される。
いくつかの実施でにおいて、読み出し回路1905は、少なくとも1つの読み出されたデータ信号を制御回路1906へ供給するよう構成されてよい。制御回路1906は、読み出し回路1905から取得されたデータ信号に基づいて、ビット幅を使用することによってイベントを符号化するように第1符号化部1907を制御してよい。
読み出し回路1905は、ある期間に読み出されたデータ信号を制御回路1906に供給してよく、それにより、制御回路1906は推論を実行し、ビット幅を使用することによってイベントを符号化することを第1符号化部1902に指示する。いくつかの可能な実施形態で、制御回路1906は、読み出し回路1905から少なくとも1つのデータ信号を取得し、少なくとも1つのデータ信号に基づいて、第1符号化部1907によって現在使用されている符号化スキームが現在の適用シナリオ及び動き状態に適しているかどうかを決定し、次いで、第1符号化部1907の符号化スキームを調整してよい。いくつかの可能な実施において、第1符号化部1907は、読み出し回路を介した相互作用を実行するのではなく、制御回路1906と直接相互作用してもよい。例えば、第1符号化部は、符号化されたデータ信号を制御回路1906へ送信し、制御回路1906は、受信した符号化されたデータ信号に基づいて、第1符号化部1907によって現在使用されている符号化スキームが現在の適用シナリオ及び動き状態に適しているかどうかを決定し、第1符号化部1907の符号化スキームを更に調整する。
いくつかの可能な実施形態で、読み出し回路1905によって制御回路1906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数Nenである。光強度の特徴情報を表す現在使用されているビット幅はH1である、ことが仮定され、具体的に言えば、制御回路1906は、目下H1を使用して各イベントの特徴情報を符号化する(以下、各イベントを符号化する、と呼ばれる)よう第1符号化部1907を制御する、ことが仮定される。光強度の特徴情報のビット幅がプリセットとしてi個のビットを使用することによって符号化され、イベントの数がプリセットとしてs個のビットを使用することによって符号化されるとすれば、ビジョンセンサは、全部で数N=Nev×H1+i+sのビットを伝送する必要がある。ビジョンセンサが合計で伝送する必要があるビットの数Nが帯域幅K以上である場合に、制御回路1906は、光強度の特徴情報のビット幅が低減される必要があると決定する。制御回路は、光強度の特徴情報のビット幅H2である場合にビジョンセンサが合計で伝送する必要があるビットの数を計算する。具体的に、H2個のビットが各イベントを符号化するために使用されるとき、ビジョンセンサは、全部で数N=Nev×H2+i+sのビットを伝送する必要がある。この場合に、ビジョンセンサが合計で伝送する必要があるビットの数Nが帯域幅K以下である場合に、制御回路1906は、H2個のビットを使用することによって各イベントを符号化するよう第1符号化部1907を制御し、このとき、H2はHよりも小さい。
いくつかの可能な実施形態で、読み出し回路1905によって制御回路1906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベント(光強度変更イベント)の数の総データ量であってもよい。例えば、光強度の特徴情報の現在使用されているビット幅はH1であり、単位時間にピクセルアレイ回路によって測定されたイベントの数の総データ量であって、読み出し回路1905によって制御回路1906に供給されるものは、Nev×H1である、ことが仮定される。
上述されたように、ビジョンセンサの帯域幅が固定であるとき、イベントデータが読み出され得ない場合がある。現在、ランダムな破棄が通常は使用されている。ランダムな破棄が使用される場合に、伝送されるデータの量が帯域幅を超えないことは確保され得るが、データ損失が引き起こされる。いくつかの特別な適用シナリオ(例えば、自動運転)では、ランダムに破棄されたデータが高い重要性を持つ場合がある。図11乃至図20に記載されている解決法では、イベントの表現精度を調整するために、光強度情報に基づいて表されるイベントのデータ量と帯域幅との間の関係の比較が実行され、調整は、2つのイベント表現方式を適応的に切り替えることによって実施される。帯域幅制限が満足される場合に、全てのイベントは適切な表現方式で伝送され、全てのイベントは、可能な限り高い表現精度で伝送される。図11乃至図20に記載されている解決法及び既存の解決法では、光強度の特徴情報のビット幅は固定である。従来技術での問題を解決するために、本願は、光強度の特徴情報のビット幅を動的に調整する解決法を更に提供する。図11乃至図20の2つのイベント表現方式のみの解決法と比較して、光強度の特徴情報のビット幅を動的に調整する解決法では、全てのイベントは、帯域幅制限が満足される場合に、より高い表現精度で伝送され得る。光強度の特徴情報のビット幅を動的に調整する解決法では、ある期間(例えば、単位時間)にビジョンセンサによって伝送される必要があるデータの量が帯域幅を超える場合に、帯域幅制限が満足されるまで、光強度の特徴情報のビット幅は低減される、言い換えると、イベント表現の精度は下げられる。帯域幅制限が満足されると、帯域幅制限を満足する光強度の特徴情報のビット幅がイベントを符号化する(具体的には、イベントの光強度の特徴情報を符号化する)ために使用される。帯域幅制限を満足する光強度の特徴情報のビット幅(以下では、ビット幅、又は光強度の特徴情報を表すビット幅と呼ばれる)は、複数の方法で決定されてよい。以下は、いくつかの実施を参照して記載される。
いくつかの可能な実施形態で、光強度の特徴情報を表す最適なビット幅は、ビット幅を減少させる方法で決定されてよい。図22に示されるように、初期状態で、第1符号化部1907は、まず最大ビット幅Bに基づいてイベントを符号化し、制御回路1906は、読み出し回路1905によって供給される単位時間内のデータに基づいて、イベント発生率が帯域幅制限を超えるかどうかを計算する。発生率が帯域幅を超える場合に、量子化精度が徐々に下げられる、言い換えると、光強度の特徴情報のビット幅が徐々に減少する。例えば、光強度の特徴情報を表すビット幅は(B-1)に調整され、ビット幅が(B-1)であるときにイベント発生率が帯域幅を超えるかどうか、ビット幅が(B-2)であるときにイベント発生率が帯域幅を超えるかどうか、及びビット幅が(B-n)であるときにイベント発生率が帯域幅を超えるかどうかが決定され、nは正の整数である。制御回路1906は、調整された推定イベント発生率を帯域幅と比較する。発生率が帯域幅制限を満足する(つまり、帯域幅以下である)場合に、制御回路1906は、現在のレベルのビット幅を使用することによってイベントを符号化するよう第1符号化部1907を制御する。例えば、イベント発生率は、光強度の特徴情報を表すビット幅が(B-1)であるときに帯域幅制限を超えることが決定される。この場合に、イベントは、(B-1)を使用することによって符号化される。この実施形態をより良く理解するために、以下では、一例が記載される。最大ビット幅Bが12ビットであることが仮定され、具体的に言えば、最大でたった12ビットしかイベントを符号化するために使用され得ないことが予め定められる。帯域幅が3000bpsに制限され(最大3000ビットが毎秒伝送されることを許される)、言い換えると、前もってセットされた最大帯域幅は3000bpsである、ことが仮定される。実際のシナリオでは、100のイベントが1秒目に生成され、300のイベントが2秒目に生成され、400のイベントが3秒目に生成され、180のイベントが4秒目に生成される、ことが仮定される。
従来技術のランダム破棄の解決法が使用される場合に、次の場合が起こる可能性がある。
1秒目:100個のイベントが伝送され、0個のイベントが失われ、イベント損失率は0である。ビジョンセンサは全部で1200ビットを伝送する。
2秒目:250個のイベントが伝送され、50個のイベントが失われ、イベント損失率は16.7%である。ビジョンセンサは全部で3000ビットを伝送する。
3秒目:250個のイベントが伝送され、150個のイベントが失われ、イベント損失率は37.5%である。ビジョンセンサは全部で3000ビットを伝送する。
4秒目:180個のイベントが伝送され、0個のイベントが失われ、イベント損失率は0である。ビジョンセンサは全部2160ビットを伝送する。
この解決法では、200個のイベントが失われ、9360ビットが全部で伝送され、損失率は20.4%である。
本願で提供される解決法が使用される場合に、光強度の特徴情報を表すビット幅は動的に調整され、光強度の特徴情報を表す最適なビット幅は、ビット幅を減少させる方法で決定され、イベント損失率は有効に小さくされ得る。これについては、上記の例を参照して引き続き記載される。上述されたように、パラメータsは、イベントの数を符号化するために使用されるs個のビットを表し、パラメータiは、光強度の特徴情報のビット幅を符号化するために使用されるi個のビットを表す。最大ビット幅Bは12ビットであるから、ビット幅のサイズは
ビットのみによって表され得る。ここで、
は、切り上げを表す。すなわち、iの最大値は4になる。更に、sはここでは32であると、具体的に言えば、32ビットがイベントの数を符号化するために使用されると仮定される。
この場合に、本願で提供される、光強度の特徴情報を表すビット幅を動的に調整する解決法が、使用される場合に、イベント損失率は低減され得る。
1秒目:100個のイベントが生成され、最初に、最大ビット幅Bに基づいて計算が行われる。すなわち、イベント発生率は100×12bpsであり、対応するデータ量は3000ビット未満であり、帯域幅制限を超えない。その上、イベントの数100及びビット幅のサイズ12(4ビット)が伝送されるべきである。その場合に、100個のイベントが伝送され、各イベントは12ビットに基づいて符号化され、32+4+100×12=1236ビットが全部で伝送される必要がある。
2秒目:12ビットの最大ビット幅に基づいて最初に計算されるイベント発生率は300×12bpsであり、対応するデータ量は3000ビットよりも多く、帯域幅制限を超える。イベントが依然として最大ビット幅に基づいて符号化される場合に、イベント損失が起こる。この場合に、ビット幅は減少し、コンピュータによって11ビットに基づいて計算されるイベント発生率は300×11bpsであり、対応するデータ量は3000ビットよりも多く、依然として帯域幅制限を超える。この場合に、ビット幅は引き続き減少し、10ビットに基づいて計算されるイベント発生率は300×10=3000bpsである。イベントの数に対応する32ビット及びビット幅のサイズに対応する4ビットも伝送されるべきであることを考慮して、帯域幅は依然として全体として超えられている。この場合に、ビット幅は引き続き減少し、9ビットに基づいて計算されるイベント発生率は300×9=2700pbsである。イベントの数に対応する32ビット及びビット幅に対応する4ビットを考慮して、帯域幅制限は未だ超えられていない。従って、最適なビット幅は9ビットであると決定される。この場合に、制御回路は、9ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。更に、イベントの数300(32ビット)及びビット幅のサイズ9(4ビット)も伝送されるべきである。その場合に、300個のイベントが伝送され、各イベントは9ビットに基づいて符号化され、32+4+300×9=2736ビットが全部で伝送される必要がある。
3秒目:12ビットの最大ビット幅に基づいて最初に計算されるイベント発生率は400×12bpsであり、3000ビットよりも多く、帯域幅制限を超える。この場合に、ビット幅は減少し、11ビットに基づいて計算されるイベント発生率は400×11bpsであり、対応するデータ量は3000ビットよりも多く、依然として帯域幅制限を超える。10ビットに基づいて計算されるイベント発生率は400×10bpsであり、対応するデータ量は3000ビットよりも多く、依然として帯域幅制限を超える。9ビットに基づいて計算されるイベント発生率は400×9pbsであり、対応するデータ量は3000ビットよりも多く、依然として帯域幅制限を超える。8ビットに基づいて計算されるイベント発生率は400×8pbsであり、対応するデータ量は3000ビットよりも多く、依然として帯域幅制限を超える。7ビットに基づいて計算されるイベント発生率は400×7=2800pbsである。従って、最適なビット幅は7ビットであると決定される。この場合に、制御回路は、7ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。更に、イベントの数400(32ビット)及びビット幅のサイズ7(4ビット)も伝送されるべきである。その場合に、400個のイベントが伝送され、各イベントは7ビットに基づいて符号化され、32+4+400×7=2836ビットが全部で伝送される必要があり、言い換えると、イベント発生率は2836bpsである。
4秒目:12ビットの最大ビット幅に基づいて最初に計算されるイベント発生率は180×12=2160bpsであり、帯域幅制限を超えない。この場合に、制御回路は、12ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。32+4+180×12=2196ビットが全部で伝送される必要がある。
本願で提供される、光強度の特徴情報を表すビット幅を動的に調整する解決法に従って、上記の例では、失われるイベントは0個であり、全部でたった9004ビットしか伝送されず、データ量は更に3.8%だけ減り、各イベントは異なる精度で伝送され得る。イベント喪失が考慮されず、各イベントが12ビットに基づいて符号化される解決法でのrawデータの量と比較して、この解決法では、データ量は23.4%だけ削減され得る。
上記の例では、制御回路は、1秒ごとに最大ビット幅に基づいてイベント発生率を計算し、帯域幅制限が満足されない場合には、最大ビット幅は、帯域幅制限を満足するよう減少する。このようにして、イベントが失われない場合に、全てのイベントが最大表現精度で伝送されることが常に確保され得る。いくつかの可能な実施形態で、イベント発生率は、1秒ごとに現在のビット幅に基づいて計算されてよく、帯域幅制限が満足されない場合に、現在のビット幅は、帯域幅制限を満足するよう減り、あるいは、帯域幅制限が満足される場合に、帯域幅は、帯域幅制限が満足されることが確かにされるときには増やされてもよい。このようにして、全てのイベントは最大表現精度で伝送される。これについては、上記の例を参照して以下で更に記載される。
1秒目:100個のイベントが生成され、最初に、最大ビット幅Bに基づいて計算が行われる。すなわち、イベント発生率は100×12bpsであり、対応するデータ量は3000ビット未満であり、帯域幅制限を超えない。その上、イベントの数100(32ビット)及びビット幅のサイズ12(4ビット)が伝送されるべきである。その場合に、100個のイベントが伝送され、各イベントは12ビットに基づいて符号化され、32+4+100×12=1236ビットが全部で伝送される必要がある。
2秒目:現在のビット幅に基づいて最初に計算されるイベント発生率、つまり、12ビットの最大ビット幅に基づいて計算されるイベント発生率は300×12bpsであり、3000ビットよりも多く、帯域幅制限を超える。イベントが依然として12ビットに基づいて符号化される場合に、イベント損失が起こる。この場合に、ビット幅は減少し、コンピュータによって11ビットに基づいて計算されるイベント発生率は300×11bpsであり、3000ビットよりも多く、依然として帯域幅制限を超える。この場合に、ビット幅は引き続き減少し、10ビットに基づいて計算されるイベント発生率は300×10=3000bpsである。イベントの数に対応する32ビット及びビット幅のサイズに対応する4ビットも伝送されるべきであることを考慮して、帯域幅は依然として全体として超えられている。この場合に、ビット幅は引き続き減少し、9ビットに基づいて計算されるイベント発生率は300×9=2700pbsである。イベントの数に対応する32ビット及びビット幅に対応する4ビットを考慮して、帯域幅制限は未だ超えられていない。従って、最適なビット幅は9ビットであると決定される。この場合に、制御回路は、9ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。更に、イベントの数300(32ビット)及びビット幅のサイズ9(4ビット)も伝送されるべきである。その場合に、300個のイベントが伝送され、各イベントは9ビットに基づいて符号化され、32+4+300×9=2736ビットが全部で伝送される必要がある。
3秒目:現在のビット幅に基づいて最初に計算されるイベント発生率、つまり、9ビットに基づいて計算されるイベント発生率は400×9pbsであり、3000ビットよりも多く、帯域幅制限を超える。8ビットに基づいて計算されるイベント発生率は400×8pbsであり、3000ビットよりも多く、依然として帯域幅制限を超える。7ビットに基づいて計算されるイベント発生率は400×7=2800pbsである。従って、最適なビット幅は7ビットであると決定される。この場合に、制御回路は、7ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。更に、イベントの数400(32ビット)及びビット幅のサイズ7(4ビット)も伝送されるべきである。その場合に、300個のイベントが伝送され、各イベントは7ビットに基づいて符号化され、32+4+400×7=2836ビットが全部で伝送される必要があり、言い換えると、イベント発生率は2836bpsである。
4秒目:現在のビット幅に基づいて最初に計算されるイベント発生率、つまり、7ビットに基づいて最初に計算されるイベント発生率は180×7bpsであり、3000ビットに満たない。伝送される必要があるイベントの数に対応する32ビット及びビット幅のサイズに対応する4ビットを考慮して、帯域幅制限は未だ全体として超えられていない。この場合に、ビット幅は増え、8ビットに基づいて計算されるイベント発生率は180×8bpsであり、3000ビット未満であり、依然として全体として帯域幅制限を超えていない。この場合に、帯域幅は引き続き増え、9ビットに基づいて計算されるイベント発生率は180×9bpsであり、3000ビット未満であり、依然として全体として帯域幅制限を超えていない。この場合に、帯域幅は引き続き増え、10ビットに基づいて計算されるイベント発生率は180×10bpsであり、3000ビット未満であり、依然として全体として帯域幅制限を超えていない。この場合に、帯域幅は引き続き増え、11ビットに基づいて計算されるイベント発生率は180×11bpsであり、3000ビット未満であり、依然として全体として帯域幅制限を超えていない。この場合に、帯域幅は引き続き増え、12ビットに基づいて計算されるイベント発生率は180×12=2160bpsであり、帯域幅制限を超えない。12ビットは既に最大ビット幅であるから、最適なビット幅は12ビットと決定され、制御回路は、12ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。32+4+180×12=2196ビットが全部で伝送される必要がある。
光強度の特徴情報を表し、帯域幅制限を満足するビット幅は、上述されたビット幅を減少させる方法において、光強度の特徴情報を表すビット幅を動的に調整することによって、決定され得るか、あるいは、他の方法で決定されてもよい。以下は引き続き、いくつかの実施を参照して記載する。
いくつかの可能な実施形態で、光強度の特徴情報を表し、帯域幅制限を満足するビット幅は、二分探索法に従って更に決定されてもよい。3秒目に生成される400個のイベントの例が記載のために使用される。最初に、1つのイベントは12ビットに基づいて符号化され、制御回路は、イベント発生率が400×12bpsであり、3000ビットよりも多いと決定する。次いで、12ビットの半分、つまり6ビットに基づいて計算されるイベント発生率は、400×6bpsであり、3000ビット未満であり、帯域幅制限を超えない。この場合に、12ビットと6ビットとの中点、つまり9ビットに基づいて計算されるイベント発生率は、400×9bpsであり、3000ビットよりも多く、依然として帯域幅制限を超えている。この場合に、9ビットと6ビットとの中点、つまり8ビットに基づいて計算されるイベント発生率は、400×8bpsであり、3000ビットよりも多く、依然として帯域幅制限を超えている。この場合に、8ビットと6ビットとの中点、つまり7ビットに基づいて計算されるイベント発生率は、400×7bpsであり、3000ビット未満であり、帯域幅制限よりも小さい。8ビットに対応するイベント発生率は帯域幅制限を超えており、6ビット及び7ビットに対応するイベント発生率は両方とも帯域幅制限を超えていないので、量子化精度が高い方の7ビットがイベントを符号化するために使用される。上記のプロセスでは、たった5回の比較しか必要とされず、アルゴリズム複雑度はO(logB)である。
いくつかの可能な実施形態では、光強度の特徴情報を表し、帯域幅制限を満足するビット幅を決定するために、近似値推定が使用されてもよい。例えば、全部で400個のイベントが3秒目で生成され、帯域幅制限は3000bpsである。この場合に、大まかな計算により、各イベントのビット幅は、
ビットを超えることができないことが分かる。ここで、
は、切り下げを表す。制御回路は、7ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。
光強度の特徴情報を表すビット幅を動的に調整する解決法では、イベントの発生率が比較的に小さく、帯域幅制限に届かない場合に、イベントは、イベントを符号化するために、最大ビット幅に基づいて量子化され、イベントの発生率が比較的に大きい場合には、光強度の特徴情報を表すビット幅は、帯域幅制限を満足するように漸進的に小さくされ、その後に、イベントの発生率がより小さくなる場合に、光強度の特徴情報を表すビット幅は、帯域幅制限が超えられないときには増やされてもよい。
いくつかの実施形態で、ピクセルアレイは領域に更に分割されてもよく、異なる領域の最大ビット幅は、シナリオにおいて関心がある異なる領域に適応するよう異なる重みを使用することによってセットされる。例えば、より大きい重みは、ターゲットオブジェクトを含む可能性がある領域でセットされ、それにより、ターゲットオブジェクトを含む領域によって然るべく出力されるイベントの表現精度は高くなり、より小さい重みは背景領域でセットされ、それにより、背景領域によって然るべく出力されるイベントの表現精度は低くなる。以下は、具体的な実施形態を参照して記載する。
図23は、本願に係る他の視覚センサのブロック図である。ビジョンセンサにおいて、領域分割がピクセルアレイ回路に対して行われ、異なる領域は異なる符号化スキームを使用し、言い換えると、異なる領域によって出力されるイベントの表現精度は異なる。図23に示されるように、2つのピクセル回路が記載のために一例として使用される。ピクセル回路1900は、ビジョンセンサのピクセルアレイ回路の第1領域内のピクセル回路であり、ピクセル回路2100は、ピクセルアレイ回路の第2領域内のピクセル回路である。第1領域及び第2領域は、ピクセルアレイ回路内の2つの異なる領域であり、第1領域及び第2領域で出力される時間の表現精度は異なる。
読み出し回路2105は、ピクセル回路1900によって生成されたデータ信号と、ピクセル回路2100によって生成されたデータ信号とを読み出し、第1符号化部1907によって出力された符号化されたデータ信号を制御回路2106へ送信し、第2符号化部2107によって出力された符号化されたデータ信号を制御回路2106へ送信するよう別々に構成されてよい。制御回路2106は、読み出し回路によって送信されたデータに基づいて、第1符号化部1907によってイベントを符号化するために使用されるビットの数と、第2符号化部2107によってイベントを符号化するために使用されるビットの数とを別々に制御してよい。すなわち、制御回路2106は、ピクセル回路1900及びピクセル回路2100によって出力されるイベントの表現精度を別々に制御してよい。
光強度検出部2101、閾値比較部2102、読み出し制御部2103、光強度捕捉部2104、及び第2符号化部2107については、理解のために、夫々、光強度検出部1901、閾値比較部1902、読み出し制御部1903、光強度捕捉部1904、及び第1符号化部1907を参照されたい。詳細はここで再び記載されない。
以下は、具体例を参照して、制御回路が異なる領域で異なる符号化スキームを使用するようピクセルアレイ回路を制御する場合について記載する。図24は、ピクセルアレイに対して実行される領域分割の模式図である。図24を参照されたい。ピクセルアレイは、6つの領域:領域A、領域B、領域C、領域D、領域E、及び領域Fに分割される。異なる領域に対しては異なる重みがセットされてよい。例えば、ターゲットオブジェクトを含む可能性がある領域には、より大きい重みがセットされ、背景領域には、より小さい重みがセットされる。例えば、図24では、領域D、領域E、及び領域Fには、より大きい重みがセットされ、領域A、領域B、及び領域Cには、より小さい重みがセットされる。具体的に、領域Aの重みは0.05であり、領域Bの重みは0.1であり、領域Cの重みは0.05であり、領域Dの重みは0.2であり、領域Eの重みは0.4であり、領域Fの重みは0.2である。例えば、最大ビット幅が12ビットである場合に、12ビットの最大ビット幅が、最大の重みを有する領域Eに対してセットされる。それに応じて、各領域の重みに基づいて、領域Aにセットされる最大ビット幅は2ビットであり、領域Bにセットされる最大ビット幅は3ビットであり、領域Cにセットされる最大ビット幅は2ビットであり、領域Dにセットされる最大ビット幅は6ビットであり、領域Fにセットされる最大ビット幅は6ビットである。図24では、6つの領域に分割されたピクセルアレイ及び各領域にセットされた重みは、説明のためであり、解決法に対する制限を表すものではないことが留意されるべきである。実際に、要件に基づいて、異なる数の領域への分割が実行されてもよく、異なる最大ビット幅が異なる領域に対してセットされてよい。制御回路が各領域に対応する最適なビット幅を決定する方法は、制御回路がピクセル回路1900に対応する最適なビット幅を決定する方法と同じである。ビット幅を減少させる方法、二分探索法、近似値推定法、などが使用されてよい。例えば、以下は、ビット幅を減少させる方法で更なる説明及び記載を与える。
帯域幅制限は3000bpsであると仮定される。ピクセルアレイは領域に分割され、各領域に割り当てられる帯域幅も異なるので、上記の例が記載のために依然として使用される。領域Aの重みは0.05であり、領域Aに割り当てられる帯域幅は3000×0.05=150bpsである。領域Bの重みは0.1であり、領域Bに割り当てられる帯域幅は3000×0.1=300bpsである。領域Cの重みは0.05であり、領域Cに割り当てられる帯域幅は3000×0.05=150bpsである。領域Dの重みは0.2であり、領域Dに割り当てられる帯域幅は3000×0.2=600bpsである。領域Eの重みは0.4であり、領域Eに割り当てられる帯域幅は3000×0.4=1200bpsである。領域Fの重みは0.2であり、領域Fに割り当てられる帯域幅は3000×0.2=600bpsである。1秒で、領域Aでは50個のイベントが生成され、領域Bでは80個のイベントが生成され、領域Cでは60個のイベントが生成され、領域Dでは90個のイベントが生成され、領域Eでは100個のイベントが生成され、領域Fでは80個のイベントが生成されると仮定される。
領域A:領域Aについては、制御回路はまず、領域Aの最大ビット幅2ビットに基づいて、イベント発生率が50×2bpsであり、150pbs未満であると決定する。伝送される必要があるイベントの数に対応する32ビット及びビット幅のサイズに4ビットを考慮して、帯域幅制限は依然として超えられていない。従って、制御回路は、領域Aに対応する符号化部を、2ビットを使用することによってイベントを符号化するよう制御する。例えば、ピクセル回路1900が領域Aのピクセル回路であり、制御回路2106は、2ビットを使用することによってイベントを符号化するよう第1符号化部1907を制御する。32+4+50×2=136ビットが全部で領域Aにおいて伝送される必要がある。
領域B:領域Bについては、制御回路はまず、領域Bの最大ビット幅3ビットに基づいて、イベント発生率が80×3bpsであり、300pbs未満であると決定する。伝送される必要があるイベントの数に対応する32ビット及びビット幅のサイズに4ビットを考慮して、帯域幅制限は依然として超えられていない。従って、制御回路は、領域Bに対応する符号化部を、3ビットを使用することによってイベントを符号化するよう制御する。例えば、ピクセル回路2100が領域Bのピクセル回路であり、制御回路2106は、3ビットを使用することによってイベントを符号化するよう第2符号化部2107を制御する。32+4+80×3=276ビットが全部で領域Bにおいて伝送される必要がある。
領域C:領域Cについては、制御回路はまず、領域Cの最大ビット幅2ビットに基づいて、イベント発生率が60×2bpsであり、150pbs未満であると決定する。伝送される必要があるイベントの数に対応する32ビット及びビット幅のサイズに4ビットを考慮して、帯域幅制限は超えられる。従って、制御回路は、領域Cに対応する符号化部を、1ビットを使用することによってイベントを符号化するよう制御する。32+4+60×1=96ビットが全部で領域Cにおいて伝送される必要がある。
領域D:帯域幅は3000×0.2=600pbsであり、符号化は6ビットに基づいて実行される。32+4+90×6=576ビットが全部で領域Dにおいて伝送される必要がある。
領域E:帯域幅は3000×0.4=1200pbsである。符号化が12ビットに基づいて実行される場合に、帯域幅制限は超えられる。この場合に、符号化は11ビットに基づいて実行される。32+4+100×11=1136ビットが全部で領域Eにおいて伝送される必要がある。
領域F:帯域幅は3000×0.2=600pbsであり、符号化は6ビットに基づいて実行される。32+4+80×6=516ビットが全部で領域Fにおいて伝送される必要がある。
まとめると、1秒に伝送されるビットの総数は2735ビットである。イベント損失が考慮されず、各イベントが12ビットに基づいて符号化される解決法でのrawデータの量と比較して、データ量は50.4%だけ削減され得る。
図25は、本願の実施形態に係る制御回路の可能なブロック図である。制御回路は、図21及び図23の制御回路1906などを実装するよう構成されてよい。図25に示されるように、制御回路は、少なくとも1つのプロセッサ2301、プロセッサ2301に結合されている少なくとも1つのメモリ2302、及びプロセッサ2301に結合されている通信メカニズム2303を含む。メモリ2302は、少なくとも、コンピュータプログラムと、読み出し回路から取得されたデータ信号とを記憶するよう構成される。制御回路は、ビジョンセンサの読み出し回路2105又はビジョンセンサの外の読み出し回路、図21及び図23に示される第1符号化部1907及び第2符号化部2109へ通信メカニズム2302を通じて通信可能に結合されて、読み出し回路、第1符号化部、及び第2符号化部に対する制御機能を実装してよい。メモリ2302に記憶されているコンピュータプログラムを読み出した後、プロセッサは、図21乃至図24に記載されている制御回路によって実行される動作を実行する。
図25に示される制御回路は、事前設定されている統計モデル231及びポリシーモジュール232を更に含んでもよいことが留意されるべきである。過去の統計値の収集が、ある期間に(例えば、単位時間に)ピクセルアレイ回路によって生成されて読み出し回路2105によって供給される光強度変化イベントに対して実行される。統計モデル231は、次いで、統計データをポリシーモジュール232へ送信してよい。統計データは、光強度変化イベントの数を示すことができ、あるいは、光強度変化イベントの総データ量を示すことができる。
いくつかの実施形態で、プロセッサは、複数の統計モデル及び複数の統計モデルに対応するポリシーモジュールを含んでもよい。例えば、図25に示される制御回路は、図8に示される制御回路と組み合わされてよい。例えば、いくつかの実施形態で、制御回路のプロセッサは、統計モデル606、ポリシーモジュール608,統計モデル231、及びポリシーモジュール232を含んでもよい。
図26は、本願の実施形態に係る電子デバイスの可能なブロック図である。図26に示されるように、電子デバイスは、ビジョンセンサチップ2400、制御回路2401、及びパーシング回路2402を含む。電子デバイスは、例示を目的として使用され、現在知られている様々なセンサデバイス及び将来開発される様々なセンサデバイスを含む如何なる適切なデバイスによっても実施されてよいことが理解されるべきである。本願の実施形態は、異なるセンサシステムで更に具現化されてもよい。更に、電子デバイスは、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよいことが更に理解されるべきである。しかし、それは、本願の実施形態がそれらの要素、モジュール、又はエンティティを備えないことを意味しているわけではない。
ビジョンセンサチップ2400及び制御回路2401については、理解のために、図21乃至図25に記載されるビジョンセンサ及び制御回路を参照されたい。詳細はここで再び記載されない。パーシング回路2402は、ビジョンセンサチップ2400内にある読み出し回路によって読み出されたデータ信号をパースするよう構成されてよい。本願の可能な実施形態で、パーシング回路2402は、ビジョンセンサチップ2400によって現在使用されているデータのビット幅に適応するビット幅を使用することによって、ビジョンセンサによって送信されるデータ信号をパースしてよい。ビジョンセンサチップによって送信されるデータ信号をパーシング回路がどのようにパースするかをより良く理解するために、以下は、2つの具体例を参照して記載する。
例は上述されたとおりである。最大ビット幅Bは12ビットであり、帯域幅は3000bpsに制限され(最大3000ビットが毎秒伝送されることを許される)、32ビットがイベントの数を符号化するために使用され、4ビットが、光強度の特徴情報を表すビット幅を符号化するために使用される、ことが仮定される。ビジョンセンサは、1秒目に100個のイベントを生成し、2秒目に300個のイベントを生成し、3秒目に400個のイベントを生成し、4秒目に180個のイベントを生成する。本願で提供される解決法に従って、1秒目では、イベントは12ビットを使用することによって符号化され、2秒目では、イベントは9ビットを使用することによって符号化され、3秒目では、イベントは7ビットを使用することによって符号化され、4秒目では、イベントは12ビットを使用することによって符号化される。この例を参照して、以下は引き続き、ビジョンセンサチップによって送信されるデータ信号をパーシング回路がどのようにパースするかについて記載する。
ビジョンセンサチップによって出力されるデータはバイナリデータストリームであってよい。バイナリデータストリームは、イベントの数、ビット幅、及び符号化された各イベントを夫々表す3つの部分を含んでよい。図27は、バイナリデータストリームの模式図である。ビジョンセンサチップによって出力されるバイナリデータストリームの最初のs個のビットは、イベントの数を表す。例えば、上記の例では、sは32である。この場合に、パーシング回路は、バイナリデータストリームの最初の32ビットを読み出して、パーシングを通じてイベントの数を得ることができる。1秒目に対応するバイナリデータストリームの最初の32ビットをパースすることによって、パーシング回路は、パーシングを通じて、1秒目でのイベントの数が100であることを知り得る。次いで、パーシング回路は、i個のビットをパースして、光強度の特徴情報を表すビット幅を取得する。上記の例では、iは4である。1秒目に対応するバイナリデータストリームの対応する位置にある4ビットをパースすることによって、パーシング回路は、パーシングを通じて、1秒目での光強度の特徴情報を表すビット幅が12ビットであること、つまり、1つのイベントが1秒目では12ビットに基づいて表されることを取得し、次いで、順次、パーシングを通じて12ビットに基づいて、1秒目に対応するバイナリデータストリームから100個のイベントを取得し得る。
1秒目でのパーシングプロセスと同様に、2秒目に対応するバイナリデータストリームの最初の32ビットをパースすることによって、パーシング回路は、パーシングを通じて、2秒目でのイベントの数が300であることを知り、次いで、4ビットを読み出して、パーシングを通じて、ビット幅が9ビットであることを知り、最終的に、順次、パーシングを通じて9ビットに基づいて300個のイベントを取得し得る。3秒目に対応するバイナリデータストリームの最初の32ビットをパースすることによって、パーシング回路は、パーシングを通じて、3秒目でのイベントの数が400であることを知り、次いで、4ビットを読み出して、パーシングを通じて、ビット幅が7ビットであることを知り、最終的に、順次、パーシングを通じて7ビットに基づいて400個のイベントを取得し得る。4秒目に対応するバイナリデータストリームの最初の32ビットをパースすることによって、パーシング回路は、パーシングを通じて、4秒目でのイベントの数が180であることを知り、次いで、4ビットを読み出して、パーシングを通じて、ビット幅が12ビットであることを知り、最終的に、順次、パーシングを通じて12ビットに基づいて180個のイベントを取得し得る。
いくつかの可能な実施形態で、イベントストリームに基づいた読み出しモードにおいて、各イベントは<x,y,t,m>として表され、(x,y)は、イベントが生成されるピクセル位置を表し、tは、イベントが生成される時間を表し、mは、光強度の特徴情報を表す。xがbx個のビットによって表され、yがby個のビットによって表され、tがbt個のビットによって表され、mが、光強度の特徴情報を表すビット幅である、ことが仮定される。相応して、初期状態で、パーシング回路は、パーシングを通じて、ピクセルの座標xを示す最初のbx個のビットと、ピクセルの座標yを示す次のby個のビットと、読み出し時間を示す後続のbt個のビットと、イベントの数を表す続くs個のビットと、光強度の特徴情報を表すビット幅を表す最後のi個のビットとを取得し得る。次いで、パーシング回路は、i個のビットによって示されているビット幅に基づいてパーシングを通じてイベントを取得し、具体的に、パーシングを通じてイベントの光強度の特徴情報を取得する。
いくつかの可能な実施形態で、異なる符号化スキームがピクセルアレイ回路の異なる領域で使用される場合に、領域ごとに、データ信号は、領域に対応し光強度の特徴情報を表すビット幅を使用することによって、パースされる。例は上記の図24でのたられており、以下は、引き続きその例を参照して記載する。領域Aについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が50であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが2であることを知る。次いで、パーシング回路は、順次、イベントごとに2ビットに基づいて、パーシングを通じて50個のイベントを取得する。領域Bについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が80であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが3であることを知る。次いで、パーシング回路は、順次、イベントごとに3ビットに基づいて、パーシングを通じて80個のイベントを取得する。領域Cについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が60であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが1であることを知る。次いで、パーシング回路は、順次、イベントごとに1ビットに基づいて、パーシングを通じて60個のイベントを取得する。領域Dについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が90であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが6であることを知る。次いで、パーシング回路は、順次、イベントごとに6ビットに基づいて、パーシングを通じて90個のイベントを取得する。領域Eについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が100であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが11であることを知る。次いで、パーシング回路は、順次、イベントごとに11ビットに基づいて、パーシングを通じて100個のイベントを取得する。
可能な実施において、パーシング回路2400は、ビジョンセンサチップ2400の制御ポリシーと同じ制御ポリシーを使用することによって、読み出し回路の現在のイベント表現方式に適応したパーシングモードを決定し得る。一例では、イベントがビジョンセンサチップ2400の初期状態でR個のビットによって表される場合に、パーシング回路は、それに応じて、当該表現方式に関連するビットの数(例えば、初期状態でR)に基づいてイベントをパースする。ビジョンセンサが、伝送される必要があるデータの量と、ビジョンセンサの前もってセットされた最大帯域幅とに基づいて、イベント表現方式を調整する場合には、パーシング回路2400は、ビジョンセンサの調整ポリシーと同じ調整ポリシーに従って、関連するビットの数に基づいてイベントをパースすると決定する。
本願の実施形態は、ビジョンセンサチップの作動方法を更に提供する。図28は、本願の実施形態に係るビジョンセンサチップの作動方法の可能なフローチャートである。方法は、次のステップを含み得る。
2601:光強度の変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成する。
ピクセルアレイ回路は、光強度の変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成し、少なくとも1つのデータ信号は光強度変化イベントを示し、光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度の変化が所定の閾値を超えることを示す。
ステップ2601については、理解のために、図20に対応する実施形態のステップ1801を参照されたく、詳細はここで再び記載されない。
2602:第1ビットに基づいて少なくとも1つのデータ信号を符号化して、第1符号化データを取得する。
第1符号化部は、第1ビットに基づいて少なくとも1つのデータ信号を符号化して、第1符号化データを取得するよう構成される。第1符号化部については、理解のために、図21の第1符号化部1907によって実行されるステップを参照されたい。
2603:制御回路から第1制御信号を受信すると、第1制御信号によって示される第2ビットに基づいて少なくとも1つのデータ信号を符号化し、このとき、第1制御信号は、第1符号化データに基づいて制御回路によって決定される。
制御回路から第1制御信号を受信する場合に、第1符号化部は、第1制御信号によって示される第2ビットに基づいて少なくとも1つのデータ信号を符号化し、このとき、第1制御信号は、第1符号化データに基づいて制御回路によって決定される。
第1符号化部については、理解のために、図21の第1符号化部1907によって実行されるステップを参照されたい。
いくつかの可能な実施形態で、制御信号は、第1符号化データ及びビジョンセンサチップの前もってセットされた帯域幅に基づいて制御回路によって決定される。
いくつかの可能な実施形態で、第1符号化データのデータ量が帯域幅以上である場合に、制御信号によって示される第2ビットは第1ビットよりも小さく、それにより、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量は帯域幅以下である。
いくつかの可能な実施形態で、第1符号化データのデータ量が帯域幅以下である場合に、制御信号によって示される第2ビットは第1ビットよりも大きく、それにより、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量は帯域幅以下である。
いくつかの可能な実施形態で、ピクセルアレイはY個の領域を含んでよく、Y個の領域のうちの少なくとも2つは異なる最大ビットを有し、最大ビットは、1つの領域で生成された少なくとも1つのデータ信号を符号化するための前もってセットされた最大ビットを示す。第1符号化部は、第1領域で生成された少なくとも1つのデータ信号を第1ビットに基づいて符号化して、第1符号化データを取得するよう特に構成され、このとき、第1ビットは、第1領域の最大ビット以下であり、第1領域は、Y個の領域のうちのいずれか1つである。第1符号化部は、制御回路から第1制御信号を受信する場合に、第1制御信号によって示される第2ビットに基づいて、第1領域で生成された少なくとも1つのデータ信号を符号化するよう特に構成され、このとき、第1制御信号は、第1符号化データに基づいて制御回路によって決定される。
いくつかの可能な実施形態で、制御回路は、第3ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量が帯域幅よりも大きく、第2ビットに基づいて符号化された少なくとも1つのデータ信号の総データ量が帯域幅以下であると決定する場合に、第1制御信号を第1符号化部へ送信するよう更に構成され、このとき、第3ビットと第2ビットの間の差は1ビット単位である。これは、帯域幅制限が満足される場合に、イベントがより大きいビットに基づいて符号化され、全てのイベントが可能な限り多く伝送されることを確かにする。
帯域幅制限が満足される場合にビジョンセンサによって生成された全てのイベントを伝送するために、上記の解決法では、イベント表現の精度は調整され、全てのイベントは、帯域幅制限が満足される場合に、より高い表現精度で伝送される。しかし、イベント表現精度が下げられる、言い換えると、イベントを表すビット幅が低減される場合に、当該イベントによって運ばれ得る情報の量は低減され、これは、いくつかのシナリオでのイベント処理及び解析にとって好ましくない。従って、イベント表現精度を下げる方法は、全てのシナリオに適用されるわけではない。言い換えると、いくつかのシナリオでは、イベントは、高ビットのビット幅を用いて表現される必要がある。しかし、上述されたように、高ビットのビット幅によって表されるイベントはより多くのデータを運び得るが、データの量も相対的に多い。ビジョンセンサの前もってセットされた最大帯域幅が固定されている場合に、イベントデータは読み出されないことがあり、その結果、データロスが起こる。この問題を解決するために、本願の実施形態は、以下で具体的に記載されるビジョンセンサを更に提供する。
図29-aは、本願に係る他の視覚センサのブロック図である。本願のビジョンセンサは、ビジョンセンサチップとして実装されてよい。詳細はここで再び記載されない。図29-aに示されるように、ビジョンセンサはピクセルアレイ回路2701及び読み出し回路2702を含む。読み出し回路2702は、ピクセルアレイ回路2701によって出力されたデータ信号を読み出し、データ信号を第3符号化部2703へ送信してよく、それにより、第3符号化部2703は、取得したデータ信号を符号化する。第3符号化部2703が取得したデータ信号を符号化する方法は、以下で記載される。第3符号化部2703によって符号化されたデータ信号は、ビジョンセンサの外へ読み出されてよい。
いくつかの可能な実施形態で、第3符号化部2703は、ビジョンセンサの外に配置されてよい。図29-bは、本願の実施形態に係る他のビジョンセンサのブロック図である。図29-bに示されるように、ビジョンセンサ2800は第3符号化部2703を更に含む。第3符号化部2703は、ソフトウェアによって実施されてよく、又はハードウェアによって実施されてよい。これは本願のこの実施形態に制限されない。
いくつかの可能な実施形態で、ビジョンセンサは制御回路を更に含んでもよい。図29-cは、本願の実施形態に係る他のビジョンセンサのブロック図である。図29-cに示されるように、ビジョンセンサ2900は制御回路2704を更に含む。制御回路2704は、データ信号を読み出すよう読み出し回路2702を制御するモードにあるよう構成されてよい。例えば、読み出し回路905は、第1読み出しモード及び第2読み出しモードの一方で読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードの一方に対応し、第2読み出しモードは他方のモードに対応する。制御回路2704はビジョンセンサ内に配置されなくてもよいことが留意されるべきである。更に、いくつかの他の実施形態で、読み出し回路2704は、代替的に、ただ1つの信号読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出してもよい。例えば、読み出し回路2704は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路2704は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。
上述されたように、各ピクセルアレイ回路は1つ以上のピクセルアレイを含んでよく、各ピクセルアレイは複数のピクセルを含む。各ピクセルは1つのピクセル回路と見なされてよく、各ピクセル回路は、ピクセルに対応するデータ信号を生成するよう構成される。図30は、本願の実施形態に係る他のピクセル回路の模式図である。ピクセル回路3000は、光強度検出部3001、閾値比較部3002、読み出し制御部3003、及び光強度捕捉部3004を含む。
光強度捕捉部3001は、取得した光信号を電気信号に変換するよう構成される。光強度検出部3001については、理解のために、図11に対応する実施形態の光強度検出部901を参照されたく、詳細はここで再び記載されない。
閾値比較部3002は、第1電気信号が第1目標閾値よりも大きいかどうか、又は第1電気信号が第2目標閾値よりも小さいかどうかを決定するよう構成される。第1電気信号は、光強度捕捉部によって現在出力されている電気信号である。第1電気信号が第1目標閾値よりも大きいか、又は第1電気信号が第2目標閾値よりも小さい場合に、閾値比較部3002は極性情報を出力し、極性情報は、光強度の変化が増強又は低減されるかどうかを示す。例えば、極性情報は+1又は-1であってよく、+1は光強度の増強を示し、-1は光強度の低減を示す。閾値比較部3002は、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が所定の閾値を超えるかどうかを比較するよう構成され、これは、式1-1を参照して理解され得る。第1目標閾値は、第1所定閾値と第2電気信号との和として理解することができ、第2目標閾値は、第2所定閾値と第2電気信号との和として理解することができる。第2電気信号は、前のイベントが起こったときに光強度検出部3001によって出力された電気信号である。本願の実施形態の閾値比較部はハードウェアによって実施されてよく、あるいは、ソフトウェアによって実施されてよい。
極性情報を取得する場合に、読み出し制御部3003は、第1電気信号を収集するよう光強度捕捉部3004を制御する。
読み出し制御部3003は、光強度捕捉部3004で保持されている第1電気信号を読み出すことを読み出し回路に指示し、かつ、閾値比較部3002によって出力された極性情報を読み出すことを読み出し回路3005に指示するよう更に構成される。
読み出し回路3005は、対応するピクセルで生成されたデータ信号を読み出すよう所定の順序でピクセルアレイ回路内のピクセルをスキャンするよう構成されてよい。いくつかの可能な実施形態で、読み出し回路3005については、理解のために、読み出し回路220、読み出し回路320、及び読み出し回路720を参照されたい。具体的に言えば、読み出し回路905は、1よりも多い信号読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出すことができるよう構成される。例えば、読み出し回路3005は、第1読み出しモード及び第2読み出しモードのうちの1つで読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは他方のモードに対応する。いくつかの可能な実施形態で、読み出し回路905は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路3005は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。
第3符号化部3007は、読み出し回路3005から取得されたデータ信号に基づいて、極性情報、及び光強度の変化と所定の閾値との間の差分値を符号化する。上記は、バイオニックビジョンセンサの作動原理について記載している。DVSが一例として使用される。現在の光強度と、前のイベントが生成されたときに使用されていた光強度と比較することによって、光強度の変化が所定の発行閾値Cに達する場合に、イベントが生成され出力される。言い換えると、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が所定の閾値Cを超える場合に、DVSはイベントを生成する。本願では、バイオニックビジョンセンサの作動原理が十分に考慮されており、所定の閾値は、イベント表現コストを減らすために使用される。以下は、その原理について記載する。光強度情報の絶対光強度Lが初期状態で(言い換えると、最初のイベントが読み出されるときに)符号化され、その後に、新しいイベントが生成される場合には、光強度の変化と所定の閾値との間の差分値K、及び極性情報が符号化される必要がある。原理は、現在の時点の光強度と前のイベントの光強度との間の光強度の変化が所定の閾値に達する場合に新しいイベントが生成される、というものである。起こり得る遅延及びノイズの影響を考慮して、光強度の変化は所定の閾値と完全に等しくならず、差分値は0を中心に変動する。従って、差分値の符号化及び転送は、データ表現コストを大幅に減らす。更に、復号化精度を確保すべく、極性情報が、現時点での光強度を再構築するために、前のイベントの光強度と比較した現在の光強度の変化の傾向(つまり、正又は負)を決定するのを支援するよう更に転送される必要がある。
図31は、本願に係る第3符号化部の略ブロック図である。第3符号化部2703は、記憶モジュール271、比較モジュール272、及び符号化モジュール273を含んでよい。記憶モジュール271は、読み出し回路2702から取得されたデータ信号を記憶するよう構成されてよく、データ信号は、閾値比較部3002から読み出し回路2702によって取得された極性情報と、光強度捕捉部3004から取得された光強度情報とを含んでよい。比較モジュール272は、光強度の変化を比較し、具体的に言えば、現在取得されている光強度情報と前に取得された光強度情報との間の差を比較するよう構成される。現在取得されている光強度情報と前に取得された光強度情報との間の差は、以下では光強度の変化と呼ばれる。比較モジュール272は、光強度の変化と所定の閾値との間の差を決定するよう更に構成され、所定の閾値の値は、極性情報によって示される光強度が増強又は低減されるかどうかに応じて異なってよい。以降、光強度の変化と所定の閾値との間の差は、差分値と呼ばれ、式に従って差分値K=|L-L’|-Cと表され得る。符号化モジュール273は、記憶モジュールに記憶されている極性情報を符号化し、例えば、1ビット又は2ビットを使用することによって極性情報を符号化する。符号化モジュール273は、比較モジュールによって出力された差分値を符号化するよう更に構成される。この符号化スキームは、以下で差分符号化と呼ばれる。実施において、差分値を符号化するためのビットの数は、所定の閾値に基づいて決定されてもよい。例えば、所定の閾値が30である場合に、差分値は、理論上、所定の閾値30以下である。従って、差分値に必要なビットの最大数は、
ビットである。可能な実施において、差分値は、依然として所定の閾値よりも大きい場合がある。この場合に、残余差分値(差分値と所定の閾値との間の差)が、残余差分値が所定の閾値以下になるまで、引き続き符号化されてよい。例えば、最初に計算された差分値(以下で第1差分値と呼ばれる)が所定の閾値よりも大きい場合に、第1差分値は、第2差分値及び所定の閾値に符号化されてよく、第2差分値は、第1差分値と所定の閾値との間の差である。この場合に、絶対光強度情報は、第2差分値と2つの所定閾値に基づいて表される。言い換えると、第2差分値は符号化され、所定の閾値は2回符号化されて、符号化された絶対光強度情報が求められる。本願のこの実施形態で差分値を符号化するプロセスをより良く理解するために、以下は、図32及び具体例を参照して記載する。
絶対光強度情報は10ビットによって表され、言い換えると、光強度の特徴情報を表す最大ビット幅は10ビットであり、所定の閾値は30である、ことが仮定される。上記の解析に従って、理論上、差分値は、イベント発行閾値30以下であるから、差分値を符号化するために必要なビットの最大数は、
ビットである。イベントの数が10である場合に、光強度情報に基づいてイベントを表すコストは10×10=100ビットである。本願で提供される符号化スキームに従って、イベント表現コストは低減され得、つまり、伝送される必要があるデータの量は低減される。具体的な説明は次の通りである:伝送されるべき10個のイベントの絶対光強度は{80,112,150,100,65,24,81,123,170,211}である。この場合に、初期状態で、イベントは最大ビット幅に基づいて符号化され、最初のイベントの絶対光強度80は10ビットに基づいて符号化される。
2番目のイベントから開始して、極性情報は1ビットに基づいて符号化され、光強度の変化と発行閾値30との間の差分値は5ビットに基づいて符号化される。2番目のイベントの絶対光強度と最初のイベントの絶対光強度80との光強度の変化は、|112-80|=32であり、光強度の変化と発行閾値30との間の差分値は、32-30=2である。光強度は最初のイベントのそれと比較して増強されており、つまり、112>80であるから、極性情報は+1である。この場合に、極性情報+1は、1ビットを使用することによって符号化され、差分値2は5ビットを使用することによって符号化される。
3番目のイベントの絶対光強度と2番目のイベントの絶対光強度112との光強度の変化は、|150-112|=38であり、光強度の変化と発行閾値との間の差分値は、38-30=8であり、極性情報は依然として+1である。この場合に、極性情報+1は、1ビットを使用することによって符号化され、差分値8は、5ビットを使用することによって符号化される。
4番目のイベントの絶対光強度と3番目のイベントの絶対光強度150との光強度の変化は、|100-150|=50であり、光強度の変化と発行閾値との間の差分値は、50-30=20である。現在の絶対光強度は3番目のイベントの絶対光強度と比較して低減されており、つまり、100<150であるから、極性情報は-1である。この場合に、極性情報-1は、1ビットを使用することによって符号化され、差分値20は、5ビットを使用することによって符号化される。
5番目のイベントの絶対光強度と4番目のイベントの絶対光強度100との光強度の変化は、|100-65|=35であり、光強度の変化と発行閾値との間の差分値は、35-30=5である。現在の絶対光強度は4番目のイベントの絶対光強度と比較して低減されており、つまり、65<100であるから、極性情報は-1である。この場合に、極性情報-1は、1ビットを使用することによって符号化され、差分値5は、5ビットを使用することによって符号化される。
6番目のイベントの絶対光強度と5番目のイベントの絶対光強度65との光強度の変化は、|65-24|=41であり、光強度の変化と発行閾値との間の差分値は、41-30=11である。現在の絶対光強度は5番目のイベントの絶対光強度と比較して低減されており、つまり、24<65であるから、極性情報は-1である。この場合に、極性情報-1は、1ビットを使用することによって符号化され、差分値11は、5ビットを使用することによって符号化される。
7番目のイベントの絶対光強度と6番目のイベントの絶対光強度24との光強度の変化は、|81-24|=57であり、光強度の変化と発行閾値との間の差分値は、57-30=27である。現在の絶対光強度は6番目のイベントの絶対光強度と比較して増強されており、つまり、81>24であるから、極性情報は+1である。この場合に、極性情報+1は、1ビットを使用することによって符号化され、差分値27は、5ビットを使用することによって符号化される。
8番目のイベントの絶対光強度と7番目のイベントの絶対光強度81との光強度の変化は、|123-81|=42であり、光強度の変化と発行閾値との間の差分値は、42-30=12である。現在の絶対光強度は7番目のイベントの絶対光強度と比較して増強されており、つまり、123>81であるから、極性情報は+1である。この場合に、極性情報+1は、1ビットを使用することによって符号化され、差分値12は、5ビットを使用することによって符号化される。
9番目のイベントの絶対光強度と8番目のイベントの絶対光強度123との光強度の変化は、|170-123|=47であり、光強度の変化と発行閾値との間の差分値は、47-30=17である。現在の絶対光強度は8番目のイベントの絶対光強度と比較して増強されており、つまり、170>123であるから、極性情報は+1である。この場合に、極性情報+1は、1ビットを使用することによって符号化され、差分値17は、5ビットを使用することによって符号化される。
10番目のイベントの絶対光強度と9番目のイベントの絶対光強度170との光強度の変化は、|211-170|=41であり、光強度の変化と発行閾値との間の差分値は、41-30=11である。現在の絶対光強度は9番目のイベントの絶対光強度と比較して増強されており、つまり、211>170であるから、極性情報は+1である。この場合に、極性情報+1は、1ビットを使用することによって符号化され、差分値11は、5ビットを使用することによって符号化される。
この例では、初期状態での最初のイベントは、10ビットに基づいて符号化され、続く9つのイベントについては、光強度極性が1ビットに基づいて符号化され、光強度の変化と発行閾値30との間の差分値が5ビットに基づいて符号化される。この場合に、10+(1+5)×9=64ビットが全部で符号化される。対照的に、もともとは、全部で10×10=100ビットが、固定10ビットに基づいて絶対光強度を符号化するために必要とされる。本願で提供されるデータ符号化スキームでは、データ量が少なくとも36%だけ削減される。既存のビジョンセンサは、イベントの伝送及び記憶において効率的な符号化ポリシーを考慮せず、通常、ピクセルの座標情報(x,y)、光強度の特徴情報が読み出される時間t、及び光強度の特徴情報を固定ビット幅に基づいて符号化する。光強度の特徴情報が光強度情報である場合に、光強度情報は、通常、大量のビットによって表される必要がある。DVSサンプリング原理に従って、現在のイベント及び続くイベントの光強度情報は、特に所定の閾値が決定されることを考慮すると、ある程度相関する。そのような情報は、イベントデータの冗長性を低減し、効率的な圧縮を実装するために使用することができる。本願で提供される解決法では、上記のデータ相関が使用され、相関は、イベント差分符号化を通じて低減され、それによってデータ量を減らす。具体的な改善内容としては、完全な符号化が初期状態で実行された後、極性情報、及び光強度の変化と所定の閾値との間の差分値のみが、その後のイベントで符号化されればよく、それにより、符号化のデータ量は有効に削減され得る、ことである。完全な符号化とは、ビジョンセンサによって事前定義された最大ビット幅を使用することによってイベントを符号化することを意味する。更に、現時点の光強度情報は、前のイベントの光強度情報と、符号化を通じて取得される前のイベントの極性情報及び差分値とを使用することによって、ロスなしで再形成され得る。以下は、図33を参照して復号化プロセスについて記載する。
図33は、本願の実施形態に係る電子デバイスの可能なブロック図である。図33に示されるように、電子デバイスはビジョンセンサチップ3100及びパーシング回路3101を含む。電子デバイスは、例示を目的として使用され、現在知られている様々なセンサデバイス及び将来開発される様々なセンサデバイスを含む如何なる適切なデバイスによっても実施されてよいことが理解されるべきである。本願の実施形態は、異なるセンサシステムで更に具現化されてもよい。更に、電子デバイスは、明りょうさのために示されていない他の要素、モジュール、又はエンティティを更に含んでもよいことが更に理解されるべきである。しかし、それは、本願の実施形態がそれらの要素、モジュール、又はエンティティを備えないことを意味しているわけではない。
ビジョンセンサチップ3100については、理解のために、図29-1乃至図32に記載されるビジョンセンサを参照されたい。詳細はここで再び記載されない。パーシング回路3101は、ビジョンセンサチップ3100内にある読み出し回路によって読み出されたデータ信号をパースするよう構成されてよい。本願の可能な実施形態で、パーシング回路3101は、前もってセットされた復号化方法に従って極性情報及び差分値を復号して、現時点での光強度情報を取得し得る。パーシング回路3101がビジョンセンサチップによって送信されたデータ信号をパースする方法をより良く理解するために、以下は、上記の例を参照して記載する。
初期状態で、パーシング回路3101は、取得したバイナリデータストリームを復号し、最大ビット幅に基づいて最初のイベントを復号して、最初のイベントに対応する時点の絶対光強度を取得する。例えば、上記の例では、最初のイベントの絶対光強度80が、10ビットに基づいて復号化を通じて取得される。
その後の復号化プロセスで、極性情報がまずパースされる。例えば、パーシング回路3101は、バイナリデータストリーム内の最初の1ビットを読み出し、そのビットを復号して極性情報を取得し、差分符号化において光強度情報を表すビット幅に基づいて差分値を復号する。次いで、現時点での絶対光強度が、同じピクセルの前のイベントの絶対光強度と所定の閾値とに基づいて再形成される。
例えば、2番目のイベントについては、光強度極性がまず1ビットに基づいて復号化を通じて取得されて、+1が得られ、次いで、差分値2が5ビットに基づいて復号化を通じて取得される。この場合に、光強度極性は正であるから、それは、2番目のイベントの光強度が最初のイベントのそれと比較して増強されていることを示す。従って、2番目の絶対光強度は、80+2+30=112と計算され、このとき、80は、復号化を通じて取得された最初のイベントの絶対光強度であり、2は差分値であり、30はイベント発行閾値である。
3番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は8である。この場合に、3番目のイベントの絶対光強度は、112+8+30=150として再形成される。
4番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は20である。光強度極性は負であるから、それは、光強度が3番目のイベントのそれと比較して低減されていることを示し、絶対光強度は、150-20-30=100として再形成される。
5番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は5である。光強度極性は負であるから、それは、光強度が4番目のイベントのそれと比較して低減されていることを示し、絶対光強度は、100-5-30=65として再形成される。
6番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は11である。光強度極性は負であるから、それは、光強度が5番目のイベントのそれと比較して低減されていることを示し、絶対光強度は、65-11-30=24として再形成される。
7番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は27である。光強度極性は正であるから、それは、光強度が6番目のイベントのそれと比較して増強されていることを示し、絶対光強度は、24+27+30=81として再形成される。
8番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は12である。光強度極性は正であるから、それは、光強度が7番目のイベントのそれと比較して増強されていることを示し、絶対光強度は、81+12+30=123として再形成される。
9番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は17である。光強度極性は正であるから、それは、光強度が8番目のイベントのそれと比較して増強されていることを示し、絶対光強度は、123+17+30=170として再形成される。
10番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は11である。光強度極性は正であるから、それは、光強度が9番目のイベントのそれと比較して増強されていることを示し、絶対光強度は、170+11+30=211として再形成される。
いくつかの可能な実施形態で、完全な符号化は、前もってセットされた期間のインターバルで一度実行されて、復号化依存性を低減しかつビット誤りを防ぐことができる。以下は、更なる記載のために一例として上記の例を更に使用される。上記の例では、極性情報は1ビットに基づいて符号化され、パーシング回路3101は、当該ビットを読み出すことによって光強度の変化の傾向を取得し得る、ことが述べられている。実施において、完全な符号化が加えられているので、パーシング回路3101が完全な符号化又は差分符号化を現在使用しているかどうかが更に示される必要がある。例えば、2ビットにより、パーシング回路3101が完全な符号化又は差分符号化を使用しているかどうかが示され得る。例えば、パーシング回路3101が2ビットに基づいて復号化を通じて+1又は-1を取得する場合に、復号化は、差分符号化に対応する復号化スキームで実行されると決定される。例えば、+1は、光強度が増強されることを示し、-1は、光強度が低減されることを示す。パーシング回路3101が2ビットに基づいて復号化を通じて0を取得する場合に、復号化は、完全な符号化に対応する復号化スキームで実行されると決定される。以下は、記載のために一例を使用する。最初のイベントは、10ビットを使用することによって符号化される。2番目のイベントから7番目のイベントについては、極性情報が2ビットを使用することによって符号化され、差分値が5ビットを使用することによって符号化される。復号化依存性及びビット誤りを防ぐために、完全な符号化は前もってセットされた期間のインターバルで一度実行される必要があることがセットされるので、最初のイベントと8番目のイベントとの間のインターバルが前もってセットされた期間であると仮定される。この場合に、差分符号化スキームはもはや8番目のイベントに使用されない。具体的に言えば、極性情報はもはや2ビットを使用することによって符号化されず、差分値はもはや5ビットを使用することによって符号化されない。代わりに、完全な符号化が使用され、具体的に言えば、8番目のイベントに対応する光強度情報123は10ビットに基づいて表される。9番目のイベント及び10番目のイベントは依然として差分符号化を使用し、極性情報が2ビットを使用することによって符号化され、差分値が5ビットを使用することによって符号化される。
上記の符号化プロセスでの総データ量は、10+(2+5)×6+(2+10)+(2+5)×2=78ビットである。全部で10×10=100ビットが固定ビットに基づいて絶対光強度を符号化するために必要とされる元の解決法と比較して、前もってセットされた期間のインターバルで完全な符号化を実行する解決法では、データ量の少なくとも22%が節約され得る。
完全な符号化が前もってセットされた期間のインターバルで実行される上記の解決法については、復号化中に、パーシング回路3101は、極性情報に基づいて、どちらの復号化スキームが使用される必要があるかを決定し、差分値、極性情報、所定の閾値、及び復号化を通じて取得された、前のイベントが発行されたときに使用されていた光強度に基づいて、現時点での光強度を再形成し得る。以下は、引き続き上記の例を参照して記載する。
最初のイベントについて、復号化は10ビットの最大ビット幅に基づいて実行され、1秒目に対応する時点での絶対光強度が取得される。次いで、後続の全てのイベントの光強度極性がまず2ビットに基づいて復号化を通じて取得される。極性情報により、差分符号化が使用されることが示される場合に、例えば、極性情報が0出ない場合に、差分値が5ビットに基づいて復号化を通じて取得される。極性情報により、完全な符号化が使用されることが示される場合に、例えば、極性情報が0である場合に、光強度情報は10ビットに基づいて復号化を通じて取得される。
具体的に、2番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は+1である。光強度極性は非ゼロであるから、5ビットに基づいて復号化を通じて取得される差分値は2であり、絶対光強度は、80+2+30=112として再形成される。
3番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は8である。この場合に、3番目のイベントの絶対光強度は、112+8+30=150として再形成される。
4番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は20である。光強度極性は負であるから、それは、光強度が3番目のイベントのそれと比較して低減されていることを示し、絶対光強度は、150-20-30=100として再形成される。
5番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は5である。光強度極性は負であるから、それは、光強度が4番目のイベントのそれと比較して低減されていることを示し、絶対光強度は、100-5-30=65として再形成される。
6番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は11である。光強度極性は負であるから、それは、光強度が5番目のイベントのそれと比較して低減されていることを示し、絶対光強度は、65-11-30=24として再形成される。
7番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は27である。光強度極性は正であるから、それは、光強度が6番目のイベントのそれと比較して増強されていることを示し、絶対光強度は、24+27+30=81として再形成される。
8番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は0であり、これは、イベントが完全な符号化に対応することを示す。その場合に、10ビットに基づいて復号化を通じて取得される絶対光強度は123である。
9番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は17である。この場合に、絶対光強度は、123+17+30=170として再形成される。
10番目のイベントについては、最初に2ビットに基づいて復号化を通じて取得される光強度極性は+1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は11である。この場合に、絶対光強度は、170+11+30=211として再形成される。
これまでに、10個のイベントの復号化及び光強度再形成は完了する。
上記の実施形態で、光強度の変化と差分値との間の差は0以上である、ことが仮定される。いくつかの可能な実施において、光強度の変化と差分値との間の差が0よりも小さい場合に、完全な符号化が使用される。具体的に言えば、光強度の変化と差分値との間の差が0よりも小さいときには、完全な符号化が使用され、光強度の変化と差分値との間の差が0以上であるときには、差分符号化が使用される。
いくつかの可能な実施形態で、ビジョンセンサは特定の遅延を有する場合があるので、イベントは、光強度の変化が所定の閾値よりも大きい場合が2回以上満足されるときにのみ生成されてもよい。差分値が所定の閾値以上であり、光強度の変化が所定の閾値の少なくとも2倍であるという問題があり得る。この問題を解決するために、再帰的なインデックス符号化スキームが使用されてもよく、これは以下で記載される。
第3符号化部2703は、差分値が所定の閾値を超えるかどうかをまず決定してよい。差分値が所定の閾値よりも小さいとすると、第3符号化部2703は、上記の差分符号化方法に基づいて差分値を直接符号化する。差分値が所定の閾値以上であり、差分値と所定の閾値との間の差(第1残余差分値)がM1であるとすると、第1残余差分値M1が所定の閾値よりも小さい場合に、M1は符号化され、差分値は符号化される。この解決法をより良く理解するために、以下は例を参照して記載する。
光強度の特徴情報を表す最大ビット幅は10ビットであり、伝送されるべき4つのイベントがあり、4つのイベントの絶対光強度は{80,150,100,200}であり、所定の閾値は30であるとして、第3符号化部2703の具体的な符号化プロセスは次の通りである。
初期状態で、最初のイベントについて、絶対光強度80が10ビットに基づいて符号化される。
2番目のイベントについて、イベントの絶対光強度は150であり、最初のイベント比較した光強度の変化は|150-80|=70であり、極性情報は+1である。光強度の変化と所定の閾値との間の差分値は70-30=40であり、残余差分値は所定の閾値30を超えており、残余差分値は直接には符号化され得ない。この場合に、40から30を減じて10が求められ、10は所定の閾値よりも小さく、残余差分値10は符号化される。1つの所定の閾値30が差分値30から減じられることで、残余差分値10が求められる。この場合には、1つの所定の閾値30が符号化され、残余差分値10が符号化される。すなわち、極性情報+1、所定の閾値30、及び残余差分値10が符号化される。
3番目のイベントについて、イベントの絶対光強度は100である。2番目のイベントと比較して光強度の変化は|100-150|=50であり、極性情報は-1である。光強度の変化と所定の閾値との間の差分値は50-30=20であり、20は所定の閾値よりも小さい。この場合には、極性情報-1及び差分値20のみが符号化される。
上記の符号化プロセスでの総データ量は、10+(1+5+5)+(1+5)=27ビットであり、固定10ビットに基づいた符号化に必要な総データ量は、3×10=30ビットである。この実施形態の方法では、データ量の少なくとも10%がセーブされ得る。
上述されたように、第1残余差分値M1が所定の閾値よりも小さい場合に、M1は符号化され、また、差分値は符号化される。更に、第1残余差分値M1は依然として所定の閾値よりも大きい場合がある。第1残余差分値M1が所定の閾値よりも依然として大きい場合に、第3符号化部2703は、イベントに対して完全な符号化を使用すると決定する。理由は次の通りである:第1残余差分値M1と所定の閾値との間の差が、残余差分値が所定の閾値よりも小さくなるまで更に計算される場合に、例えば、第2残余差分値M2が所定の閾値よりも小さく、M2が差分値からn個の所定の閾値を減じることによって求められるとして、所定の閾値は、n個の符号化された所定の閾値を得るようn回符号化され、また、M2は符号化される。かような符号化スキームで、イベント表現のコストは、完全な符号化のコストを超える場合がある。従って、第1残余差分値M1が依然として所定の閾値よりも大きい場合に、第3符号化部2703は、イベントに対して完全な符号化を使用すると決定する。以下は、記載のために一例を使用する。上記の例で、4番目のイベントが存在し、4番目のイベントの光強度情報は200である、ことが仮定される。3番目のイベントと比較して、光強度の変化は|200-100|=100であり、極性情報は+1である。光強度の変化と所定の閾値との間の差分値は100-30=70であり、70は所定の閾値30を超えており、残余差分値は所定の閾値以上であり、残余差分値は符号化され得ない。この場合に、70-30=40が計算され、40は依然として所定の閾値30を超えている。次いで、40-30=10が計算され10は所定の閾値よりも小さい。2つの所定の閾値30が、残余差分値10を得るために差分値70から減じられる。この場合に、2つの所定の閾値が符号化され、また、残余差分値10が符号化される。すなわち、極性情報+1、第1の所定閾値30、第2の所定閾値30、及び残余差分値10が符号化される。差分符号化スキームが依然として使用される場合に、上記の符号化プロセスでの総データ量は、10+(1+5+5)+(1+5)+(1+5+5+5)=43ビットであり、元の解決法は、固定10ビットに基づいてイベントデータを符号化するために4×10=40ビットを必要とする。従って、第1残余差分値M1が依然として所定の閾値よりも大きい場合に、第3符号化部2703は、イベントに対して完全な符号化を実行すると決定し、それにより、データ量は更に低減され得る。
以下は、再帰的なインデックス符号化スキームに対応する復号化スキームについて記載する。パーシング回路3101は、取得したバイナリデータストリームを復号し、最大ビット幅に基づいて最初のイベントを復号して、1秒目に対応する時点での絶対光強度を取得する。例えば、上記の例で、最初のイベントの絶対光強度80は、10ビットに基づいて復号化を通じて取得される。その後の復号化プロセスで、極性情報が最初にパースされる。例えば、パーシング回路3101は、バイナリデータストリーム内の最初の1ビットを読み出し、そのビットを復号して極性情報を取得し、差分符号化において光強度情報を表すビット幅に基づいて差分値を復号する。復号化を通じて取得された差分値が所定の閾値に等しい場合に、復号化は、差分符号化において光強度情報を表すビット幅に基づいて続き、残余差分値を取得する。以下は、上記の例を参照して記載する。
初期状態で、最初のイベントの絶対光強度80が、10ビットに基づいて復号される。
2番目のイベントについては、最初に1ビットに基づいて復号された光強度極性は+1であり、次いで、5ビットに基づいて復号された差分値は30である。差分値は発行閾値に等しいことが分かる。この場合に、残余差分値10が更に、5ビットに基づいて復号される。従って、2番目のイベントの光強度差分値は実際に、30+10=40であり、絶対光強度は、80+40+30=150として再形成される。
3番目のイベントについては、最初に1ビットに基づいて復号化を通じて取得される光強度極性は-1であり、次いで、5ビットに基づいて復号化を通じて取得される差分値は20である。この場合に、3番目のイベントの絶対光強度は、150-20-30=100として再形成される。
これまでに、3つのイベントの復号化及び光強度再形成は完了する。
本願の実施形態は、ビジョンセンサチップの作動方法を更に提供する。図34は、本願の実施形態に係るビジョンセンサチップの作動方法の可能なフローチャートである。方法は、次のステップを含み得る。
3201:光強度の変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成する。
ピクセルアレイ回路は、光強度の変化を測定することによって、ピクセルアレイ回路内にあるピクセルに対応する少なくとも1つのデータ信号を生成し、少なくとも1つのデータ信号は、少なくとも1つの光強度変化イベントを示し、少なくとも1つの光強度変化イベントは、ピクセルアレイ回路内にある対応するピクセルで測定された光強度の変化が所定の閾値を超えることを示す。
3202:第1プリセットビット幅に基づいて差分値を符号化する。
第3符号化部は、第1プリセットビットに基づいて差分値を符号化し、差分値は、光強度の変化と所定の閾値との間の差である。第3符号化部については、理解のために、第3符号化部2703を参照されたく、詳細はここで再び記載されない。
いくつかの可能な実施形態で、ピクセルアレイ回路は複数のピクセルを含む。各ピクセルは閾値比較部を含む。閾値比較部は、光強度の変化が所定の閾値を超えるときに極性情報を出力するよう構成される。極性情報は、光強度の変化が増強又は低減されるかどうかを示す。第3符号化部は、第2プリセットビット幅に基づいて極性情報を符号化するよう更に構成される。
いくつかの可能な実施形態で、各ピクセルは、光強度検出部、読み出し制御部、及び光強度捕捉部を更に含む。光強度検出部は、光強度検出部に照射された光信号に対応する電気信号を出力するよう構成され、電気信号は光強度を示す。閾値比較部は、光強度の変化が所定の閾値を超えることを電気信号に基づき決定する場合に、極性情報を出力するよう特に構成される。読み出し制御部は、極性信号の受信に応答して、極性情報の受信時に対応する光信号を捕捉しバッファリングすることを光強度捕捉部に指示するよう構成される。第3符号化部は、第3プリセットビット幅に基づいて第1電気信号を符号化するよう更に構成され、第1電気信号は、光強度捕捉部によって収集及びバッファリングされる、極性情報の第1受信時に対応する電気信号であり、第3プリセットビット幅は、ビジョンセンサによって予めセットされる、光強度の特徴情報を表す最大ビット幅である。
いくつかの可能な実施形態で、第3符号化部は、第3プリセットビット幅に基づいて前もってセットされた期間のインターバルで差分値を符号化するよう更に構成される。
いくつかの可能な実施形態で、第3符号化部は、差分値が所定の閾値よりも大きい場合に、第1プリセットビット幅に基づいて差分値を符号化するよう特に構成される。
いくつかの可能な実施形態で、第3符号化部は、差分値が所定の閾値以下である場合に、第1プリセットビット幅に基づいて残余差分値及び所定の閾値を符号化するよう更に構成され、残余差分値は、差分値と所定の閾値との間の差である。
差分値を符号化する方法がイベントを伝送するのに必要なデータ量を低減することができることをより良く証明するために、以下は、実験データに基づいて記載する。CeleXセンサは既存のビジョンセンサである。CeleXセンサは、非同期読み出しモード、つまり、イベントストリームに基づいた読み出しモードを使用する。CeleXセンサによって伝送されるイベントは、光強度情報に基づいて表される。一般に、CeleXセンサは、光強度情報を表すために8~13ビットを使用する。言い換えると、光強度の特徴情報を表す最大ビット幅は、8~13ビットである。実験において、CeleXセンサのパラメータは1280×800空間分解能、14μs時間分解能、及びFixed Event-Intensity Modeサンプリングモードにセットされ、光強度の特徴情報を表す最大ビット幅は、12ビットとしてセットされる。Event-IntensityモードでCeleXセンサによって収集される7グループのイベントデータが実験に使用される。実験結果は表1に示される。rawデータの直接伝送、つまり、12ビットに基づいた符号化のための直接伝送と比較して符号化されたデータの伝送は、伝送に必要なデータの量を大幅に減らすことができる。更に、従来技術の既存の符号化スキームと比較して、本願で提供される符号化スキームでは、光強度の変化と所定の閾値との間の相関が十分に考慮されているので、それら2つの間の差分値及び極性情報しか伝送されず、そして、現時点での光強度が再形成可能である。既存の符号化スキームと比較して、データ量も大幅に節約することができる。表1の実験データを参照されたい。7つのデータグループに対応する圧縮比の平均値は1.485である。本願で提案されている差分符号化スキームでは、平均1.663倍の可逆圧縮率が得られ、約41.1%のデータ量が節約される。対照的に、既存の符号化スキームでは、平均1.306倍の圧縮率しか得られない(約26.6%のデータ量が節約される)。
更に、ビジョンセンサの外にある読み出し回路は、符号化モジュール273によって符号化されたデータ信号をビジョンセンサの外に読み出してもよいことが留意されるべきである。例えば、ビジョンセンサは電子デバイスに組み込まれ、電子デバイスはプロセッサ及びメモリを含んでよい。電子デバイスの読み出し回路は、第3符号化部2703によって符号化されたデータ信号を電子デバイスのプロセッサ又はメモリに読み出してもよい。本明細書中の符号化に関する全ての記載は、光強度の特徴情報を符号化することを指しており、イベントを表すために使用される他の情報の符号化又は他の処理方法は本願で制限されないことが留意されるべきである。例えば、他の情報は、イベントが生成されるピクセルの座標情報(x,y)、光強度の特徴情報が読み出される時間t、などを含んでよい。
本願のこの実施形態で提供される視覚センサは上述されている。本願で提供される解決法を使用することによって、視覚センサは、複数のデータ読み出しモードの間で適応的に切り替わることができ、それにより、データ読み出しレートは常に所定のデータ読み出しデータ閾値を超えない。ビジョンセンサはまた、2つのイベント表現方式の間で適応的に切り替わることもでき、それにより、データ読み出しレートは常に所定のデータ読み出しデータ閾値を超えず、それによって、ビジョンセンサのデータ伝送、パーシング、及び記憶のコストを下げ、かつ、センサの性能を大幅に向上させる。本願で提供されるビジョンセンサは、イベント表現精度を更に調整し、帯域幅制限が満足される場合により高い表現精度で全てのイベントを伝送してもよい。本願で提供されるビジョンセンサは、差分値を符号化する方法を更に使用してもよく、それにより、ビジョンセンサのデータ伝送、パーシング、及び記憶のコストは削減され、また、イベントは、最も高い精度で伝送され得、それによって、センサの性能を大幅に向上させる。
本願で提供されるビジョンセンサは、視覚情報を使用する必要がある如何なるデバイスにも設置されてよい。例えば、本願で提供されるビジョンセンサは、スマートフォン、テレビジョン、タブレットデバイス、モニタリングデバイス、カメラモジュール、セキュリティデバイス、などに設置されてよい。
2.画像最適化
データ収集並びにデータ符号化及び復号化が実行された後、RGB画像、イベント画像、又はビデオなどの利用可能なデータが取得されてよい。更に、収集されたデータは、その後のアプリケーションを実行するために、更なる最適化のために使用されてもよい。例えば、RGB画像は、RGBカメラによって収集されてよく、データは、上記の符号化及び復号化スキームで符号化される。RGB画像が使用される必要がある場合に、データは、利用可能なRGB画像を取得するよう復号されてよい。他の例として、イベント画像はDVSと介して収集されてもよく、イベント画像は、上記の符号化スキームで記憶媒体に記憶される。イベント画像が使用される必要がある場合に、DVS画像は、その後の処理を実行するために、上記の復号化スキームで読み出されてよい。以下は、本願で提供される画像最適化方法のプロシージャの一例について記載する。
本願で提供されるいくつかの方法のプロシージャについて記載する前に、以下はまず、いくつかの比較的に一般的な概念について記載する。
理解を容易にするために、本願で提供される方法で使用されるいくつかの一般概念が最初に記載される。
a.モーションセンサ
図1Bの上記の関連する記載を参照して、モーションセンサは、ある期間内のイベントストリームを取得するように、特定の範囲内のターゲットオブジェクトの動きが一連のピクセルにイベント出力を生成させることを、光強度の変化により、モニタしてよい。本願の実施で述べられている動き情報については、モーションセンサが、検出範囲内のターゲットオブジェクトの動きに関する情報を取得するよう、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタするために使用されてよい。
モーションセンサがDVSであることが一例として使用される。イベント生成方法が図35に示され得る。DVSは、動きの変化に応答して、イベントを生成する。イベントは静的な領域では励起されないので、ほとんどのイベントは、動いているオブジェクトが存在している領域で生成される。一般に、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が閾値を超える場合に、DVSは、図3に示されるイベントN1、N2、又はN3などのイベントを生成し、イベントの生成は、光強度の相対変化にのみ関係がある。各イベントは<x,y,y,f>として表されてよく、(x,y)は、イベントが生成されるピクセル位置を表し、tは、イベントが生成される時間を表し、fは、光強度の特徴情報を表す。いくつかのDVSセンサ(DAVISセンサ及びATISセンサなど)では、fは、光強度の変化の傾向を表し、極性とも呼ばれることがあり、一般に1ビットに基づいて表される。値はON/OFFであってよく、ONは、光強度が増強されることを示し、offsetは、光強度が低減されることを示す。CeleXセンサなどのいくつかのDVSセンサが動いているオブジェクトをモニタするシナリオでは、fは絶対光強度を示し、通常は複数のビットによって表される。例えば、9ビットが、0から511の範囲内の光強度値を示す。
これは、光強度の変化が閾値を超える場合にのみDVSがイベントを生成することとして理解され得る。従って、動いているオブジェクトは、DVSを介して検出され得るが、DVSは、静的な領域には反応しない。
b.イベント画像
イベント画像は、上記のモーションセンサによって収集されたデータに基づいて生成された画像を含んでよく、具体的には、ターゲットオブジェクトがモーションセンサのモニタリング範囲内を動くときに生成されるターゲットオブジェクトの運動軌跡に基づいて生成された画像を含み、言い換えると、イベント画像は、ターゲットオブジェクトがある期間にモーションセンサの検出範囲内で動くときに生成される情報を識別するために使用されてよい。
例えば、手を振ることがDVSの検出範囲内で実行される場合に、ある一時点でのモニタされたイベントが図36に示される。図36の白色は、DVSによってモニタされたイベントを示し、言い換えると、DVSは、前もってセットされた範囲内の動いているオブジェクトの輪郭及び位置をモニタしてよい。
具体的に、例えば、DVSによって収集されたデータによって形成される画像は、
と表され、(x,y)は、画像内の位置の座標であり、tは、ある時点を表し、t1は、露出画像が撮影され始める時点から50ミリ秒(つまり、時間窓)を減じることによって求められ、t2は、露出画像が撮影され始める時点であり、eventsは、DVSなどのモーションセンサによって収集されたデータを表す。
c.動き情報
動き情報は、前もってセットされた範囲内のターゲットオブジェクトの動きに関する情報を含んでよい。
モーションセンサは、前もってセットされた範囲内のターゲットオブジェクトの動き情報を取得するために、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタしてよい。ターゲットオブジェクトは、前もってセットされた範囲内のターゲットオブジェクト範囲内で動いているオブジェクトであり、1つ以上のターゲットオブジェクトが存在してもよく、動き情報は、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含んでよい。
例えば、動き情報は、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成される情報、例えば、ターゲットオブジェクトが位置してる領域のサイズ、及び前もってセットされた範囲内の領域境界又は角点の座標を含んでよい。
具体的に、時間窓は、DVSによってモニタされたデータに基づいて生成されてよい。次いで、時間窓内のイベントについて、時間窓が短時間窓に分割され、短時間窓内のイベントが累積され、接続された領域で得られた運動軌跡が計算される。更に、時間窓内の一連の運動軌跡は解析され、オプティカルフロー又は運動ベクトルが、動いているオブジェクトの運動特徴、例えば、運動方向及び運動速度など情報を得るよう計算される。
例えば、図37に示されるように、時間窓は、複数の短時間窓、例えば、図37に示されるk個の短時間窓に分割されてよい。セグメンテーション方法は、セットされた存続期間に基づいてセグメンテーションを実行することであってよく、あるいは、ランダムな存続期間に基づいてセグメンテーションを実行すること又は運動軌跡の変化ステータスに基づいてセグメンテーションを実行すること、などであってもよい。これは、実際の適用シナリオに基づいて具体的に調整されてもよい。k個の短時間窓がセグメンテーションを通じて取得された後、各短時間窓内のイベントの位置が解析され、ターゲットオブジェクトが各短時間窓内で位置している領域が決定される。例えば、短時間窓1内の動き領域は、図37に示される動き領域1であり、短時間窓k内の動き領域は、図37に示される動き領域kである。次いで、動き領域、及びターゲットオブジェクトの運動方向又は運動速度などの運動特徴が、短時間窓1~k内の動き領域の変化に基づいて決定される。
一般的に、動き情報に含まれる運動特徴には、運動速度、運動方向、などが含まれ得る。具体的に、運動速度は、前の短時間窓での速度と比較した現在の短時間窓でのターゲットオブジェクトの速度の変化傾向であってよく、より速い若しくはより遅いなどの速度傾向状態変数、又は速い、比較的速い、とても速い、遅い、比較的遅い、及びとても遅いなどのより多くのレベルの速度傾向状態変数を含むが限られない。運動方向は、前の短時間窓でのそれと比較した方向の変化であってもよく、左、右、上、下、不変の方向傾向状態変数、又は左上、左下、右上、右下、左、右、上、下、及び不変などのより多くのレベルの方向傾向状態変数を含むが限られない。
上記の一般概念は、本願で提供される以下の実施で使用されてよく、詳細は以下で記載されない。
以下は、画像のエンハンスメント又は再構成のいくつかの可能な実施について記載する。
画像のエンハンスメント又は再構成の目的は、より鮮明なRGB画像又はイベント画像を取得することである。以下は、いくつかの可能な実施について記載する。
(1)動き補償
一般に、モーションセンサによって収集された情報は、画像再構築、ターゲット検出、動いているオブジェクトの撮影、動いているデバイスを使用することによる撮影、撮影ブレ補正、動き推定、デプス推定、又はターゲット検出及び再構成などのシナリオのために使用されてよい。従って、より正確な動き情報をどのように取得するかは、解決すべき緊急の課題になっている。
本願は、より正確な動き情報を取得するよう、動きパラメータを使用することによって動き情報を更新するために、画像処理方法を提供する。
最初に、このシナリオでは、本願で提供される画像処理方法の具体的なプロシージャは、モーションセンサを使用することによって、ターゲットオブジェクトが検出範囲内で動くときに生成される動き情報を収集することであり、動き情報は、フレームに基づいた動き検出、イベントに基づいた動き検出、などからであってよい、ことと、次いで、動き情報に基づいてイベント画像を生成し、それから動きパラメータを計算することであり、動きパラメータは、モーションセンサとターゲットオブジェクトとの間の相対運動のパラメータを含むことと、次いで、動きパラメータに基づいてイベント画像を更新して、更新されたイベント画像を取得することとを含んでよい。
本願で提供される画像処理方法では、複数の実施が、イベント画像を更新するプロセスに提供される。以下は、異なる実施及びその組み合わされた実施について別々に記載する。
可能な実施において、イベント画像は、前もってセットされた最適化モデルに基づいて更新されてよい。例えば、イベント画像は、更新されたイベント画像を取得するよう、最適化モデルの値を最適化する目的で更新される。イベント画像を更新する過程で、最適化モデルの値が、モーションセンサによってモニタされた動き情報を制約として使用することによって、初期化され得るように、最適化モデルの初期値は動きパラメータに基づいて決定されてよく、それにより、イベント画像が更新されるときに使用される初期値はより正確になる。イベント画像に対して複数回の大域的な反復更新を行うことと比べて、本願で提供される方法では、最適化モデルは、取得された動きパラメータに基づいて初期化され、それにより、イベント画像の更新速度を大幅に向上させることができ、イベント画像の更新効率を改善することができ、相対的に良好な初期化更新方向が提供され得る。最適化効果は、反復回数を制限することで改善される。
可能な実施において、イベント画像を更新する過程で、反復的な更新は、通常、複数回実行されてよく、それにより、最終的に取得されたイベント画像はより良い。各反復更新プロセスで、前の反復更新から出力された動きパラメータが、現在の反復更新を実行するために使用されてよく、それにより、動きパラメータは、各反復更新中に再構成されず、更新効率は改善される。
以下は、最適化モデルの値を初期化するプロセス及びイベント画像を繰り返し更新するプロセスについて記載する。
プロセス1:動きパラメータを使用することによって最適化モデルを初期化するプロセス
図38は、本願に係る画像処理方法の略フローチャートである。
3801:動き情報を取得する。
モーションセンサは、前もってセットされた範囲内のターゲットオブジェクトの動き情報を取得するよう、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタしてよい。ターゲットオブジェクトは、前もってセットされた範囲内で動いているオブジェクトであり、1つ以上のターゲットオブジェクトが存在してもよく、動き情報は、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含んでよい。
例えば、動き情報は、ターゲットオブジェクトが前もってセットされた範囲内で動くときに生成される情報、例えば、ターゲットオブジェクトが位置してる領域のサイズ、及び前もってセットされた範囲内の領域境界又は角点の座標を含んでよい。
理解を容易にするために、ターゲットオブジェクトが前もってセットされた範囲内で動く各検出時点でターゲットオブジェクトが位置している領域は、以下でターゲットオブジェクト動き領域と呼ばれる。例えば、ターゲットオブジェクトが歩行者であり、歩行者が全身運動を行っている場合に、動き領域には歩行者の全身が含まれ得る。歩行者が腕だけ動かす場合に、ターゲットオブジェクトは歩行者の腕だけであってよく、動き領域には歩行者の腕部が含まれ得る。
一般に、前もってセットされた範囲は、カメラの焦点距離、視野、などに関係がある。例えば、カメラの視野が大きいほど、撮影範囲は広いことを示し、カメラの視野が小さいほど、撮影範囲は小さいことを示す。他の例として、カメラの焦点距離が長いほど、撮影範囲は遠いことを示す。これは、遠くのオブジェクトがより鮮明に撮影されることとしても理解でき、カメラの焦点距離が短いほど、撮影範囲が近いことを示す。
本願のこの実施において、モーションセンサによってモニタされる範囲は、カメラの撮影範囲を含み、前もってセットされた範囲は、カメラの撮影範囲であってよく、モーションセンサによってモニタされる範囲は、前もってセットされた範囲を含み、言い換えると、モーションセンサによってモニタされる範囲は、前もってセットされた範囲以上であってよい。
可能な実施において、動き情報は、ターゲットオブジェクトが現在位置している領域、及びターゲットオブジェクトが前もってセットされた範囲に入った後にターゲットオブジェクトが過去に位置していた領域を含んでよく、更には、ターゲットオブジェクトの運動速度、運動方向、などを含んでもよい。
上記のデータ収集及びデータ符号化を参照して、この実施形態の動き情報は、上記のデータ収集及び符号化/復号化スキームで取得されたデータであってよい。例えば、イベントストリームは、DVSを介して収集を実行することによって取得されてよく、利用可能な動き情報は、上で提供されたデータ符号化/復号化の処理方法で取得される。
3802:動き情報に基づいてイベント画像の少なくとも1フレームを生成する。
動き情報が取得された後、イベント画像の少なくとも1フレームは、検出範囲内でモーションセンサによって収集された情報に基づいて生成されてよい。一般に、動き情報には、ある期間に検出範囲内のターゲットオブジェクトの動きの軌跡に関する情報が含まれ得る。従って、検出範囲に対応する画像が生成され、動き情報に含まれるターゲットオブジェクトの軌跡は、イベント画像の少なくとも1フレームを取得するよう、画像にマッピングされる。イベント画像の少なくとも1フレームは、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像として理解されてよい。
例えば、イベント画像については、図35乃至図37及びその関連する記載を参照されたい。
本願で述べられているイベント画像の少なくとも1フレームがイベント画像の複数のフレームである場合に、イベント画像の少なくとも1フレームは、同じ時間窓などのイベント画像であってよく、あるいは、異なるイベント窓内のイベント画像であってよい。例えば、イベント画像1は、期間[t1,t2]内のイベント画像であり、イベント画像2は、期間[t2,t3]内のイベント画像である。確かに、イベント画像の少なくとも1フレームは、代替的に、同じ期間内の異なる領域のイベント画像であってもよい。例えば、DVSのモニタ領域は、複数の領域に分割されてもよく、対応するイベント画像は、各領域で検出されたイベントに基づいて生成される。
上記のデータ収集、符号化、及び復号化で提供される方法に従って、イベント画像は記憶媒体から直接読み出されてもよいことが更に留意されるべきである。この場合に、ステップ3801及び3802は実行される必要がなく、イベント画像の少なくとも1フレームは記憶媒体から直接読み出されてよい。この応用は、ここでの記載のための例に過ぎず、限定として意図されない。
3803:動きパラメータを取得する。
動きパラメータは、センサとターゲットオブジェクトとの間の相対運動に関するパラメータ、例えば、画像平面上のターゲットオブジェクトの運動速度、画像平面上のターゲットオブジェクトの運動方向、画像平面上のターゲットオブジェクトの運動加速度、画像平面上のターゲットオブジェクトのオプティカルフロー情報、モーションセンサからのターゲットオブジェクトのデプス、モーションセンサの加速度、又はモーションセンサの角速度を示し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の速さを表す。
更に、動きパラメータを計算する複数の方法がってもよい。例えば、動きパラメータがモーションセンサの関連パラメータのみならず、ターゲットオブジェクトの運動速度、運動方向、運動加速度、なども含む場合に、動きパラメータは、モーションセンサによって収集された情報に基づいて計算を通じて取得されてもよい。
他の例として、動きパラメータはモーションセンサの関連パラメータ、例えば、オプティカルフロー情報、モーションセンサの加速度、又はモーションセンサの角速度若しくはデプスを含む場合に、モーションセンサの関連パラメータは、モーションセンサによって又はIMU、ジャイロスコープ、加速度計などを介して収集された情報に基づいて取得されてもよい。
更なる他の例として、動きパラメータがモーションセンサの関連パラメータを含まず、ターゲットオブジェクトの運動速度、運動方向、運動加速度、デプス、などを含む場合に、動きパラメータは、モーションセンサによって収集された情報に基づいて計算を通じて取得されてもよい。更に別の例として、動きパラメータがモーションセンサの関連パラメータ、例えば、オプティカルフロー情報、モーションセンサの加速度、又はモーションセンサの角速度を含む場合に、モーションセンサの関連パラメータは、モーションセンサによって又はIMU、ジャイロスコープ、加速度計などを介して収集された情報に基づいて取得されてもよい。
例えば、動きパラメータは、IMUによって収集されたデータから取得される。IMUによって収集されたデータには、IMUの角速度ω、加速度α、などが含まれ得る。角速度ω、加速度α、などのうちの1つ以上は、動きパラメータとして選択され得る。
可能な実施において、動きパラメータは、モーションセンサによって収集されてもよい。いくつかのシナリオで、モーションセンサが動きパラメータを収集する場合に、動きパラメータはノイズ、オフセット、などによって影響を及ぼされる可能性がある。その結果、動きパラメータはオフセットである。従って、いくつかの誤り訂正パラメータが、動きパラメータの正確さを改善するよう、動きパラメータを補正するために使用されてもよい。動きパラメータを決定した後、モーションセンサは、補正された動きパラメータを取得するよう動きパラメータに対して補正を実行してもよい。代替的に、データを収集する場合に、モーションセンサは、補正されたデータを取得するよう補正パラメータに基づいて補正を実行するよう構成されてよい。バイアスのない動きパラメータが、モーションセンサによって収集されたデータから直接抽出され得る。従って、本願のこの実施では、補正された動きパラメータが、動きパラメータがより正確であるように取得されてもよい。
例えば、IMUのデータは、ノイズ又はゼロバイアスパラメータによって影響を受けやすく、ゼロバイアスパラメータは、ランダムウォークによって影響を及ぼされるので、常に更新及び補正される必要がある。従って、動きパラメータが抽出される場合に、ノイズ又はゼロバイアスパラメータの影響は、IMUによって収集されたデータから取り除かれ得る。例えば、角速度の真値は、一般に:
と表され、加速度の真値は:
と表される。
は、変換行列を表し、時点iから各時点jまでのカメラの変換行列は、
であり、具体的には、空間座標系からカメラ本体の座標系への変換を表すことができ、gは重力加速度であり、nはノイズであり、bはゼロバイアスパラメータである。
具体的には、例えば、等速直線運動モデルが、ターゲットオブジェクトとモーションセンサとの間の相対運動を表すために使用されてよく、動きパラメータは速度ベクトルvであってよい。異なる運動モデルが異なるシナリオでは選択され、従って、複数の動きパラメータに対応し得ることが留意されるべきである。例えば、等加速度直線運動では、動きパラメータは運動ベクトルv及び加速度apである。初速度ベクトル
は、位相平面のデプスZ、投影モデルπ、及びIMUデータに基づいて計算された変換行列に基づいて計算を通じて取得され、Eは単位行列を表し、Oz0は位相平面の原点を表し、Δtは期間である。
更に、例えば、動きパラメータは、DVSによって収集されたデータに基づいて計算される。図36において、白色は、DVSによってモニタされたイベントを示し、言い換えると、DVSは、前もってセットされた範囲内のターゲットオブジェクトの輪郭及び位置をモニタし得る。このようにして、DVSによってモニタされる、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡に基づいて、ターゲットオブジェクトの運動速度が計算され得、ターゲットオブジェクトの運動方向が抽出される。
具体的に、時間窓が、DVSによってモニタされたデータに基づいて生成されてよい。次いで、時間窓内のイベントについて、時間窓は短時間窓に分割され、短時間窓内のイベントは累積され、各時間窓内で累積されたイベントに対応する画像は、イベント画像の1フレームとして理解され得る。更に、時間窓内の一連の運動軌跡が更に解析されてもよく、オプティカルフロー又は運動ベクトルを計算する方法は、動いているターゲットオブジェクトの運動特徴、例えば、運動方向及び運動速度などの情報を取得するために使用される。
例えば、図37に示されるように、時間窓は、図37に示されるk個の短時間窓のような複数の短時間窓に分割されてよい。各時間窓はイベント画像の1フレームに対応してよい。セグメンテーション方法は、セットされた期間に基づいてセグメンテーションを行うことであってよく、あるいは、ランダムな期間に基づいてセグメンテーションを行うこと又は運動軌跡変化ステータスに基づいてセグメンテーションを行うこと、などであってもよい。これは、具体的に、実際の適用シナリオに基づいて調整されてよい。k個の短時間窓がセグメンテーションを通じて取得された後、各短時間窓内のイベントの位置は解析され、ターゲットオブジェクトが各短時間窓内で位置している領域が決定される。例えば、短時間窓1内の動き領域は、図37に示される動き領域1であり、短時間窓k内の動き領域は、図37に示される動き領域kである。次いで、動き領域、及びターゲットオブジェクトの運動方向又は運動速度などの運動特徴は、短時間窓1~k内の動き領域の変化に基づいて決定される。
可能な実施にいて、動きパラメータが取得された後、かつ、最適化モデルが初期化される前、動きパラメータは、補償されたイベント画像を取得するよう、イベント画像を補償するために使用されてよい。例えば、ターゲットオブジェクトの運動軌跡は等速直線運動であり、モーションセンサはDVSであり、時間窓[t,t+Δt]内のtk時点でDVSによって捕捉される位置はxkであり、ターゲットオブジェクトの運動軌跡は、直線運動の複数のセグメントに分割されてよい。θ(つまり、動きパラメータ)は、イベント画像内のターゲットオブジェクトの運動速度を表すために使用される。この場合に、ターゲットオブジェクトに対して動き補償を実行することによって取得されるイベント画像内の位置xk’は、xk’=xk-(tk-tref)・θである。動き補償がイベント画像内の全てのイベントに対して実行された後、補償されたイベント画像が取得され得る。
3804:最適化モデルの値を取得するよう、動きパラメータに基づいて最適化モデルの前もってセットされた値を初期化する。
動きパラメータが取得された後、動きパラメータは、補償されたイベント画像を取得するイベント画像を補償するために使用されてよく、次いで、最適化モデルの初期値、又は初期最適化値とも呼ばれるものが、補償されたイベント画像に基づいて計算される。
複数の最適化モデルが存在してよく、異なる最適化モデルが異なるシナリオに基づいて選択されてもよい。例えば、最適化モデルには、次の:分散(variance)、二乗平均(mean square)、画像エントロピ(image entropy)、勾配の大きさ(gradient magnitude)、ラプラシアン(Laplacian)、SoS損失関数、R2損失関数、等速直線運動モデル、など、のうちの1つ以上が含まれ得るが限られない。分散はコントラストとも呼ばれることがある。コントラストを最大化するアルゴリズムには、勾配立ち上がり、ニュートン法、などが含まれ得る。更新された動きパラメータは、1回の反復により計算され、次いで、上記のプロセスは、最適なコントラストが達成されるまで繰り返される。
本願のこの実施形態で、コントラストアルゴリズムは、最適化モデルの記載のために単に一例として使用されていることが留意されるべきである。一般に、イベント画像のコントラストが大きいほど、イベント画像のより良い補償効果又はより良い更新効果を示す。他のシナリオでは、最適化モデルの最適値は最小値であってよい。具体的に言えば、最適化モデルの値が小さいほど、イベント画像のより良い更新効果を示す。
3805:イベント画像の更新された少なくとも1フレームを取得するよう、最適化モデルの値に基づいてイベント画像の少なくとも1フレームを更新する。
最適化モデルが動きパラメータを使用することによって初期化され、最適化モデルの値が取得された後、反復的な更新が、最適化モデルの値に基づいてイベント画像の少なくとも1フレームに対して実行され、イベント画像の更新された少なくとも1フレームが得られる。
具体的に、最適化モデルの初期値が取得された後、イベント画像を反復的に更新する過程で、動きパラメータは初期値に基づいて逆推論されてよく、イベント画像は、補償されたイベント画像を取得するよう、逆推論を通じて取得された動きパラメータに基づいて補償されてよい。次いで、最適化モデルの最適値は、補償されたイベント画像に基づいて計算され、上記のステップは、反復を終了する条件が満足されるまで繰り返される。例えば、反復回数が前もってセットされた回数に達する場合、又は反復期間が前もってセットされた期間に達する場合、又は隣接した反復で取得されたイベント画像間の差が前もってセットされた値よりも小さい場合、又は隣接した反復で取得された最適化モデルの最適値間の差が前もってセットされたさよりも小さい場合、最終的に取得されたイベント画像が出力される。
例えば、コントラスト(又は分散と呼ばれる)Fが最適化モデルとして選択される。動きパラメータが一定の速度である例が使用される。動きパラメータθが初期化されて、最大化されたFを有するイベント画像が得られた後、更新された解θ=argminF(θ,x)が、Fをターゲット関数として使用することによって動きパラメータθに対して実行される必要がある。
動画像を補償するプロセスは、時間窓[t,t+Δt]内のイベント画像が、動き補償を実施するために、動きモデルに基づいて時点tでのイベント画像に逆推論されるものとして理解され得る。例えば、ターゲットオブジェクトの運動軌跡は等速直線運動であり、時間窓[t,t+Δt]内のtk時点でDVSによって捕捉された位置はxkであり、ターゲットオブジェクトの運動軌跡は、直線運動の複数のセグメントに分割されてよく、θは、イベント画像内のターゲットオブジェクトの運動速度を表すために使用される。この場合に、ターゲットオブジェクトに対して動き補償を実行することによって取得されるイベント画像内の位置xk’は、xk’=xk-(tk-tref)・θである。ターゲットオブジェクトに対して動き補償を実行することによって取得されるイベント画像内の位置は、一度更新されたイベント画像を取得するよう、累積される。
次いで、動き補償を実行することによって取得されたイベント画像の画像コントラストは、
として計算される。hi,jは、時間窓内のイベントに対して動き補償を実行することによって形成されるイベント画像内のピクセルを表し、Npは、フレーム内のピクセル数を表し、μは、フレームの平均値を表す。次いで、F(x,θ)を最適化するθ値θ=argminF(θ,x)が最適化アルゴリズムに従って計算され、最適な動きパラメータθは複数回の反復を通じて計算される。次いで、イベント画像は、より良いイベント画像を取得するよう最適な動きパラメータに基づいて補償される。最適化アルゴリズムは、勾配上昇法、ニュートン法、共役勾配法(Conjugate Gradient)、又は慣性最適化法(Momentum)などのアルゴリズムを使用してよく、具体的には、実際の適用シナリオに基づいて調整されてよい。これは本願で制限されない。
理解を容易にするために、ステップ3805は、動きパラメータが取得された後、動きパラメータを使用することによってイベント画像に対して補償が実行され、最適化モデルの最適値(つまり、初期値)は、補償されたイベント画像に基づいて計算され、次いで、最適な動きパラメータは、最適値に基づいて逆推論される。イベント画像は、逆推論を通じて取得された最適な動きパラメータを使用することによって再び補償され、上記のステップは、最終的な更新されたイベント画像を取得するよう繰り返される。
より具体的には、イベント画像の少なくとも1フレームを繰り返し更新するプロセスについては、以下の実施2を参照されたい。詳細はここでは記載されない。
従って、本願のこの実施において、イベント画像が更新される前に、最適化モデルは、動きパラメータを使用することによって初期化されてよく、それにより、イベント画像は、初期化された最適化モデルの値に基づいて更新されてよく、イベント画像は、最適化モデルの最小値又はランダム初期値から更新される必要がない。従って、イベント画像の反復更新回数は減らすことができ、イベント画像の反復更新効率は改善され得、最適なイベント画像は迅速に取得され得る。
可能な実施において、最適化モデルの最適値が計算を通じて取得されるたびに、補正パラメータは更新されてよく、補正パラメータは、補正された動きパラメータを取得するために使用されてよい。例えば、モーションセンサがデータを収集した後、補正パラメータは、補正されたデータを得るように、収集されたデータを補正するために使用され、それにより、より正確な動きパラメータがその後に、補正されたデータから抽出され得る。代替的に、動きパラメータがモーションセンサによって収集されたデータから抽出された後、補正パラメータは、より正確な動きパラメータを取得するよう、動きパラメータを補正するために使用されてよい。例えば、動きパラメータは、IMUによって実行される収集によって取得されてよい。毎回計算を通じて最適化モデルの最適値を取得する過程で、IMUパラメータ、又は補正パラメータと呼ばれるものは、更新されてよい。IMUパラメータは、IMUによってデータを収集するために使用されてよい。例えば、IMUのデータは、ノイズn及びゼロバイアスパラメータbによって影響を受けやすく、ゼロバイアスパラメータは、ランダムウォークによって影響を及ぼされ、従って、常に更新及び補正される必要がある。角速度の真値は、一般に:
と表され、加速度の真値は:
と表される。b及びngは、より正確な動きパラメータを取得するよう、収集されたデータを補正するためのIMUパラメータである。従って、本願の実施において、イベント画像を更新する過程で、IMUパラメータは更に更新されてよく、それにより、更新されたIMUパラメータは、より正確な動きパラメータを取得するために使用されてよい。一般に、動きパラメータは、IMUによって収集されたデータを積分することによって取得されてよい。誤差は徐々に累積され、時間が長いほど、計算を通じて取得された動きパラメータのドリフトが大きいことを示す。一般に、IMUのデータは短時間に較正され得ない。しかし、本願のこの実施において、最適化モデルの最適値が取得された後、IMUパラメータは、最適値を使用することによって更新されてよく、それにより、動きパラメータは、その後に、より正確なIMUパラメータに基づいて取得され、それによって、動きパラメータの精度を改善することができる。
図39を参照されたく、本願で提供される画像処理方法のプロシージャは、動きパラメータがIMUによって収集されたデータから取得され、モーションセンサがDVSである例を使用することによって、以下で記載される。
最初に、IMUデータ3901は、IMUによって収集されたデータであり、具体的には、IMUの角速度、加速度、速さ、などを含んでよい。一般に、IMU及びDVSは、同じデバイスに配置されるか、又は接続関係を有してよい。従って、IMUの角速度、加速度、速さ、などは、DVSの角速度、加速度、速さ、などとしても表され得る。
動きパラメータ3901は、IMUデータから取得されたデータ、例えば、角速度、加速度、又は速さであってよい。一般に、IMUによって収集されたデータは、ノイズn及びゼロバイアスパラメータbによって影響を受けやすく、ゼロバイアスパラメータは、ランダムウォークによって影響を及ぼされ、従って、常に更新及び補正される必要がある。角速度の真値は、一般に:
と表され、加速度の真値は:
と表される。
は、変換行列を表し、時点iから各時点jまでのカメラの変換行列は、
であり、具体的には、空間座標系からカメラ本体の座標系への変換を表すことができ、gは重力加速度であり、nはノイズであり、bはゼロバイアスパラメータである。
イベント画像が更新される前に、動きパラメータ3901は、コントラスト3904を初期化するために使用されてよい。更に、動きパラメータは、補償されたイベント画像を得るよう、イベント画像3903を補償するために使用されてよい。
イベント画像が補償される場合に、時間窓[t,t+Δt]内のイベント画像は、動き補償を実施するために、動きモデルに基づいて時点tでのイベント画像に逆推論されるものとして理解され得る。例えば、補償された位置xk’は、xk’=xk-(tk-tref)・θである。補償された画像は、ターゲットオブジェクトに対して補償を実行することによって取得される画像内のターゲットオブジェクトの位置を累積することによって、取得されてよい。
本願のこの実施形態で、最適化モデルがコントラスト(又は分散と呼ばれる)アルゴリズムである例が記載のために使用されることが留意されるべきである。実際の適用シナリオでは、コントラストは、分散(variance)、二乗平均(mean square)、画像エントロピ(image entropy)、勾配の大きさ(gradient magnitude)、又はラプラシアン(Laplacian)などの他のインジケータで置換されてもよく、具体的には、実際の適用シナリオに基づいて調整されてよい。
補償されたイベント画像が取得された後、最大化されたコントラストが、補償されたイベント画像に基づいて計算されてよく、動きパラメータは、最大化されたコントラストを使用することによって更新され、更新された動きパラメータは、更新されたイベント画像を得るよう、イベント画像を補償するために引き続き使用される。上記のステップは、反復を終了する条件が満足されるまで繰り返され、最終的なイベント画像が出力される。
補償されたイベント画像hijが取得された後、画像コントラスト
が計算され、Npは、イベント画像内のピクセル数を表し、μは、イベント画像の平均値を表す。次いで、F(x,θ)を最大化する動きパラメータθが計算され、言い換えると、どのθがFを最大化できるかが計算される。従って、更なる反復補償は、更新された画像を得るために、最大化中に取得された動きパラメータθに基づいてイベント画像に対して実行されてよい。
コントラストを最大化する過程で、IMUパラメータも同時に更新されてよい。IMUパラメータは、IMUによってデータを収集するために使用されても、IMUによって収集されたデータを補正するためのものであっても、又は同様のものであってもよい。
例えば、角速度の真値は、
と表され、加速度の真値は、
と表される。この場合に、IMUパラメータは、ノイズn及びゼロバイアスパラメータbを含んでよい。IMUデータから動きパラメータを計算するプロセスは、θ=G(ba,bg,a,ω)と見なされ、b’a、b’g=argminF(G(ba,bg),x)である。従って、更新されたノイズn及びゼロバイアスパラメータbが取得される。
従って、本願のこの実施形態において、動きパラメータは、IMUによって収集されたデータに基づいて取得されてよく、それにより、コントラスト初期化は、動きパラメータに基づいて実行され、次いで、イベント画像は、更新されたイベント画像を取得するよう、初期化されたコントラストに基づいて更新される。これは、動きパラメータに基づいてコントラストの初期値をセットすることと同等であり、これにより、複数回イベント画像に対して実行される反復の回数は減り、また、最終的なイベント画像を取得する効率は向上する。
プロセス2:反復更新プロセス
図40は、本願に係る他の画像処理方法の略フローチャートであり、以下で記載される。
4001:ターゲットタスクを取得し、ターゲットタスクに基づいて反復期間を決定する。
ターゲットタスクは、イベント画像の少なくとも1フレームを繰り返し更新する存続期間を含んでよく、あるいは、ターゲットタスクは、イベント画像の少なくとも1フレームを使用することによって実行されてよく、イベント画像の少なくとも1フレームを繰り返し更新する存続期間を含む。
例えば、ターゲットタスクは、イベント画像の少なくとも1フレームを繰り返し更新する存続期間を直接運んでよい。例えば、ユーザは、イベント画像の各フレームを繰り返し更新する存続期間を30msにセットしてもよい。
他の例として、ターゲットタスクは、イベント画像の少なくとも1フレームを使用することによって実行される、ターゲット検出、画像再構築、又は動いているオブジェクトの撮影などタスクであってよい。ターゲットタスクは、イベント画像の各フレームを繰り返し更新する存続期間が50msなどであるか、あるいは、イベント画像の少なくとも1フレームの全反復存続期間が3900msであることを更に含んでもよい。
本願のステップ4001は任意のステップであることが留意されるべきである。いくつかのシナリオで、イベント画像の反復存続期間は、例えば、イベント画像を繰り返し更新する反復回数が前もってセットされた回数に達する場合、又は最適化モデルの出力値の変化値が前もってセットされた値を超えない場合に、セットされなくてもよい。これは、実際の適用シナリオに基づいて特に調整されてよく、ここで制限されない。
4002:動き情報を取得する。
4003:動き情報に基づいてイベント画像の少なくとも1フレームを生成する。
ステップ4002及び4003は、上記のステップ3801及び3802と同様であり、詳細はここで再び記載されない。
イベント画像が取得された後、反復的な更新がイベント画像に対して実行されてよい。反復的な更新のプロセスについては、続くステップ4004~4006で記載され得る。
ステップ4001及びステップ4003を実行する順序は本願で制限されないことが更に留意されるべきである。ステップ4001が最初に実行されてよく、あるいは、ステップ4003が最初に実行されてもよく、あるいは、ステップ4001及びステップ4003は同時に実行されてもよい。これは、実際の適用シナリオに基づいて特に調整されてよく、ここで制限されない。
4004:最適化モデルに基づいて前の反復で取得された動きパラメータを取得する。
動きパラメータは、センサとターゲットオブジェクトとの間の相対運動に関するパラメータ、例えば、ターゲットオブジェクトの運動速度、ターゲットオブジェクトの運動方向、ターゲットオブジェクトの運動加速度、ターゲットオブジェクトのオプティカルフロー情報、モーションセンサの加速度、及びモーションセンサの角速度又はデプスを示す。オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の速さを表す。
現在の反復が最初の反復である場合に、動きパラメータは初期値にセットされてよく、例えば、0又はプリセット値にセットされ、あるいは、動きパラメータは、モーションセンサによって収集された情報に基づいて計算されてもよい。
現在の反復が最初の反復ではない場合に、動きパラメータの値は、前の反復プロセスでの最適化モデルの最適値に基づいて逆推論されてよく、次いで、逆推論に通じて取得された値は、動きパラメータの値として使用される。代替的に、逆推論を通じて取得された動きパラメータと、ステップ3803において上記の方法で決定された動きパラメータとに対して重み付き融合が実行され、融合された動きパラメータが取得される。
例えば、イベント画像の各反復更新において、最適値f(x,θ)が計算を通じて取得された後、動きパラメータθの値は、更新された動きパラメータを計算により取得するよう、θ=argminF(θ,x)と逆推論される。
他の例として、イベント画像の前の反復更新での最適化モデルの最適値に基づいて取得された動きパラメータ(区別を容易にするために、動きパラメータ1と呼ばれる)に加えて、動きパラメータ(区別を容易にするために、動きパラメータ2と呼ばれる)が更に、モーションセンサによって収集されたデータに基づいて取得されてよい。動きパラメータ2を取得する方法については、上記のステップ3803を参照されたく、詳細はここで再び記載されない。本願のこの実施形態でこの反復的な更新において使用される動きパラメータは、動きパラメータ1及び動きパラメータ2に対して重み付き融合を実行することによって取得されてもよい。例えば、動きパラメータ1の重み値は、0.8にセットされてよく、動きパラメータ2は、IMUによって収集されたパラメータであってよく、動きパラメータ2の重み値は、0.2にセットされる。この場合に、この反復的な更新で使用される動きパラメータは、0,2*動きパラメータ2+0.8*動きパラメータ1に等しい。
更に、イベント画像の上記の少なくとも1フレームがイベント画像の複数のフレームであり、現在の反復更新でのイベント画像が前の反復更新でのイベント画像とは異なる場合に、前の反復更新がイベント画像に対して実行されたときに取得された動きパラメータは、現在の反復更新でのイベント画像を更新するために使用されてもよい。従って、本願のこの実施において、異なるイベント画像が更新される場合に、イベント画像の前のフレームを繰り返し更新することによって取得された動きパラメータは、現在のイベント画像を更新するために使用されてよく、それにより、より正確な動きパラメータが更新のために使用され得る。動きパラメータの値を再初期化することと比較して、本願のこの実施形態では、有効な動きパラメータが供給され、それにより、イベント画像の更新効率は大幅に向上することができる。
4005:動きパラメータに基づいてイベント画像の少なくとも1フレームを更新して、イベント画像の更新された少なくとも1フレームを取得する。
現在の反復の動きパラメータが取得された後、現在の反復的な更新で得られたイベント画像の少なくとも1フレームを取得するよう、動きパラメータに基づいてイベント画像に対して補償が実行される。
具体的に、イベント画像の少なくとも1フレームがイベント画像の1フレームである場合に、各反復プロセスで、イベント画像のそのフレームに対して反復的な更新が実行されてよい。イベント画像の少なくとも1フレームがイベント画像の複数のフレームである場合に、イベント画像の1フレームを更新した後、イベント画像の次のフレームが引き続き更新されてよく、あるいは、異なるイベント画像が、全てのイベント画像の反復的な更新を完了するために、毎回の反復で更新されてもよい。例えば、複数回の反復的な更新は、まず、期間[t0,t1]でイベント画像に対して実行されてよい。期間[t0,t1]でのイベント画像の更新が完了した後、最終的な動きパラメータが計算される。動きパラメータに基づいて、期間[t1,t2]でのイベント画像が更新される。他のイベント画像は類推によって推定可能である。他の例として、最初の反復プロセスで、期間[t0,t1]でのイベント画像が更新されてよい。動きパラメータが計算を通じて取得された後、期間[t1,t2]でのイベント画像が動きパラメータに基づいて更新される。他のイベント画像は類推によって推定可能である。
理解を容易にするために、イベント画像(又はターゲットイベント画像と呼ばれる)の1フレームが、本願のこの実施形態では説明のために例として使用される。
例えば、動きパラメータθが決定された後、ターゲット画像内の各イベントの位置に対して補償が実行され、例えば、xk’=xk-(tk-tref)・θであり、xk’は、xkの補償された位置であり、各位置での変換されたイベントは、更新されたターゲットイベント画像
を形成するよう累積され得、Neは、ターゲットイベント画像内のイベントの数を表し、bkは、ターゲットイベント画像の表現方式を表し、値は0又は1であってよい。
例えば、図41に示されるように、イベント画像は異なる形式で表される。反復回数が増えるにつれて、取得されるイベント画像は鮮明になることは明らかである。
イベント画像に対して補償が実行された後、イベント画像の品質が最適化モデルの値に基づいて測定されてもよい。最適化モデルには、次の:分散(variance)、二乗平均(mean square)、画像エントロピ(image entropy)、勾配の大きさ(gradient magnitude)、ラプラシアン(Laplacian)、SoS損失関数、R2損失関数、など、のうちの1つ以上が含まれ得るが限られない。最適化アルゴリズムは、最適化モデルの最適値を計算するために使用されてよく、次いで、新しい動きパラメータが最適値に基づいて計算され得る。
理解を容易にするために、ステップ4005は、補償がイベント画像に対して実行された後、イベント画像の品質が、分散、二乗平均、画像エントロピ、勾配振幅、又はラプラシアンなどの前もってセットされた評価インジケータ、例えば、
を使用することによって測定されるものとして理解されてよい。現在の反復更新プロセスで取得された更新された動きパラメータは、F(x,θ)を最大化するθ値を最適化アルゴリズムに従ってθ=argminF(θ,x)として計算することによって、取得され得る。Fがコントラストであることが一例として使用される。コントラストを最大化する最適化アルゴリズムは、更新された動きパラメータを計算するための勾配上昇又はニュートン法などの方法を使用してよく、次いで、更新されたイベント画像又はイベントの次のフレームが、動きパラメータを使用することによって更新される。上記のプロセスは繰り返し、イベント画像の最終的な更新された少なくとも1フレームが得られる。
4006:反復が終了するかどうかを決定し、反復が終了する場合に、ステップ4007を実行し、あるいは、反復が終了しない場合には、ステップ4004を実行する。
イベント画像の各反復更新プロセスで、イベント画像が更新された後、イベント画像の反復的な更新が終了するかどうかが決定されてよい。反復が終了する場合に、画像の更新された少なくとも1フレームが出力されてよい。反復が終了しない場合には、反復的な更新はイベント画像に対して実行され続けてよく、つまり、ステップ4004が実行される。
具体的に、反復が終了するかどうかを決定する方法は、現在の反復の結果が前もってセットされた条件を満足するかどうかを決定し、現在の反復の結果が前もってセットされた条件を満足する場合に反復を終了することを含んでよく、終了条件は、次の:イベント画像の少なくとも1フレームに対して実行された反復的な更新の回数が前もってセットされた回数に達すること、イベント画像の少なくとも1フレームに対して実行された反復的な更新の存続期間が前もってセットされた存続期間に達すること、イベント画像の少なくとも1フレームを更新する過程での最適化モデルの最適値の変化が前もってセットされた値よりも小さいこと、など、のうちの1つ以上を含む。前もってセットされた存続期間は、ステップ4001でターゲットタスクに基づき決定されてよく、あるいは、前もってセットされた存続期間、例えば100ms又は50msであってよい。例えば、ユーザは、端末のインタラクティブインターフェースでのイベント画像の各フレームの反復的な更新の存続期間をセットしてもよい。
従って、いくつかのシナリオで、反復回数は実際の要件に基づいて決定されてよく、イベント画像処理の効率及びイベント画像の品質の両方が考慮され、イベント画像は、効率と品質との間のバランスを達成するように、実時間処理要件が満足される場合に更新される。
4007:イベント画像の更新された少なくとも1フレームを出力する。
イベント画像の反復的な更新が終了した後、イベント画像の更新された少なくとも1フレームが出力されてよい。
任意に、その後の解析は、その後にイベント画像の更新された少なくとも1フレームを使用することによって実行されてよい。例えば、更新されたイベント画像は、デプス推定、オプティカルフロー推定、画像再構築、ターゲット検出、動いているオブジェクトの撮影、動いているデバイスを使用することによる撮影、撮影ブレ補正、動き推定、デプス推定、又はターゲット検出及び認識を実行するためのものであってよい。
本願の実施において、各反復プロセスで、現在の反復で使用されている動きパラメータは、前の反復で取得された最適化モデルの最適値を使用することによって取得されてよく、イベント画像は、補償されたイベント画像を取得するよう動きパラメータに基づいて補償される。従って、イベント画像を更新する効率は改善され得、より高い品質のイベント画像が直ぐに取得され得る。更に、要件を満たすイベント画像が更新効率及びイベント画像の品質の両方を考慮することによって即時にかつ効率的に取得され得るように、反復回数は特定のシナリオに基づいて調整されてもよい。
理解を容易にするために、以下は、本願で提供される画像処理方法のプロシージャについて記載するために、いくつかの具体的な反復プロセスを例として使用する。
イベント画像の1フレームが例として使用される。図42は、本願に係る他の画像処理方法の略フローチャートであり、以下で説明される。
最初に、DVSによってデータ4204が取得されてよく、イベント画像4202は、初期イベント画像を取得するよう、DVSによって取得されたデータに基づいて初期化されてよい。一般に、イベント画像は、極性(b=-1又は+1)情報に基づいて表現され得る。例えば、1は、ピクセルにイベントが存在することを示し、-1は、ピクセルにイベントが存在しないことを示す。代替的に、イベント画像は、単にイベント(b=0又は1)をカウントすることによって表現されてもよい。例えば、1は、ピクセルにイベントが存在することを示し、0は、ピクセルにイベントが存在しないことを示す。
現在の反復が最初の反復である場合に、動きパラメータ4201は初期化されたパラメータであってよく、例えば、0又はプリセット値に初期化されているか、あるいは、動きパラメータは、IMUによって収集されたデータに基づいて初期化されてよい。例えば、IMUによって収集された加速度又は速さが、初期化された動きパラメータとして使用されてよい。更に、その後の反復プロセスで、動きパラメータは、前の反復で取得された動きパラメータであってよく、モーションセンサ(例えば、DVS、IMU、加速度計、又はジャイロスコープ)によって収集されたデータに基づいて取得された動きパラメータであってよく、あるいは、前の反復で取得された動きパラメータ及びモーションセンサ(例えば、DVS、IMU、加速度計、又はジャイロスコープ)によって収集されたデータから取得された動きパラメータに加重演算を実行することによって取得される、現在の反復で使用される動きパラメータであってよい。
動きパラメータ4201が取得された後、イベント画像4202は、補償されたイベント画像を取得するよう、動きパラメータを使用することによって補償される。例えば、動きパラメータθが決定された後、ターゲットイベント画像内の各イベントの位置に対して補償が実行され、例えば、xk’=xk-(tk-tref)・θであり、ここで、xk’は、xkの補償された位置であり、各位置での変換されたイベントは、更新されたターゲットイベント画像
を形成するよう累積され得る。
イベント画像が動きパラメータ4201を使用することによって補償された後、補償されたイベント画像は、コントラストを最大化するために使用される。例えば、
である。F(x,θ)を最大化するθ値は、動きパラメータを更新するよう、最適化アルゴリズムに従ってθ=argminF(x,θ)と計算される。
イベント画像の反復回数が前もってセットされた回数に達するか、又はイベント画像の反復存続期間が前もってセットされた存続期間に達するか、又は最大化されたコントラスト値の変更値が前もってセットされた変更値を超えない場合に、イベント画像の反復的な更新は終了することができ、最終的なイベント画像が出力される。
従って、本願のこの実施において、動きパラメータは、前の反復で取得された最大化されたコントラストを使用することによって逆推論されてよく、それによって、イベント画像が次に更新される場合に、動きパラメータはイベント画像を補償するために使用されてよく、更新されたイベント画像は直ぐに取得され得る。更新効率が確保される場合には、より良い品質を持ったイベント画像が取得され得る。
上記は、イベント画像の1フレームが更新される例を、記載のための例として使用している。以下は、イベント画像の複数のフレームが更新される例を、記載のための例として使用する。
例えば、図43に示されるように、イベント画像の3つのフレーム(図43に示されるイベント画像1、イベント画像2、及びイベント画像3)の反復更新プロセスが例として使用される。イベント画像の3つのフレームは、異なる期間にDVSによって収集されたデータに基づいて生成されてよい。例えば、期間[t0,t1]に収集されたイベントは、イベント画像1を取得するよう累積されてよく、期間[t1,t2]に収集されたイベントは、イベント画像2を取得するよう累積されてよく、期間[t2,t3]に収集されたイベントは、イベント画像3を取得するよう累積されてよい。
反復更新1の過程で、現在の反復が最初の反復である場合に、動きパラメータθ1は、モーションセンサによって収集されたデータに基づいて初期化されてよく、又はプリセット値に初期化されてよい。例えば、動きパラメータθ1は、IMUによって収集されたデータから抽出されてよい。例えば、IMUは、IMUの加速度、角速度、又は速さを収集してよく、IMUの加速度、角速度、又は速さのうちの1つ以上が動きパラメータθ1として直接選択されてよい。他の例として、動きパラメータの初期化値は、0又は他の値に前もってセットされてもよい。
イベント画像1を更新する過程で、イベント画像1は、補償されたイベント画像を取得するよう、動きパラメータθ1を使用することによって補償されてよく、次いで、最大化されたコントラストが、補償されたイベント画像及び最適化アルゴリズムに基づいて計算され、動きパラメータθ1は、最大化されたコントラストを使用することによって更新される。
イベント画像1乃至イベント画像3を反復的に更新する具体的なプロセスは、図42の更新プロセスと類似しており、詳細はここで再び記載されない。
イベント画像1の反復的な更新が終了した後、最後の反復によって取得されたコントラストを使用することによって更新された動きパラメータθ1は、動きパラメータθ2を初期化するために使用されてよい。イベント画像2の反復的な更新が終了した後、最後の反復によって取得されたコントラストを使用することによって更新された動きパラメータθ2は、動きパラメータθ3を初期化するために使用されてよい。
可能な実施において、イベント画像の各フレームが更新された後にイベント画像の次のフレームを更新することに加えて、イベント画像の複数のフレームを更新するために、イベント画像の全フレームが周期的に一度更新されてよい。
従って、本願のこの実施において、イベント画像の1フレームを更新した後、イベント画像の次のフレームを更新するために使用される動きパラメータは、イベント画像を更新することによって取得された動きパラメータに基づいて初期化されてよく、それにより、イベント画像が更新されるたびに、既存の動きパラメータが更新のために使用され得るので、イベント画像は効率的に更新され得る。
プロセス3:動きパラメータを使用することによって最適化モデルを初期化し、反復的な更新を実行する
上記は、動きパラメータを初期化し、イベント画像に対して反復的な更新を実行するプロセスについて個別に記載している。いくつかのシナリオでは、本願で提供される画像処理方法において、動きパラメータを初期化し、イベント画像に対して反復的な更新を実行するプロセスは、実施のために一緒にまとめられてもよい。以下は、実施のための複合的な方法について記載する。
例えば、いくつかのシナリオで、例えば、1つの端末デバイスは複数のモーションセンサを含んでよい。例えば、端末デバイスはDVS及びIMUの両方を含んでよく、イベント画像は、DVSによって収集されたデータに基づいて生成されてよく、IMUによっては、動きパラメータを初期化するために使用されてよく、それから、反復的な更新が、初期化された動きパラメータに基づいてイベント画像に対して実行される。
以下は、IMUによって取得されたデータに基づいて動きパラメータが初期化される例を、記載のための例として使用する。いくつかのシナリオで、初期化された動きパラメータは、代替的に、加速度計、ジャイロスコープ、重力センサ、又はDVSなどの他のセンサによって収集されたデータに基づいて決定されてもよい。図44は、本願に係る他の画像処理方法の略フローチャートである。
4401:IMUによって収集されたデータを取得する。
IMUは、IMUの三軸角速度及び加速度を測定するよう構成されてよく、IMUによって収集されたデータには、IMUの角速度ω、加速度α、などが含まれ得る。
例えば、あるシナリオでは、ユーザは、携帯電話機により撮影を行う場合がある。RGBカメラ(又はRGBセンサと呼ばれる)に加えて、携帯電話機は、DVS及びIMUを更に含むことがある。DVSによって収集されたデータは、RGBカメラによる撮影のための他の補助機能、例えば、RGBカメラによって捕捉されたRGB画像の焦点合わせ又は補償を提供するために使用されてもよい。ユーザが携帯電話機により撮影を行う場合に、IMUは、IMUの動き変化、例えば、角速度又は加速度を同時に検出してもよい。
4402:動きパラメータを初期化する。
動きパラメータは、IMUによって収集されたデータから選択されてよい。例えば、IMUによって収集されたデータには、IMUの角速度ω、加速度α、などが含まれ得る。角速度ω、加速度α、などのうちの1つ以上が動きパラメータとして選択されてよい。
4403:ターゲットタスクを取得し、ターゲットタスクに基づいて反復存続期間を決定する。
4404:動き情報を取得する。
4405:動き情報に基づいてイベント画像の少なくとも1フレームを生成する。
ステップ4403から4405については、上記のステップ4001から4003の記載を参照されたく、詳細はここで再び記載されない。
4406:動きパラメータに基づいてイベント画像を更新して、更新されたイベント画像を取得する。
ステップ4406については、ステップ4005の記載を参照されたく、詳細はここで再び記載されない。
4407:反復存続期間に達しているかどうかを決定し、反復存続期間に達している場合には、ステップ4409を実行し、又は反復存続期間に達していない場合には、ステップ4408を実行する。
イベント画像の現在の更新が完了した後、イベント画像の反復存続期間が前もってセットされた反復存続期間に達している場合には、イベント画像の反復的な更新は終了されてよく、最終的なイベント画像が取得される。
更に、反復的な更新がイベント画像の複数のフレームに対して実行される必要がある場合には、イベント画像が毎回更新されて後に、前もってセットされた反復存続期間に達しているかどうかが決定されてもよく、イベント画像の更新された少なくとも1フレームは、全てのイベント画像が更新された後に出力されてよい。
4408:動きパラメータを更新する。
イベント画像の反復的な更新が完了していない場合には、各更新が完了した後、更新されたイベントは、最適化モデルの入力として使用されてもよく、最適化モデルの最適値は、前もってセットされた反復存続期間最適化アルゴリズムを使用することによって計算され、動きパラメータは最適値に基づいて更新される。
現在の反復がイベント画像の少なくとも1フレームの最後の反復更新である場合に、ステップ4408は実行されてよく、あるいは、ステップ4408は実行されなくてもよいことが留意されるべきである。これは、実際の適用シナリオに基づいて特に調整されてよい。
可能な実施において、最適化モデルの最適値を使用することによって動きパラメータを更新することに加えて、より正確な動きパラメータは、IMUによって収集されたデータに基づいて取得され得る。例えば、最適化モデルの最適値を使用することによって逆推論で取得された動きパラメータは、動きパラメータ1と呼ばれ、IMUによって収集されたデータに基づいて取得された動きパラメータは、動きパラメータ2と呼ばれる。動きパラメータ1及び動きパラメータ2が取得された後、最終的な動きパラメータを得るために、加重演算が動きパラメータ1及び動きパラメータ2に対して実行されてよい。代替的に、動きパラメータ1及び動きパラメータ2のうちの一方が最終的な動きパラメータとして選択されてもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。
例えば、本願は、動きのある写真撮影のシナリオに適用されてよい。例えば、動きパラメータはカメラの運動速度である。動きパラメータ1は、ν1=argminF(ν1,x)として最適化モデルの最適値に基づいて計算を通じて取得されてよく、動きパラメータ2は、IMUによって収集されたデータから選択されたν2であってよい。この場合に、イベント画像に対して反復が実行された後、動きパラメータはθ=ω1×ν1+ω2×ν2に更新され、ω1は、動きパラメータ1の重み値であり、ω2は、動きパラメータ2の重み値である。当然、ν1及びν2の一方が、新しい動きパラメータとして選択されてよい。
具体的に、動きパラメータを更新する具体的なプロセスについては、上記のステップ4004の関連する記載を参照されたく、詳細はここで再び記載されない。
更に、イベント画像の反復的な更新を終了すると決定した後、ステップ4008が実行されてよく、つまり、動きパラメータは更新され、あるいは、ステップ4408は実行されなくてもよく、つまり、動きパラメータは更新されない。これは、実際の適用シナリオに基づいて特に調整されてよい。
4409:イベント画像の更新された少なくとも1フレームを出力する。
イベント画像の少なくとも1フレーム内の全てのイベント画像の反復的な更新が完了した後、イベント画像の最終的な更新された少なくとも1フレームが出力されてよい。
具体的に、ステップ4409については、ステップ4007の記載を参照されたい。詳細はここで再び記載されない。
従って、本願のこの実施において、IMU、加速度計、又はジャイロスコープなどのモーションセンサによって収集されたデータは、動きパラメータを初期化するために使用されてよく、それにより、イベント画像は、初期化された動きパラメータに基づいてその後に更新され得る。これは、イベント画像を更新するためのより高い開始点を提供することと等価であり、更新されたイベント画像を効率的に取得することができる。更新プロセスでは、反復存続期間がターゲットタスクに基づいて決定されてよく、それにより、イベント画像は実際の適用シナリオに基づいてオンラインで更新でき、より多くの適用シナリオが満足され、汎化機能が強力になる。更に、イベント画像の複数のフレームを更新する過程で、イベント画像の現在のフレームが更新されるときに得られた動きパラメータを再利用することによってイベント画像の次のフレームが更新されてもよく、それにより、イベント画像は、より正確な動きパラメータを使用することによって更新することができ、より鮮明なイベント画像が効率的に取得可能である。
上記は、本願で提供される動き補償方法でイベント画像を最適化する方法のプロシージャについて詳細に記載している。以下は、本願で提供される画像処理装置の構造について記載する。画像処理装置は、上記のプロセス1、プロセス2、又はプロセス3のステップを実行するよう構成される。
最初に図112を参照されたい。本願は、上記のプロセス2又はプロセス3のステップを実行するよう構成される画像処理装置を提供する。画像処理装置は:
動き情報を取得するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサ11203の検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報が含まれる、取得モジュール11201と、
動き情報に基づいてイベント画像の少なくとも1フレームを生成するよう構成され、イベント画像の少なくとも1フレームが、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である、処理モジュール11202と
を含んでよく、
取得モジュール11201は、ターゲットタスクを取得し、ターゲットタスクに基づいて反復存続期間を取得するよう更に構成され、
処理モジュール11202は、イベント画像の少なくとも1フレームに対して反復的な更新を実行して、イベント画像の更新された少なくとも1フレームを取得するよう更に構成され、イベント画像の少なくとも1フレームの反復的な更新の存続期間は、反復存続期間を超えない。
動き情報を取得するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサ11203の検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報が含まれる、取得モジュール11201と、
動き情報に基づいてイベント画像の少なくとも1フレームを生成するよう構成され、イベント画像の少なくとも1フレームが、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である、処理モジュール11202と
を含んでよく、
取得モジュール11201は、ターゲットタスクを取得し、ターゲットタスクに基づいて反復存続期間を取得するよう更に構成され、
処理モジュール11202は、イベント画像の少なくとも1フレームに対して反復的な更新を実行して、イベント画像の更新された少なくとも1フレームを取得するよう更に構成され、イベント画像の少なくとも1フレームの反復的な更新の存続期間は、反復存続期間を超えない。
可能な実施において、処理モジュール11202は、動きパラメータを取得するよう特に構成され、動きパラメータは、モーションセンサとターゲットオブジェクトとの間の相対運動のパラメータを示し、処理モジュール11202は、動きパラメータに基づいてイベント画像の少なくとも1フレーム内のターゲットイベント画像の1フレーム(例えば、ターゲットイベント画像と呼ばれる)に対して反復的な更新を実行して、更新されたターゲットイベント画像を取得するよう特に構成される。
可能な実施において、処理モジュール11202は、前の反復更新プロセスで前もってセットされた最適化モデルの値を取得し、最適化モデルの値に基づいて計算を通じて動きパラメータを取得するよう特に構成される。
可能な実施において、処理モジュール11202は、動きパラメータに基づいて、ターゲットイベント画像内にあるターゲットオブジェクトの運動軌跡を補償して、現在の反復更新で取得されるターゲットイベント画像を取得するよう特に構成される。
可能な実施において、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって実行される動きの加速度、又はモーションセンサによって実行される動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を示し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を示す。
可能な実施において、処理モジュール11202は、現在の反復の結果が前もってセットされた条件を満足する場合に反復を終了するよう更に構成され、終了条件は、次の:イベント画像の少なくとも1フレームを反復的に更新する回数が前もってセットされた回数に達すること、又はイベント画像の少なくとも1フレームを更新する過程での最適化モデルの値変化が前もってセットされた値よりも小さいこと、のうちの少なくとも1つを含む。
本願は画像処理装置を更に提供する。図113を参照されたい。画像処理装置は、上記のプロセス1又はプロセス3のステップを実行するよう構成されてよい。画像処理装置は:
動き情報に基づいてイベント画像の少なくとも1フレームを生成するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報が含まれ、イベント画像の少なくとも1フレームが、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である、処理モジュール11302と、
動きパラメータを取得するよう構成され、動きパラメータにより、モーションセンサ11303とターゲットオブジェクトとの間の相対運動のパラメータが示される、取得モジュール11301と
を含んでよく、
処理モジュール11302は、動きパラメータに基づいて最適化モデルの前もってセットされた値を初期化して、最適化モデルの値を取得するよう更に構成され、
処理モジュール11302は、最適化モデルの値に基づいてイベント画像の少なくとも1フレームを更新して、イベント画像の更新された少なくとも1フレームを取得するよう更に構成される。
動き情報に基づいてイベント画像の少なくとも1フレームを生成するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報が含まれ、イベント画像の少なくとも1フレームが、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である、処理モジュール11302と、
動きパラメータを取得するよう構成され、動きパラメータにより、モーションセンサ11303とターゲットオブジェクトとの間の相対運動のパラメータが示される、取得モジュール11301と
を含んでよく、
処理モジュール11302は、動きパラメータに基づいて最適化モデルの前もってセットされた値を初期化して、最適化モデルの値を取得するよう更に構成され、
処理モジュール11302は、最適化モデルの値に基づいてイベント画像の少なくとも1フレームを更新して、イベント画像の更新された少なくとも1フレームを取得するよう更に構成される。
可能な実施において、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって実行される動きの加速度、又はモーションセンサによって実行される動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を示し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を示す。
可能な実施において、取得モジュール11302は、慣性計測装置IMUセンサによって収集されたデータを取得し、IMUセンサによって収集されたデータに基づいて計算により動きパラメータを取得するよう特に構成される。
可能な実施において、処理モジュール11302は、動きパラメータに基づいて最適化モデルの前もってセットされた値を初期化した後、最適化モデルの値に基づいてIMUセンサのパラメータを更新するよう更に構成され、IMUセンサのパラメータは、データを収集するためにIMUセンサによって使用される。
(2)画像再構築
上記は、動きパラメータに基づいてイベント画像を補償及び最適化する方法について記載している。イベント画像を最適化する方法については、他の可能な実施において、RGB画像が、モーションセンサによって収集されたデータに基づいて再構築されてもよく、それにより、再構築されたRGB画像は、その後に更なる処理、例えば、ナンバープレート認識、QRコード認識、又は道路標識認識に使用されてよい。
一般に、画像再構築プロセスでは、ニューラルネットワークが、再構築された画像を出力するために使用されてよい。しかし、画像の複雑さが増すほど、計算の複雑さも増すことを示す。例えば、QRコードの次元が高いほど、計算の複雑性が高くなり、画像再構築の効率が下がることを示す。従って、本願は、再構築された画像を効率的かつ正確に取得するために、モーションセンサによって収集された情報に対して画像再構築を実行する画像処理方法を提供する。
最初に、本願で提供される画像処理方法の具体的なプロシージャは、動き情報を取得することであり、動き情報は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含む、ことと、動き情報に基づいてイベント画像を生成することであり、イベント画像は、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、ことと、第1再構築画像を取得するよう、イベント画像内にある各ピクセルに対応するカラータイプを、イベント画像に含まれる少なくとも1つのイベントに基づいて決定することとを含み、第1ピクセルのカラータイプは少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルは第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルは、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる。従って、本願のこの実施においては、画像再構築が、再構築画像を取得するよう、モーションセンサによって収集されたデータに基づいて実行されてよく、再構築画像は、その後に、画像認識、ターゲット検出などを実行するために使用されてよい。
具体的に、イベント画像は、イベントに対応する位置(又は運動軌跡に沿って補償及び補正を実行することによって取得された位置)でのある期間内のN個のイベントを累積することによって取得された画像であってよい。一般に、イベントが生成されない画像内の位置の値は0である。
ターゲットオブジェクトが動くか、又は撮影装置が振動するいくつかのシナリオで、画像再構築は、DVSなどのモーションセンサによって収集された情報を使用することによって実行されてよく、それにより、画像認識又はターゲット検出などのその後の動作は、再構築された画像に基づいて実行され得る。
例えば、いくつかのガレージナンバープレート認識シナリオでは、車両がガレージの入口に入るときに、入口に設置されているナンバープレート認識システムがRGBカメラによりナンバープレートを撮影し、次いで、撮影された画像からナンバープレート番号を認識し得る。一般に、車両によって撮影されたRGB画像は、車両の動きにより不鮮明である可能性があり、その結果、ナンバープレート認識の効率は下がる。ナンバープレート認識システムに設置されているモーションセンサがDVSであることが一例として使用される。本願で提供される画像処理方法に従って、ナンバープレート認識システムは、DVSによって収集された情報に基づいて画像再構築を実行し、ナンバープレートの画像を即時に再構築することができるので、ナンバープレート認識の効率は向上する。
他の例として、いくつかのQRコード認識シナリオでは、ユーザが手に持っている端末が振動したり、又はQRコードが固定されていなかったりする場合があり得、撮影されたQRコード画像は鮮明でない場合があり、QRコードは認識され得ない。代替的に、光の比率が高いシナリオでは、例えば、カメラが夜に暗い中でQRコードをスキャンするようオンされる場合に、端末のフラッシュにより、QRコードが露出過多になる。その結果、QRコードは認識され得ない。端末に配置されているモーションセンサがDVSであることが例として使用される。本願のこの実施において、端末は、再構築されたQRコードを取得するよう、DVSによって収集された情報を使用することによって画像再構築を直ちに実行して、QRコードの効率的な再認識を実装し得る。
以下は、本願で提供される画像処理方法について詳細に記載する。
図45は、本願に係る他の画像処理方法の略フローチャートである。
4501:動き情報を取得する。
モーションセンサは、モーションセンサの検出範囲内のターゲットオブジェクトの動きをモニタして、検出範囲内のターゲットオブジェクトの動き情報を取得してよい。ターゲットオブジェクトは、検出範囲内で動いているオブジェクトであり、1つ以上のターゲットオブジェクトが存在してもよく、動き情報は、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含み得る。
本願のこの実施形態で述べられているオブジェクトは、オブジェクト、又はモーションセンサとの相対運動を有しているオブジェクトであることが留意されるべきである。本願で述べられている動きは、モーションセンサに対する動きであることが理解され得る。
例えば、動き情報は、ターゲットオブジェクトが検出範囲内で動くときに生成される情報、例えば、ターゲットオブジェクトが位置している領域のサイズ、及び検出範囲内の領域の境界又は角点の座標を含んでよい。
理解を容易にするために、ターゲットオブジェクトが検出範囲内で動く各検出時点でターゲットオブジェクトが位置している領域が、以下でターゲットオブジェクトの動き領域と呼ばれる。例えば、ターゲットオブジェクトが歩行者であり、歩行者が全身運動を行っている場合に、動き領域には歩行者の全身が含まれ得る。歩行者が腕だけ動かす場合に、ターゲットオブジェクトは歩行者の腕だけであってよく、動き領域には歩行者の腕部が含まれ得る。
4502:動き情報に基づいてイベント画像を生成する。
動き情報が取得された後、イベント画像の少なくとも1フレームが、検出範囲内でモーションセンサによって収集された情報に基づいて生成されてよい。一般に、動き情報は、ある期間における検出範囲内のターゲットオブジェクトの動きの軌跡に関する情報を含み得る。従って、検出範囲に対応する画像が生成され、動き情報に含まれているターゲットオブジェクトの軌跡がその画像にマッピングされて、イベント画像は取得される。
例えば、イベント画像については、図35から図37及びそれらの関連する記載を参照されたい。代替的に、イベント画像は、上記の動き補償方法での最適化を実行することによって取得された画像であってもよい。
可能な実施において、本願で提供される方法は、ターゲットオブジェクトとモーションセンサとの間の相対運動の動きパラメータに基づいてイベント画像を補償して、補償されたイベント画像を取得することを更に含んでもよい。動きパラメータは、センサとターゲットオブジェクトとの間の相対運動に関連したパラメータを表す。例えば、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって行われる動きの加速度、又はモーションセンサによって行われる動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を示し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を示す。従って、本願のこの実施において、イベント画像は、より鮮明なイベント画像を取得するよう、動きパラメータに基づいて補償されてよく、それにより、より鮮明な再構築画像が、その後の画像再構築中に取得され得る。
例えば、ターゲットオブジェクトの運動軌跡は等速直線運動であり、モーションセンサはDVSであり、時間窓[t,t+Δt]内のtk時点でDVSによって捕捉された位置はxkであり、ターゲットオブジェクトの運動軌跡は、直線運動の複数のセグメントに分割され得る。θ(つまり、動きパラメータ)が、イベント画像内のターゲットオブジェクトの運動速度を表すために使用される。この場合に、ターゲットオブジェクトに対して動き補償を実行することによって取得されるイベント画像内の位置xk’は、xk’=xk-(tk-tref)・θである。動き補償がイベント画像内の全てのイベントに実行された後、補償されたイベント画像が取得され得る。
可能な実施において、動きパラメータは、IMUによって収集されたデータから抽出されてよく、又はDVSなどのモーションセンサによって収集されたデータに基づいて計算により取得されてよい。
例えば、動きパラメータがモーションセンサの関連パラメータを含むだけでなく、ターゲットオブジェクトの運動速度、運動方向、運動加速度、なども含む場合に、動きパラメータは、モーションセンサによって収集された情報に基づいて計算により取得されてよい。
他の例として、動きパラメータがモーションセンサの関連パラメータ、例えば、オプティカルフロー情報、モーションセンサの加速度、又はモーションセンサの角速度若しくはデプスを含む場合に、モーションセンサの関連パラメータは、モーションセンサによって又はIMU、ジャイロスコープ、加速度計、などを介して収集された情報に基づいて取得されてよい。
例えば、動きパラメータは、IMUによって収集されたデータから取得される。IMUによって収集されたデータは、IMUの角速度ω、加速度α、などを含んでよい。角速度ω、加速度α、などのうちの1つ以上が動きパラメータとして選択されてよい。
任意に、イベント画像は、より鮮明なイベント画像を取得するよう、図38から図44に対応する方法に従って更に最適化されてもよい。詳細については、図38から図44の関連する記載を参照されたく、詳細はここで再び記載されない。
4503:前もってセットされたカラープールから、イベント画像に含まれる少なくとも1つのイベントに基づいて、イベント画像内の各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得する。
イベント画像は、上記の画像の少なくとも1フレームの中の画像の任意のフレームであってよく、又は画像の少なくとも1フレームから選択された画像の1フレームであってよい。例えば、ある期間にDVSによって収集された情報は、イベント画像の複数のフレームに変換されてよい。イベント画像の1フレームは、再構築された画像の1フレームを取得するために、カラー再構築を実行するようイベント画像の複数のフレームからランダムに選択されてよい。代替的に、1つのフレーム(例えば、最初のフレーム、5番目のフレーム、又は最後のフレーム)が、再構築された画像の1フレームを取得するために、カラー再構築を実行するよう複数のフレームイベント画像から選択されてよい。代替的に、イベント画像又は全てのイベント画像の複数のフレームは、再構築された画像の複数のフレームを取得するために、カラー再構築を実行するようイベント画像の複数のフレームから選択されてよい。
カラープールは任意であり、言い換えると、カラープールは、ピクセルのカラータイプを決定するために使用されなくてもよい。例えば、イベント画像がスキャンされる場合に、デフォルトの開始カラータイプは白であり、次のピクセルでのイベントがスキャンされる場合に、次のピクセルはデフォルトで黒であり、つまり、カラータイプはデフォルトのカラータイプであることができ、カラープールから選択される必要がない。本願のこの実施形態では、理解を容易にするために、カラータイプがカラープールから選択される例が、記載のための例として使用され、これは限定として意図されない。例えば、実際の適用シナリオでは、カラープールがセットされること、又はピクセルのカラータイプがデフォルトで固定されたカラータイプであること、などは、実際の要件に基づいて決定されてよい。
例えば、理解を容易にするために、再構築画像を取得するようイベント画像の1フレームを再構築するプロセスの例が、本願での例の記載のために使用される。
各イベントに対応するピクセルに対応するカラータイプ、及びイベントに隣接するピクセルに対応するカラータイプは、第1再構築画像を取得するよう、イベント画像に含まれるイベントの位置に基づいて、前もってセットされたカラープールから決定されてよい。具体的に、イベントが存在する1つのピクセルが例として使用される。当該ピクセルは以下で第1ピクセルと呼ばれる。第1ピクセルに隣接する少なくとも1つのピクセルには、対応するカラータイプが第1ピクセルのカラータイプとは異なる少なくとも1つのピクセルが存在する。第1ピクセルに隣接しており、第1ピクセルに対応するカラータイプとは異なるカラータイプを有するピクセルは、第2ピクセルと呼ばれる。イベント画像内の領域が、イベントが存在しない連続したピクセルである場合に、当該領域内のそれらのピクセルに対応するカラータイプは同じであるか、又は光強度はわずかに変化し、例えば、変化は閾値に満たない。
具体的に、第1再構築画像を取得する具体的な方法は、第1方向でイベント画像内の各ピクセルをスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを、前もってセットされたカラープールから決定して、第1再構築画像を取得することを含む。第1ピクセルでスキャンすることによってイベントが検出される場合に、第1ピクセルのカラータイプは第1カラータイプであると決定される。第1方向で第1ピクセルの前に配置された第2ピクセルにイベントがない場合に、第2ピクセルに対応するカラータイプは第2カラータイプである。第1カラータイプ及び第2カラータイプは、カラープールに含まれる2つのカラータイプである。
例えば、カラープールはカラータイプ1及びカラータイプ2を含んでよい。イベント画像内のピクセルは、行ごと又は列ごとにスキャンされてよい。イベントがスキャンにより検出される前に、カラータイプ2がピクセルごとに再構築される。イベントがピクセルに存在することがスキャンにより検出される場合に、当該ピクセルにはカラータイプ1が再構築され得る。その後にスキャンされた連続したピクセルのセグメントにイベントがない場合に、連続したピクセルのセグメントに対応するカラータイプもカラータイプ1である。連続したピクセルの後、イベントが存在するピクセルがスキャンにより再び検出される場合に、当該ピクセルにはカラータイプ2が再構築されてよく、カラータイプ2は、その後にスキャンされた、イベントが存在しない連続したピクセルのセグメントに対して再構築されてよい。再構築された画像を取得するために、他のピクセルは類推によって推定されてよい。
可能な実施において、第1方向で第1ピクセルの前に配置された複数の連続した第3ピクセルにイベントがない場合に、複数のダイ3ピクセルに対応するカラータイプは第1ピクセルのカラータイプと同じであり、言い換えると、複数のダイ3ピクセルに対応するカラータイプは第1カラータイプである。
例えば、理解を容易にするために、イベント画像は図46Aに示されるように表され得る。各“□”は、ピクセル、例えば、図46AのS1~S5にイベントが存在することを表し、“○”は、ピクセルにイベントが存在しないことを表す。イベント画像が取得された後、各ピクセルに対応するカラータイプは決定される。例えば、取得された再構築画像が図46Bに示されてよく、イベント画像は行ごとにスキャンされてよい。最初の行がスキャンされる場合に、初期カラータイプは第2カラータイプにセットされてよく、イベント(S1)がスキャンにより検出されると、カラータイプは変更され、S1に対応するピクセルのカラータイプは第1カラータイプとして再構築される。当該ピクセルの後の複数の連続したピクセルにイベントがない場合に、連続したピクセルのセグメントのカラータイプは、第1イベントのカラータイプと同じであり、全て第1カラータイプである。2行目がスキャンされる場合に、初期カラータイプはやはり第2カラータイプにセットされている。イベントS2がスキャンにより検出されると、S2に対応するピクセルのカラータイプは、第1カラータイプにセットされる。S2に対応するピクセルの後の複数のピクセルにはイベントがないので、複数のピクセルのカラータイプは全て第1カラータイプにセットされる。3行目の再構築方法は2行目のそれと同様であり、詳細は再び記載されない。4行目がスキャンされる場合に、初期カラータイプはやはり第2カラータイプにセットされている。第1イベントS4がスキャンにより検出されると、S4が位置するピクセルのカラータイプは、第1カラータイプにセットされ、S4及びS5が位置するピクセルカンのピクセルのカラータイプも第1カラータイプである。S5がスキャンにより検出された後、再構築するカラータイプは第2カラータイプに変更され、S5に対応するピクセルのカラータイプは第2カラータイプであり、S5に対応するピクセルの後のピクセルも第2カラータイプである。5行目がスキャンされる場合に5行目にはイベントが存在しないので、5行目のピクセルのカラータイプは全て第2カラータイプである。
可能な実施において、第1方向で第1ピクセルの後に配置されており第1ピクセルに隣接している第4ピクセルにイベントがある場合、かつ、第1方向で第4ピクセルの後に配置されており第4ピクセルに隣接している第5ピクセルにイベントがない場合に、第4ピクセル及び第5ピクセルの両方に対応するカラータイプは、第1カラータイプである。イベント画像内の少なくとも2つの連続したピクセルがイベントを有する場合に、第2イベントがスキャンにより検出されると、再構築するカラータイプは変更されなくてもよく、それによって、ターゲットオブジェクトの過度に広いエッジによって引き起こされる再構築画像の不鮮明なエッジを回避することが理解され得る。
例えば、2つの連続したピクセルにイベントがあるイベント画像は、図47Aに示され得る。図47Aは、図46Aに示されているイベント画像に似ており、類似点はここで再び記載されない。図47Aの最初の行にはいくつかの違いがあり、イベントS1及びS2を伴った2つの連続したピクセルがあり、イベント画像をスキャンすることで得られた再構築画像は、図47Bに示され得る。最初の行で、イベント画像は、初期カラータイプとして第2カラータイプを使用することによってスキャンされる。イベントS2がスキャンにより取得されると、再構築するカラータイプは第1カラータイプに変更される。イベントS2がスキャンにより取得されると、S2はS1に隣接しているので、再構築するカラータイプは変更されなくてもよい。言い換えると、S2に対応するピクセルのカラータイプも第1カラータイプであり、異なる色を持ったエッジの現象は回避され、再構築画像の精度は向上する。
可能な実施において、イベント画像をスキャンする方向は前もってセットされてよく、又はモーションセンサによって収集された情報に基づいて決定されてよい。
例えば、スキャンは、前もってイベント画像の行又は列に基づいて実行されてよい。
他の例として、端末がQRコードを撮影するために使用され、DVS及びIMUが端末に配置されている場合に、QRコードが撮影されると、DVSによって収集された動き情報がイベント画像を生成するために使用され、端末の動き方向は、IMUを使用することによって決定されてよい。動き方向は、次いで、イベント画像がスキャンされる方向にセットされる。
他の例として、DVSが端末に配置される。QRコードが撮影されると、DVSによって収集された動き情報がイベント画像を生成するために使用されてよい。更に、端末の動き方向は、DVSによって収集された情報に基づいて計算されてよい。動き方向は、次いで、イベント画像がスキャンされる方向にセットされる。代替的に、端末の動き方向は、RGBカメラによって撮影された情報に基づいて認識されてもよく、それにより、動き方向は、イベント画像がスキャンされる方向にセットされる。
他の例として、ナンバープレート認識システムがナンバープレートを認識するために使用される場合に、ナンバープレートの画像が撮影される必要がある。イベント画像は、DVSによって収集された情報に基づいて生成されてよく、車両の動き方向は、DVSによって収集された情報に基づいて計算されてよく、それにより、動き方向は、イベント画像がスキャンされる方向にセットされる。代替的に、端末の動き方向は、RGBカメラによって撮影された情報に基づいて認識されてもよく、動き方向は、イベント画像がスキャンされる方向にセットされる。
可能な実施において、カラープールに含まれるカラータイプは、再構築がイベント画像に基づいて実行される前にセットされてもよい。複数のセット方向が存在し得る。例えば、2つ以上のデフォルトのカラータイプ(例えば、黒及び白)が前もってセットされてよい。代替的に、RGBカメラによって撮影されたRGB画像が取得された後、RGB画像のカラーヒストグラムが生成され、最大の割合を示す2つ以上のカラータイプがヒストグラムから選択されて、カラープールに加えられる。代替的に、ユーザの入力データが受け取られ、カラータイプは、入力データから決定されて、カラープールに加えられる。
可能な実施において、イベント画像が取得された後、認識又は分類などのその後のタスクを容易にするために、より鮮明な画像を取得するよう、イベント画像及びRGBカメラによって収集されたRGB画像に基づいて、融合が更に実行されてもよい。
具体的に、イベント画像及びRGB画像は、複数の領域に分割されてよく、イベント画像内の分割された複数の領域及びRGB画像内の複数の領域の位置は同じであり、次いで、RGB画像内の各領域の不鮮明度が測定される(例えば、分散又はラプラス変換を使用することによって測定される)。ある領域の不鮮明度が前もってセットされた不鮮明度に満たないと決定される場合に、画像再構築は、当該領域に対応するイベント画像内の領域に基づいて実行される。再構築プロセスについては、領域内の再構築画像を取得するために、ステップ4503の再構築プロセスを参照されたい。次いで、領域内の再構築画像はRGB画像とつなぎ合わされる。例えば、不鮮明度が前もってセットされた不鮮明度よりも低く、RGB画像内にある領域は、最終的な再構築画像を得るよう、当該領域の再構築画像で置き換えられる。例えば、補償再構築が、RGB画像内の品質が悪い部分に実行されてよく、品質が良い部分は変更されないままである。具体的に、例えば、ハイライト部分を生成するQRコードの場合に、ハイライト部分は再構築されてよく、ハイライトが存在しない部分は変更されないままでよい。
画像再構築中に、再構築はイベント画像内の領域にしか実行されなくてよく、イベント画像は完全に再構築される必要はなく、その領域内の再構築画像とRGB画像とが、新しい再構築画像、つまり、新しい第1再構築画像を得るよう融合されることが理解され得る。従って、画像再構築が実行される必要がある領域のサイズは低減され、再構築された画像を取得する効率は更に向上する。
第1再構築画像がスキャンにより検出された後、他の動作が更に、次のステップ4504及び4506で示されるように、第1再構築画像に対して実行されてもよい。本願のこの実施形態のステップ4504及び4506は任意のステップであることが理解され得る。ステップ4504及び4506のいずれかが引き続き実行されてもよく、あるいは、ステップ4504及び4506は実行されなくてもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。これは本願で制限されない。
4504:再構築画像の複数のフレームを取得するよう異なる方向で複数回イベント画像をスキャンし、再構築画像の複数のフレームを融合して、更新された第1再構築画像を取得する。
本願のこの実施形態のステップ4504は任意のステップであることが留意されるべきである。具体的に、実際の適用シナリオに基づいて、複数回のスキャンが実行される必要があるかどうかは決定されてよい。これは本願で制限されない。例えば、QRコード認識のシナリオが一例として使用される。QRコードを含む再構築画像のフレームが再構築された後にQRコードが認識され得ない場合に、イベント画像は、更新された再構築画像を取得するよう、異なる方向で複数回スキャンされてよい。
可能な実施において、イベント画像の同じフレームが、再構築画像の複数のフレームを取得するよう、複数の異なる方向でスキャン及び再構築されてよく、次いで、再構築画像の複数のフレームは、最終的な、処理正確な再構築画像を出力するよう融合されてよい。
具体的に、再構築画像の複数のフレームを融合する複数の方法が存在してよい。例えば、融合は、再構築画像の複数のフレーム内の各ピクセルを1単位として使用することによって実行されてよい。1つのピクセルが一例として使用される。再構築画像の複数のフレーム内のピクセルの値が同じである場合に、同じ値は、最終的な再構築画像内のピクセルの値として使用される。再構築画像の各フレーム内のピクセルの値が異なる場合には、加重融合が、最終的な再構築画像内のピクセルの値を取得するよう、再構築画像の各フレーム内のピクセルの値に対して実行されてよい。代替的に、ピクセルの値は、投票法に従って決定される。例えば、再構築画像の4つのフレーム内の同じ位置にあるピクセルの値が1、1、1、0である場合に、1の数は0の数よりも多く、最終的な再構築画像内の同じ位置にあるピクセルの値は1であると決定される。
4505:第1再構築画像が前もってセットされた条件を満足するかどうかを決定し、第1再構築画像が前もってセットされた条件を満足する場合には、ステップ4506を実行し、又は第1再構築画像が前もってセットされた条件を満足しない場合には、ステップ4501を実行する。
本願のこの実施形態で提供される方法では、第1再構築画像が前もってセットされた要件を満たすかどうかが更に決定されてもよい。第1再構築画像が前もってセットされた要件を満たさない場合に、動き情報は再取得されてもよく、新しい動き情報に基づいて、新しいイベント画像が取得されて、新しい再構築画像が取得される。前もってセットされた要件には、再構築画像の精細度が前もってセットされた値に達していないこと、再構築画像に含まれる情報が認識されないこと、再構築画像における認識結果の精度が閾値よりも低いこと、などが含まれ得るが限られない。
例えば、端末を使用することによってQRコードをスキャンする過程で、端末は、DVSによって収集された情報に基づいてイベント画像の1フレームを生成し、イベント画像に基づいて画像再構築を実行して、再構築画像の1フレームを取得する。再構築画像に対して認識が実行されても、QRコードが認識されない場合に、DVSによって収集された情報は再取得されてよく、新しいイベント画像が取得され、新しい再構築画像が更に取得される。他の認識プロセスは、QRコードが認識されるまで類推することができる。
4506:他の処理。
前もってセットされた要件を満足する第1再構築画像が取得された後、他の処理が第1再構築画像に対して実行されてもよい。例えば、第1再構築画像に含まれる情報が認識されるか、あるいは、第1再構築画像は記憶される。異なるシナリオでは、第1再構築画像を処理する方法も異なって、これは実際の適用シナリオに基づいて特に調整されてよい。
従って、本願のこの実施において、画像再構築は、再構築された画像を効率的に即時に取得するよう、モーションセンサによって収集された情報を使用することによって実行されてよく、それによって、その後に画像認識、画像分類、などを再構築された画像に対して実行する効率は向上する。たとえ鮮明なRGB画像が、動いているオブジェクトの撮影、撮影ブレの存在、などのいくつかのシナリオで、撮影され得ないとしても、画像再構築が、モーションセンサによって収集された情報に基づいて実行され得るので、より鮮明な画像が、認識又は分類などのその後のタスクを容易にするために、即座にかつ正確に再構築され得る。
上記は、本願で提供される画像処理方法でのプロシージャについて詳細に記載している。理解を容易にするために、具体的な適用シナリオが例として使用されており、以下は、上記のプロシージャを参照して、本願で提供される画像処理方法についてより詳細に記載する。
図48は、本願に係る他の画像処理方法の略フローチャートであり、以下で記載される。
最初に、イベント画像の取得(4801)が実行される。
イベント画像は、DVSによって収集されたデータに基づいて取得されてよい。DVSのデータはフレームに累積される。具体的なフレーミング方法は、イベント画像を取得するよう、時間ごとに、イベント数ごとに、又は時間平面ごとに累積されてよい。
一般に、撮影されるオブジェクトは、2つ以上の色を有するオブジェクト、例えば、QRコード、アプレットコード、バーコード、ナンバープレート、又は道路標識であってよい。DVSは輝度変化領域に反応し得る。例えば、撮影されるオブジェクトは2色オブジェクトであり、輝度の変化は、オブジェクトのエッジでのみ生じる。この場合に、DVS及び2色オブジェクトの特徴は、よりシャープなエッジを持ったイベント画像を取得するために使用されてよい。
前処理4802は、イベント画像に対してノイズ除去又は動き補償などの操作を行うことを意味し得る。ノイズ除去の目的は、ターゲットオブジェクトのエッジに無関係なノイズを除去することである。ノイズ除去方法には、近傍ノイズ除去及び点群ノイズ除去などの複数の方法がある。動き補償は、動きパラメータを使用することによってイベント画像に対して実行されてよい。動きパラメータは、DVSの運動速度、角速度、加速度、などを含んでよく、ターゲットオブジェクトの運動速度又は加速度などのパラメータを更に含んでもよい。動き補償により、ターゲットオブジェクトのエッジは、イベント画像においてより鮮明になり、エッジは、より鮮明かつより正確なイベント画像を取得するために、時間的なイベントに基づいて補償される。
画像再構築4803は、再構築された2色画像を取得するよう、前処理4802により得られたイベント画像に基づいて画像再構築を実行することである。
理解を容易にするために、本願のこの実施形態では、再構築された画像が2つの色を持った2色画像である例が、記載のための例として使用される。これは制限されない。2色画像の再構築4803については、図49に示される再構築プロセスを参照されたい。
最初に、2つの色は初期化される(4901)。
例えば、カラープールは2つのカラータイプを含み、2つの色は初期化され、つまり、画像再構築に使用されるカラータイプは初期化される。2つの色は、2色画像の色である。2つの色は複数の方法で取得されてよい。例えば、2色画像はデフォルトで白黒画像である。代替的に、2色画像のタイプが、色を決定するために認識される。例えば、画像のタイプがバーコードである場合に、画像はデフォルトで黒色及び白色を含む。代替的に、2つの色は他のセンサ(sensor)から取得される。例えば、RGBカメラが、画像を収集するよう起動され、RGB画像内の2色画像の領域が、DVS2色画像の領域に基づいて決定され、それから、当該領域内の2つの主な色に関する統計値が(例えば、ヒストグラムの方法に従って)収集され、そして、2つの色は初期カラープールとして使用される。例えば、QRコードがスキャンされるシナリオでは、2つのカラータイプは黒及び白として初期化されてよく、それにより、その後の画像再構築中に、QRコードを含み白及び黒を有する画像が、再構築され得る。他の例として、ナンバープレートがスキャンされるシナリオでは、2つの色は、RGB画像に含まれるナンバープレートの領域のヒストグラムから選択されてよい。ナンバープレートが青地に白の文字である場合に、2つのカラータイプは青及び白に初期化され得る。ナンバープレートが黄色地に黒の文字である場合に、2つのカラータイプは黄色及び黒に初期化され得る。これは、実際の適用シナリオ又は要件に基づいて特に調整されてよく、ここで制限されない。
次いで、イベント画像はスキャンされる(4902)。イベント画像は、ターゲットオブジェクトの運動方向、DVSの運動方向、行ごと又は列ごと、及びスキャンされる各ピクセルにイベントがあるかどうかなどの方法で、スキャンされてよい。
イベント画像をスキャンする過程で、スキャンが終了するかどうかが決定されてよい(4903)。スキャンが終了する場合に、ステップ4907が実行される。スキャンが終了しない場合に、ステップ4902から4906が実行されてよい。
スキャンが終了しない場合に、現在のピクセルがイベントを含むかどうかが決定されてよい(4904)。現在のピクセルがイベントを含む場合に、色は変更されてよく(4905)、具体的に言えば、前のピクセルのカラータイプとは異なるカラータイプが現在のピクセルに対してセットされる。例えば、前のピクセルに対応する色が白である場合に、現在のピクセルに対応する色は異なり、黒である。
現在のピクセルがイベントを含まない場合、現在のピクセルに対応するカラータイプは変更される必要がなく、具体的に言えば、現在のピクセルに対応する色は、前のピクセルに対応するカラータイプと同じである。例えば、前のピクセルに対応するカラータイプが白である場合に、現在のピクセルに対応するカラータイプも白である。
現在のピクセルに対応するカラータイプが決定された後、2色画像内の現在のピクセルの色は再構築され得る(4906)。例えば、現在のピクセルのカラータイプが白である場合に、当該ピクセルのカラータイプは2色画像において白にセットされる。
例えば、ターゲットオブジェクトがQRコードであるシナリオでは、行ごとのスキャンが、QRコード再構築領域内でイベント画像に対して実行される。各行のピクセルをスキャンする過程で、イベントがスキャンにより検出される前、スキャンされるピクセルの色は黒として再構築される。イベントがスキャン中に最初に検出されると、色は白として再構築される。その後のスキャンで、スキャンされたピクセルにイベントがあり、そのピクセルの前にイベント発生していないか、又は後続のピクセルでイベントが発生していない場合に、色は変更され、そのピクセルの位置に新しい色が置かれる。前のピクセルの色が白である場合には、現在のピクセルの色は黒に変更される。
その後に、イベント画像は引き続きスキャンされ、2色画像内のピクセルの色は再構築され、つまり、ステップ4902から4906は、イベント画像のスキャンが終わるまで周期的に実行され、具体的に言えば、イベント画像内の全てのピクセルがスキャンされ、2色画像内の全てのピクセルの色が再構築されて、2色画像は取得される。
2色画像が取得された後、2色画像が要件を満足するかどうかが更に決定されてよい(4907)。2色画像が要件を満足する場合に、2色画像は出力されてよい(4908)。2色画像が要件を満足しない場合に、スキャン方向を変更することが選択されてよく(4909)、次いで、イベント画像は再スキャンされ、言い換えると、ステップ4902から4907は、要件を満足する2色画像が取得されるまで繰り返し実行される。
要件は、2色画像の認識精度が前もってセットされた精度値を超えること、2色画像に含まれる情報が認識されること、2色画像の不鮮明度が前もってセットされた不鮮明度よりも低いこと、画像再構築を実行する回数が前もってセットされた回数を超えること、などであってよい。例えば、再構築するオブジェクトがQRコードである場合に、2色画像が認識され得る。QRコードが認識され、QRコードに含まれる情報が取得される場合に、2色画像は要件を満足し、画像再構築のプロセスは終了されてよい。
例えば、QRコードのスキャンが一例として使用される。DVSによって収集されたデータに基づいて取得されるイベント画像は、図50に示され得る。イベント画像内の各ピクセルは、最終的な2色画像を取得するよう、行ごと又は列ごとにスキャンされてよい。2色画像は図51に示されている。
更に、スキャン方向が変更され、イベント画像が再スキャンされた後、新しい2色画像が取得され得る。新しい2色画像は、スキャン方向が変更される前に取得された2色画像の1つ以上のフレームと融合されてよく、融合された2色画像が取得される。イベント画像は、複数回の画像再構築を完了するよう、複数の異なる方向でスキャンされ、次いで、異なる方向での再構築画像は融合される。融合方法は、最終的な2色画像を取得するよう、例えば、ピクセルごとの投票法であってよい。
従って、本願のこの実施において、2色画像は即時に再構築され得る。上記の実施形態で、2色画像及びDVSトリガメカニズムは繰り返し使用され、高速な再構築が、画像を単にスキャンする方法で実装され得る。更に、アルゴリズムの複雑性は低く、再構築は、複雑なアルゴリズムに依存せずに実装され得る。2色画像とDVSセンサとの間に相対運動が存在する場合に、2色画像によって生成されるDVS内のイベント(event)に基づいて、元の2色画像は即時に取得することができ、これは、高速な再構築並びに検出及び認識のために使用される。高速、高ダイナミックレンジ、又は低レイテンシ要件によりシナリオでは、計算能力が低いデバイスにおいて、高い再構築精度が得られる。2色画像及びDVSイベントトリガメカニズムの特徴を十分に利用することによって、2色画像は、画像をスキャンすることによって直ちに再構築され得、これは、高速な認識及び検出に役立つ。2色画像の認識精度は、高ダイナミックレンジ環境及び高速運動シナリオで改善され得る。計算複雑性が低くかつロバスト性がより高い簡単な再構築アルゴリズムは、2色画像の認識速度を向上させることができる。
更に、画像再構築は、RGBカメラによって収集されたRGB画像に基づいて実行されてもよい。具体的に、RGB画像が取得された後、画像再構築が実行される必要がある領域が決定され、対応する領域はイベント画像から決定され、それから、イベント画像内の対応する領域は、2色画像を再構築するようスキャンされる。再構築プロセスは、上記の4901から4909のそれと似ている。詳細はここで再び記載されない。当該領域の2色画像が取得された後、2色画像及びRGB画像は融合される。例えば、RGB画像内の領域は2色画像で置き換えられ、あるいは、2色画像のピクセル値及びRGB画像内の領域のピクセル値は重み付けされて融合され、それにより、最終的に取得される融合画像は、RGB画像よりも鮮明である。
更に、RGB画像とDVSとの間にはパララックスが存在する可能性があることが留意されるべきであり、つまり、RGBカメラの視野とDVSの視野とは異なる可能性がある。画像再構築が実行される前に、RGB画像及びイベント画像に対してレジストレーションが更に実行されてよい。例えば、RGB画像及びイベント画像は、同じ座標系を使用することによってアライメントされ、それにより、RGB画像及びイベント画像は同じ座標系にある。
具体的に、例えば、RGB及びDVSが直接にはパララックスを有さない場合に、RGB画像内の比較的に品質が悪い領域は直接再構築されてよく、比較的に品質が良い領域は直接使用される。例えば、RGB画像内のハイライト領域の場合に、2色画像は、RGB画像において品質が悪く、区別することが難しい。しかし、DVSは高ダイナミックレンジを有しており、境界を区別することができる。この場合に、ハイライト部分は、本願で提供される高速スキャンの再構築方法で再構築されてよく、非ハイライト部分については、RGBのデータは直接使用されてよい。画像品質は、コントラストを使用することによって測定され得る。コントラストが閾値に満たない場合に、領域は、品質が悪いと見なされる。本願の実施形態で、2つのタイプのデータ、つまり、RGBデータとDVSとの間の差も、元のRGB画像の品質を区別するために使用されてよい。具体的に、RGB画像のエッジ情報が抽出され、次いで、イベント画像と比較される。比較方法には、ピクセルごとの差などがある。コントラストは、イベント画像をブロックに分割することによっても計算され得る。2つのタイプのデータの間のコントラストの差が大きい場所は、画像品質が悪い場所であり、再構築が高速再構築方法で実行される必要があり、データの領域では、RGBデータは使用される。
従って、本願のこの実施において、画像再構築は、RGB画像に基づいて実行されてよく、RGB画像内の比較的に品質が悪い部分は、鮮明な画像を即時にかつ正確に取得し、その後に画像認識又は画像分類などのタスクを効率的に実行するために、DVSによって収集された情報に基づいて再構築される。
本願は、画像処理装置を更に提供する。図114を参照されたい。画像処理装置は、図45から図51に対応する上記の方法プロシージャのステップを実行するよう構成されてよい。画像処理装置は:
動き情報を取得するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含まれる、取得モジュール11401と、
動き情報に基づいてイベント画像を生成するよう構成され、イベント画像が、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、処理モジュール11402と
を含んでよく、
処理モジュール11402は、イベント画像に含まれる少なくとも1つのイベントに基づいて第1再構築画像を取得するよう更に構成され、
第1ピクセルのカラータイプは少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルは第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルは、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる。
動き情報を取得するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含まれる、取得モジュール11401と、
動き情報に基づいてイベント画像を生成するよう構成され、イベント画像が、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、処理モジュール11402と
を含んでよく、
処理モジュール11402は、イベント画像に含まれる少なくとも1つのイベントに基づいて第1再構築画像を取得するよう更に構成され、
第1ピクセルのカラータイプは少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルは第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルは、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる。
任意に、画像処理装置は、図38から図44に対応する上記の方法プロシージャのステップを更に実行してよい。
可能な実施において、処理モジュール11402は、第1方向でイベント画像内の各ピクセルをスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得するよう特に構成され、スキャンにより、第1ピクセルにイベントがあることが見つけられる場合に、第1ピクセルのカラータイプは第1カラータイプとして決定され、第1方向で第1ピクセルの前に配置された第2ピクセルにイベントがない場合に、第2ピクセルに対応するカラータイプは第2カラータイプであり、第1カラータイプ及び第2カラータイプは異なるカラータイプであり、イベントが存在するピクセルは、モーションによってモニタされた位置変化に対応する、イベント画像内にあるピクセルに相当する。
可能な実施において、第1方向は前もってセットされた方向であるか、又は第1方向は、IMUによって収集されたデータに基づき決定されるか、又は第1方向は、カラーRGBカメラによって撮影された画像に基づき決定される。
可能な実施において、第1方向で第1ピクセルの後に配置されている複数の連続した第3ピクセルにイベントがない場合に、複数の第3ピクセルに対応するカラータイプは第1カラータイプである。
可能な実施において、第1方向で第1ピクセルの後に配置されかつ第1ピクセルに隣接している第4ピクセルにイベントが存在する場合、かつ、第1方向において第4ピクセルの後に配置されかつ第4ピクセルに隣接している第5ピクセルにイベントがない場合に、第4ピクセル及び第5ピクセルの両方に対応するカラータイプは第1カラータイプである。
可能な実施において、処理モジュール11402は、第1方向でイベント画像内の各ピクセルをスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得するした後、第1方向とは異なる第2方向でイベント画像をスキャンし、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第2再構築画像を取得し、第1再構築画像及び第2再構築画像を融合して、更新された第1再構築画像を取得するよう更に構成される。
可能な実施において、処理モジュール11402は、第1再構築画像が前もってセットされた要件を満足しない場合に、動き情報を更新し、更新された動き情報に基づいてイベント画像を更新し、更新されたイベント画像に基づいて、更新された第1再構築画像を取得するよう更に構成される。
可能な実施において、処理モジュール11402は、イベント画像に含まれる少なくとも1つのイベントに基づいて、イベント画像内にある各ピクセルに対応するカラータイプを決定して、第1再構築画像を取得する前に、補償されたイベント画像を取得するよう、ターゲットオブジェクトとモーションセンサとの間の相対運動の動きパラメータに基づいてイベント画像を補償するよう更に構成され、動きパラメータは、次の:デプス、オプティカルフロー情報、モーションセンサによって実行される動きの加速度、又はモーションセンサによって実行される動きの角速度、のうちの1つ以上を含み、デプスは、モーションセンサとターゲットオブジェクトとの間の距離を表し、オプティカルフロー情報は、モーションセンサとターゲットオブジェクトとの間の相対運動の運動速度に関する情報を表す。
可能な実施において、再構築画像内のピクセルのカラータイプは、カラーRGBカメラによって収集された色に基づいて決定される。
可能な実施において、処理モジュール11402は、RGBカメラによって収集されたデータに基づいてRGB画像を取得し、RGB画像と第1再構築画像とを融合して、更新された第1再構築画像を取得するよう更に構成される。
3.応用プロセス
上記は、画像最適化方法について詳細に記載している。最適化されたRGB画像又はイベント画像が取得された後、最適化されたイベント画像は更なる応用のために使用されてよい。代替的に、RGB画像又はイベント画像は、上記のデータ収集並びにデータ符号化及び復号化部分で収集されてよく、収集されたRGB画像又はイベント画像は更なる応用のためにその後に使用されてよい。以下は、RGB画像又はイベント画像の具体的な応用シナリオについて記載する。
本願で提供される応用シナリオは複数の方法プロシージャに対応し、具体的には、動き写真撮影エンハンスメント、DVS画像とRGB画像との融合、キーフレーム選択、SLAM、又はポーズ推定などのシナリオを含んでよい。以下は、記載のために個別に例を挙げている。
(1)動き写真撮影エンハンスメント
撮影は一般的な機能である。例えば、端末は、ユーザがRGB画像を撮影するために、カラー(red green blue,RGB)カメラを設けられるか又はそれへ接続されてよい。いくつかのシナリオで、いくつかの動いているオブジェクトが撮影されることがあり、撮影は、動いているカメラによるシナリオで実行されることがあり、あるいは、撮影は、光強度の差が大きいいくつかの環境で実行されることがある。
一般に、RGB画像は、複数のチャネルの情報を使用することによって表すことができ、各チャネルは、限られた範囲、例えば、0から255の範囲を使用することによって表現される。しかし、実際の適用シナリオでは、最大光強度が最小光強度とは大きく異なっており、0から255の範囲では、実際のシナリオで与えられる光強度の違いを表すことができないシナリオがあり得る。その結果、最終的に得られたRGB画像のテクスチャは十分に豊かではなく、ぼやけなどの場合が視覚インターフェースに存在する。代替的に、実際の適用シナリオでは、レンズの揺れや撮影範囲内のオブジェクトの高速移動などの場合が起こり得る。その結果、最終的に撮影されたRGB画像はぼやけ、視覚インターフェースでユーザに提示される画像は不鮮明である。これはユーザエクスペリエンスを低下させる。
いくつかのシナリオで、より多くの情報を含む画像を取得するために、高ダイナミックレンジ画像(higy dynamic range image,HDR)が、異なる露出範囲の画像を融合することによって取得されてもよく、シナリオ内の明るい部分及び暗い部分のテクスチャ情報が捕捉され、それによって、最終に得られる画像の鮮明度を改善する。例えば、短時間露光時間及び長時間露光時間の2種類の画像が撮影されることがあり、その場合に、短時間露光時間及び長時間露光時間に対応する画像は、HDRを取得するよう融合される。HDRは、より豊かな情報を含む。このように、視覚インターフェースで最終的に提示される画像はより鮮明である。撮影シナリオで、最大光強度は、最小光強度とは大きく異なることがあり(以下で、大光量比と呼ばれる)、レンズは揺れることあり、あるいは、撮影範囲内のオブジェクトが高速度で動くことがある。その結果、最終的に得られた画像はぼやけ、ユーザエクスペリエンスは低下する。
本願で提供される画像処理方法は、より鮮明な画像を撮影したり、又は撮影した画像をより鮮明にしたりするために、撮影シナリオ及び監視シナリオなどの様々なシナリオに適用されてよい。例えば、あるシナリオでは、ユーザは、端末を使用して1つ以上のより鮮明な画像を取得したり、又は複数の画像を撮影した後に、複数の画像を1つのより鮮明な画像に結合したりすることによって、撮影を行うことがある。本願で提供される画像処理方法は、複数の実施を含む。例えば、実施1では、1つ以上の画像が撮影プロセスで撮影されてよく、例えば、動いているオブジェクトが、モーションセンサによって収集された情報を参照して撮影される。実施2では、複数の画像が撮影され、それから、複数の画像は、より高精細な画像を生成するよう結合される。実施2では、複数の画像を撮影するプロセスについて、方法1の画像撮影方法を参照されたい。具体的に言えば、本願で提供される実施1及び実施2は別々に実施されてよく、又は一緒に実施されてもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。本願は、実施1及び実施2が別々に実施される場合について記載する。制限は課されない。
実施1の詳細は次の通りである:ユーザは、撮影機能付き携帯電話機を使用することによって、動いているオブジェクトを含むシナリオを撮影する。ユーザは、動いているオブジェクトを撮影するためのモードを選択してよい。ユーザが撮影ボタンをタップした後、動いているオブジェクトへの焦点合わせが、1つ以上の画像を撮影するよう、DVSによって収集された情報を参照して自動的に完了されてよい。このようにして、動いているオブジェクトのより鮮明な画像が撮影される。
実施2の詳細は次の通りである:いくつかの高光率又は動きシナリオで、ユーザは、撮影機能付き携帯電話機を使用することによって撮影を行ってよい。ユーザが撮影ボタンをタップした後、携帯電話機は、複数の画像を撮影するよう異なる露光時間を自動的にセットし、複数の撮影された画像を融合して、最終的なHDRを取得してよい。複数の画像を別々に撮影する方法については、実施1の撮影方法を参照されたく、それにより、より鮮明な画像が効率的に撮影できる。
以下は、実施1及び実施2について別々に記載する。次の実施1及び実施2は、別々に実施されてよく、又は一緒に実施されてもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。
実施1:動いている状態のオブジェクトが撮影範囲に存在する場合に使用される画像処理方法。
スマートフォン及びデジタルカメラの急速な発展及び広い普及に伴って、ユーザの写真撮影に対する要求は強くなっている。しかし、既存の携帯電話機又はデジタルカメラはほとんどの写真撮影シナリオをカバーすることができるが、動きの写真撮影は満足のいくものではない。具体的に、ユーザは、撮影場面をより正確に把握する必要があり、動きの瞬間を把握することができる。更に、動いている領域に対する焦点合わせ及び露出制御などの操作技術は、最終的な撮像効果に影響を与える。既存の解決法では、カラー(red green blue,RGB)カメラが、通常、撮影のために使用され、RGBカメラによる動きの瞬間の捕捉は、通常、ユーザによって手動でトリガされる。ユーザは、撮影前に焦点を合わせるエリアを選択する必要がある。次いで、動きが起こると、シャッター(又は携帯電話機の撮影ボタン)が、動きの瞬間を記録するために適切な場面で押される。具体的に、焦点合わせ、焦点固定、シャッター押下、露出、及び出力などの一連のプロセスは、画像を最終的に出力するために、ユーザの操作に基づいてトリガされる必要がある。しかし、焦点合わせ及び焦点固定などの操作がユーザによってトリガされる場合に、最適なトリガ時点が決定されない可能性がある。その結果、撮影された画像は不鮮明であり、ユーザエクスペリエンスは低下する。
従って、本願は画像処理方法を提供する。動きシナリオで、動作中のターゲットオブジェクトの運動軌跡が捕捉されて、動いているターゲットオブジェクトに対する焦点合わせを完了し、取得された画像の鮮明度を改善する。
動いているオブジェクトが撮影範囲に存在する本願で述べられているシナリオは、撮影範囲内のオブジェクトに対してカメラが動いている場合を指す。実際の適用シナリオでは、カメラが動くことがあり、撮影範囲内のオブジェクトが動くことがあり、あるいは、カメラ及び撮影範囲内のオブジェクトが同時に動くことがある。これは、実際の適用シナリオに基づいて特に調整されてよい。カメラの場合に、撮影範囲内のオブジェクトが動いている状態にあると理解され得る。
以下は、本願で提供される画像処理方法について詳細に記載する。図52は、本願に係る画像処理法の略フローチャートである。詳細は次の通りである。
5201:ターゲットオブジェクトの動き情報を検出する。
モーションセンサは、前もってセットされた範囲内のターゲットオブジェクトの動き情報を取得するよう、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタしてよい。ターゲットオブジェクトは、前もってセットされた範囲内で動いているオブジェクトであり、1つ以上のターゲットオブジェクトが存在してよく、動き情報は、前もってセットされた範囲内で動いているオブジェクトの運動軌跡に関する情報を含み得る。
例えば、動き情報には、ターゲットオブジェクトが位置している領域のサイズ又は境界、及び前もってセットされた範囲内の角点の座標などの情報が含まれてよく、情報は、ターゲットオブジェクトが前もってセットされた範囲内で動いているときに取得される。
理解を容易にするために、ターゲットオブジェクトが前もってセットされた範囲内で動く各検出時点でターゲットオブジェクトが位置している領域は、以下でターゲットオブジェクト動き領域と呼ばれる。例えば、ターゲットオブジェクトが歩行者であり、歩行者が全身運動を行っている場合に、動き領域には歩行者の全身が含まれ得る。歩行者が腕だけ動かす場合に、ターゲットオブジェクトは歩行者の腕だけであってよく、動き領域には歩行者の腕部が含まれ得る。
一般に、前もってセットされた範囲は、カメラの焦点距離、視野、などに関係があり、通常は、モーションセンサの検出範囲よりも狭くない。例えば、カメラの視野が大きいほど、撮影範囲は広いことを示し、カメラの視野が小さいほど、撮影範囲は小さいことを示す。他の例として、カメラの焦点距離が長いほど、撮影範囲は遠いことを示す。これは、遠くのオブジェクトがより鮮明に撮影されることとしても理解でき、カメラの焦点距離が短いほど、撮影範囲が近いことを示す。
本願のこの実施において、モーションセンサによってモニタされる範囲は、カメラの撮影範囲を含み、前もってセットされた範囲は、カメラの撮影範囲であってよく、モーションセンサによってモニタされる範囲は、前もってセットされた範囲を含み、言い換えると、モーションセンサによってモニタされる範囲は、前もってセットされた範囲以上であってよい。
例えば、動き情報について、図35から図37の関連する記載を参照されたい。詳細はここで再び記載されない。
更に、動き情報には、パート1で述べられたデータ収集又はデータ符号化及び復号化から取得されたデータ、データストリーム、などが更に含まれてもよい。
5202:動き情報に基づいて焦点合わせ情報を決定する。
前もってセットされた範囲内のターゲットオブジェクトの動き情報が取得された後、焦点合わせ情報は動き情報に基づいて決定される。動き情報には、ターゲットオブジェクトの運動軌跡に含まれ、つまり、前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせるための焦点合わせ情報は、運動軌跡に基づいて決定されてよい。
任意に、焦点合わせ情報を決定するための複数の方法がある。方法については、以下で詳細に個別的に記載される。
方法1:予測領域を使用することによって焦点合わせ情報を取得する。
理解を容易にするために、本願の以下の実施では、ターゲットオブジェクトが撮影されるときに少なくとも1つの焦点が位置している領域が、焦点領域と呼ばれる。
焦点合わせ情報は、前もってセットされた範囲内の焦点領域の境界又は角点の座標などの、焦点領域内の少なくとも1つの点の位置情報を含んでよい。焦点領域を決定する具体的な方法は、予測領域を取得するよう、動き情報に基づいて、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測することと、次いで、予測領域に基づいて焦点領域を決定することとを含んでよく、焦点領域は、ターゲットオブジェクトに焦点を合わせる少なくとも1つの焦点を含み、焦点合わせ情報は、少なくとも1つの焦点の位置情報を含む。前もってセットされた期間は、前もってセットされた期間、例えば、10マイクロ秒又は5マイクロ秒であってよい。
いくつかのシナリオで、動きは起こっているので、RGBカメラによって実行される撮影が現在の領域及びターゲットオブジェクトの動きの特徴にのみ基づいてトリガされる場合に、ターゲットオブジェクトは次の位置又は状態に入っている可能性があり、この場合に、撮影された画像は遅れることが理解され得る。従って、ターゲットオブジェクトが将来の前もってセットされた期間に位置している領域が予測される必要があり、不完全な動きはフィルタリングされ、特に、動いているオブジェクトがレンズの視野に入っただけの場合や、動いているオブジェクトが遠くあり撮影に不利である場合は、フィルタリングされ、それにより、最適な撮影場面が決定され、RGBカメラは作動するようトリガされる。
具体的な実施において、将来の前もってセットされた期間内のターゲットオブジェクトの運動軌跡は、ステップ5201で取得された動き情報に基づいて予測されてよい。具体的に、将来の前もってセットされた期間内のターゲットオブジェクトの運動軌跡は、予測領域を取得するよう、前もってセットされた範囲内で動いているオブジェクトの運動軌跡、運動方向、及び運動速度のうちの少なくとも1つに基づいて予測されてよい。
より具体的な実施においては、時間とともに変化する、ターゲットオブジェクトが位置する領域の中心点の変化関数は、前もってセットされた範囲内で動いているオブジェクト動作中オブジェクトの検出された運動軌跡、検出された運動方向、及び/又は検出された運動速度に基づいてフィッティングされてよく、次いで、予測された中心点は、変化関数に従って計算される。予測された中心点は、予測領域の中心点であり、予測領域は、予測された中心点に基づいて決定される。
例えば、図53に示されるように、変化関数F(xc,yc,t)は、ターゲットオブジェクトの検出された運動軌跡に基づいてフィッティングされてよい。(xc,yc)は、ターゲットオブジェクトが位置する領域の中心であり、tは時間であり、それにより、動いているオブジェクトが次の期間に位置する領域位置は計算され得る。中心点(xc,yc)は、全てのイベントi=1,2,・・・nの座標位置(xi,yi)の平均値を計算することによって取得され、nは、短時間窓内のイベントの数であり、nは正の整数である。具体的な計算方法は、例えば、
である。
変化関数は線形関数、指数関数などであってよく、実際の適用シナリオに基づいて特に調整されてよい。これはここで制限されない。次いで、ターゲットオブジェクトの将来の運動軌跡が変化関数に従って予測される。予測された中心点として運動軌跡から点が選択され、予測領域は、予測された中心点に基づいて決定される。予測領域の形状は、実際の適用シナリオに基づいて特に調整されてよい。例えば、形状は、外側長方形、外側最小円、多角形、及び不規則な形状であることができる。
可能な実施において、予測領域が前もってセットされた条件を満足する場合には、焦点領域が予測領域に基づいて決定され、予測領域が前もってセットされた条件を満足しない場合には、前もってセットされた期間内のターゲットオブジェクトの運動軌跡は、新しい予測領域を取得するよう、動き情報に基づいて再予測される。焦点領域は、新しい予測領域に基づいて決定される。前もってセットされた条件は、前もってセットされた領域に含まれるターゲットオブジェクトが完全な形にある、つまり、前もってセットされた領域が完全なターゲットオブジェクトを含むこと、予測領域の面積が前もってセットされた値よりも大きいこと、ターゲットオブジェクトとカメラとの間の距離が前もってセットされた距離閾値よりも大きいこと、などであってよい。
一般に、予測された中心点は、モーションセンサ、例えば、DAVIS又はCeleXなどのセンサによって予測されてよく、又は電子デバイスのプロセッサによって予測されてよい。次いで、前もってセットされた領域が前もってセットされた条件を満足しない場合に、電子デバイスのカメラモジュールは、焦点領域に焦点を合わせるようトリガされてよい。
方法1で、ターゲットオブジェクトが将来の前もってセットされた期間に位置する領域は、焦点領域を予測するよう、前もってセットされた期間内のターゲットオブジェクトの運動軌跡をフィッティングすることによって予測することができ、それにより、その後に撮影された写真はより鮮明である。特に、ターゲットオブジェクトが高速で動くいくつかのシナリオで、ターゲットオブジェクトが将来の前もってセットされた期間に位置する領域は、焦点領域を予測するよう予測できるので、それにより、動いている状態にあるターゲットオブジェクトのより鮮明な画像がその後の時点で捕捉可能であり、それによってユーザエクスペリエンスを改善する。
方法2:ターゲットオブジェクトが現在位置している領域に基づいて焦点合わせ情報を直接決定する。
前もってセットされた範囲内で動いているターゲットオブジェクトの運動軌跡が取得された後、ターゲットオブジェクトが現在位置している領域は、焦点領域として使用されてよい。焦点領域は、ターゲットオブジェクトに焦点を合わせるための少なくとも1つの焦点を含み、焦点合わせ情報は、少なくとも1つの焦点の位置情報を含む。例えば、ターゲットオブジェクトが現在位置している領域がDVSを使用することによって検出され、ターゲットオブジェクトの運動速度が速度閾値に満たない場合に、それは、ターゲットオブジェクトの運動速度が遅いことを示し、焦点合わせ時間は十分である。従って、ターゲットオブジェクトが現在位置している領域は、焦点領域として直接使用され得るので、より鮮明な画像が撮影され得る。
ターゲットオブジェクトが現在位置している領域を取得する方法については、上記の方法1を参照されたい。詳細はここで再び記載されない。
方法2では、ターゲットオブジェクトが現在位置している領域、つまり、ターゲットオブジェクトの現在領域が焦点領域として使用され得るので、ターゲットオブジェクトは正確に焦点を合わせられ得る。特に、いくつかの低速動作シナリオでは、焦点合わせ時間は十分であり、焦点合わせは、より鮮明な画像が取得され得るように、現在領域にのみ基づいて実行することができる。予測は不要であるから、ワークロードは低減される。
5203:焦点合わせ情報に基づいて、前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせ、前もってセットされた領域内の画像を撮影する。
焦点合わせ情報は、焦点領域内の少なくとも1つの点の位置情報を含み得る。焦点領域が決定された後、焦点合わせが、焦点領域に基づいて、前もってセットされた領域内のターゲットオブジェクトに対して実行され、前もってセットされた領域の画像が撮影される。
具体的に、焦点領域は予測領域と同じであってよく、又は予測領域よりも広くてもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。例えば、予測領域が決定された後、予測領域は、焦点領域として直接使用されてよく、あるいは、予測領域よりも広い範囲が、焦点領域として選択されてもよく、それにより、撮影されたターゲットオブジェクトのインテグリティは確保され得る。他のシナリオ、例えば、低速動作シナリオでは、焦点領域は、ターゲットオブジェクトが現在位置している領域であってよく、焦点合わせは、より鮮明な画像が撮影され得るように、ターゲットオブジェクトが現在位置している領域で直接実行されてよく、それによって、予測ステップのワークロードを減らす。
可能な実施において、画像は、前もってセットされた領域の画像を取得するよう、カメラを使用することによって撮影されてよい。例えば、撮影は、図1Bに示されるカメラ193を使用することによって実行される。カメラは、カラー(red green blue,RGB)センサ(RGBカメラとも呼ばれ得る)を含んでよく、つまり、撮影は、RGBカメラを使用することによって実行される。相応して、具体的な焦点合わせ方法は、焦点領域の中心点から最小ノルム距離を有する、RGBカメラの複数の焦点のうちの少なくとも1つの焦点を焦点として使用することによって、焦点合わせを実行して、ターゲットオブジェクトが位置する領域又は予測領域への焦点合わせを完了することを含んでよい。次いで、ターゲットオブジェクトが撮影され、RGBカメラを使用することによって撮影された画像が得られる。RGBカメラによって撮影された画像は、以下でRGB画像と呼ばれる。確かに、いくつかのシナリオで、予測領域の中心点は、完全な焦点合わせ及び撮影を完了し、RGB画像を取得するために、焦点として直接使用されてもよい。
例えば、図54に示されるように、RGBカメラは複数の前もってセットされた焦点を有してもよい。ターゲットオブジェクトの予測領域が予測され、焦点領域が予測領域に基づいて決定された後、焦点領域の中心点から最小ノルム距離を有する1つ以上の焦点が、ターゲットオブジェクトの画像を撮影するために、焦点合わせのための焦点として選択される。距離を計算する方法は、L1ノルム距離又はL2ノルム距離を含んでよいがそれらに限られない。例えば、L1ノルム距離を計算する式は、|x1-x2|+|y1-y2|を含んでよく、L2ノルム距離を計算する式は、√(x1-x2)2+(y1-y2)2を含んでよい。(x1,y1)は予測領域の中点であり、(x2,y2)はRGBカメラの前もってセットされた焦点である。
他の可能なシナリオでは、RGBカメラは焦点を前もってセットされなくてもよい。焦点領域を決定した後、RGBカメラは、焦点領域の中心点を焦点として直接使用するか、焦点領域内の全てのピクセルを焦点として使用するか、又は焦点領域内の1つ以上のピクセルを焦点として選択する。これは、実際の適用シナリオに基づいて特に調整されてよい。
可能な実施において、画像が撮影される前に、露出パラメータが更に取得されてもよく、画像は露出パラメータに基づいて撮影される。
露出パラメータは、露出値(exposure value,EV)、露出量、露光時間、開口サイズ、国際標準化組織(ISO)などを含み得るが限られない。露光時間は、光がカメラの感光材の感光面に投影されるときにシャッターが開いている必要がある持続時間として理解され得る。露光時間は、カメラの撮影時間がターゲットオブジェクトの運動速度に一致し、カメラがより鮮明な画像を即時に捕捉することができるように、調整されてよい。露出値は、露出開口及び露光時間の組み合わせを示す。露出量は、ある期間にオブジェクトの表面上の表面要素によって受光された光強度の積分を表す。ISOは、露出量に基づいて決定される値である。
具体的な実施において、露出パラメータを取得する方法は、動き情報に基づいて露出パラメータを決定することを含んでよい。例えば、露出パラメータは露光時間を含み、露光時間は、ターゲットオブジェクトの運動速度と負の相関関係がある。例えば、ターゲットオブジェクトの運動速度が速いほど、より短い露光時間を示し、ターゲットオブジェクトの運動速度が遅いほど、より長い露光時間を示し、それにより、カメラは、一致した露出時間でより鮮明な画像を撮影することができる。
他の具体的な実施においては、露出パラメータを取得する方法は、光強度に基づいて露出パラメータを決定することを含んでよい。例えば、露出パラメータは露光時間を含み、露光時間は、光強度と負の相関関係がある。例えば、光強度が高いほど、より短い露光時間を示し、光強度が低いほど、より長い露光時間を示す。
例えば、RGBカメラは、予測された動き特徴、具体的には、運動速度の変化傾向に基づいて、露出パラメータを調整してもよい。デフォルトで、露出パラメータは、1/30s、1/60s、1/100s、1/20s、及び1/500sなどの異なる運動速度に適応するよう複数のギアにセットされる。動きが速くなると、露光時間が長い場合、露光時間は適切に短縮され、露出パラメータはより低いギアに調整される。動きが遅くなると、露光時間が短い場合、露光時間は適切に増やされ、露出パラメータは、撮影中の露出量が光強度に一致するように、より高いギアに調整され、それによって、露出過多又は不十分な光を回避する。
可能な実施において、撮影がカメラを使用することによって実行された後、方法は、画像撮影中にモーションセンサによって検出されたターゲットオブジェクトの動き情報を使用することによって、カメラによって撮影された画像を融合して、前もってセットされた範囲内のターゲットオブジェクトを取得することを更に含んでもよい。
例えば、図55に示されるように、RGBカメラは露光及び撮影を完了し、RGBカメラでの画像信号処理を実行した後にRGBカメラ画像を出力する。DVSは、同じ期間内にイベントデータを記録し、その期間内のイベントを累積し、動いているオブジェクトの輪郭及び位置を取得する。輪郭及び位置は、RGBカメラ画像とレジストレーションされ、つまり、ピクセル座標は、フィルタリング及びエッジ先鋭化などの方法により、動いているオブジェクトのエッジディテールを強調表示するよう、アライメントされる。強調されたターゲット画像は最終出力として使用され、ユーザに提示されるか、又は携帯電話機のメモリに記録される。その後、システム設定又はユーザ設定に基づいて、DVSは、引き続き動き検出を実行し、RGBカメラに次の撮影、つまり、動いているオブジェクトの連続撮影を実行させ得る。
従って、本願のこの実施において、焦点合わせは、ターゲットオブジェクトが前もってセットされた範囲を動くときに生成されるターゲットオブジェクトの検出された運動軌跡に基づいて実行されてよく、それにより、より鮮明な画像が撮影される。更に、焦点領域は、ターゲットオブジェクトが動く領域、又はターゲットオブジェクトが動くと予測される領域と同じか又は一致し、それにより、より鮮明な画像が撮影されて、ユーザエクスペリエンスを改善する。その上更に、ターゲットオブジェクトが将来の前もってセットされた期間に位置する領域が、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡に基づいて予測されてもよく、それにより、焦点合わせは、予測された領域に基づいて実行され得る。これは、前もって焦点領域を決定することとして理解され得る。このように、動いているオブジェクトの撮影画像はより鮮明になる。更に、エンハンスメント処理が、取得されたターゲット画像の鮮明度を更に改善するために、撮影画像と同時に生成される動き情報に基づいて撮影画像に実行されてもよい。
以上は、本願で提供される画像処理方法のプロシージャについて記載している。理解を容易にするために、以下は、具体的な適用シナリオを例として使用することによって、上記の方法の記載に基づいてより詳細な記載を提供する。
シナリオ1
例えば、高速で動いているオブジェクト撮影するプロセスについては、図56を参照されたい。
5601:DVSは動きのモニタリングを実行する。
RGBカメラの撮影範囲、つまり、上記の前もってセットされた範囲は、撮影範囲内で動いている1つ以上のオブジェクトをモニタするよう、DVSを使用することによってモニタされてよい。
1つ以上のオブジェクトは、撮影範囲内で動いている人、動物、車両、無人航空機、ロボットなどであってよいことが留意されるべきである。異なる適用シナリオでは異なるオブジェクトが存在してもよい。具体的に、実際の適用シナリオに基づいて調整が行われてもよい。これは本願で制限されない。
具体的に、DVSは、撮影範囲内の光強度の変化に反応し、イベントを生成してよい。短時間窓には複数のイベントが含まれることがある。静的領域にはイベントが存在しないので、イベントのほとんどは、動きが存在する領域で起こる。動きが存在する1つ以上の領域は、短時間窓内のイベントを累積し、イベントの接続された領域を計算することによって、取得され得る。理解を容易にするために、動きが存在する領域は、以下で動き領域と呼ばれる。動き領域の形には、外側長方形、外側最小円、多角形、不規則な形状などがあるが限られない。一般に、動き領域が前もってセットされた閾値に満たない場合に、領域はフィルタリングされる。検出された動き領域が閾値に満たない場合に動き領域はノイズである可能性があり、あるいは、検出された動いているオブジェクトは不完全である。領域のフィルタリングは、意味のないワークロードを減らすことができる。
DVSによってターゲットオブジェクトをモニタする具体的な方法については、上記のステップ3801の関連する記載を参照されたい。詳細はここで再び記載されない。
例えば、図57に示されるように、カメラの撮影範囲は、上記の前もってセットされた範囲であり、カメラの視野αに関係がある。一般に、カメラの視野が広いほど、より広い撮影範囲を示し、視野が狭いほど、より狭い撮影範囲を示す。DVSのモニタリング範囲は、カメラの撮影範囲を含み、それにより、前もってセットされた範囲内の動いているオブジェクトはモニタされる。DVSによってモニタされたイベントは疎である。更に、DVSの各ピクセルは、連続した光強度の変化に独立して非同期に反応し、RGBカメラの動機露出によって影響を及ぼされず、露光時間及びフレームレートによって制限されない。従って、DVSは、通常、極めて高い時間分解能を有する。例えば、DAVISの時間精度成度は1μsに達することができ、これは、高速で動いているオブジェクトを捕捉するのに適している。
本願で述べられている高速及び低速は相対的であり、高速及び低速の分割は、実際の適用シナリオに基づいて調整されてよいことが留意されるべきである。例えば、10km/hより速い速度は高速と呼ばれることがあり、10km/h未満の速度は低速と呼ばれることがある。
5602:予測領域を取得するよう予測を実行し、RGBカメラに撮影を行わせるかどうかを決定し、そうである場合には、ステップ4203を実行し、又はそうでない場合には、ステップ5601を実行する。
DVSは、ターゲットオブジェクトの連続的に検出された運動軌道に基づいて、ターゲットオブジェクトが将来の時間に位置する領域を連続的に予測し、予測された領域に基づいて、RGBカメラに撮影実行させるかどうかを決定してよい。
予測領域を決定する具体的な方法については、上記のステップ3802の関連する記載を参照されたい。詳細はここで再び記載されない。
ターゲットオブジェクトの予測領域が決定された後、予測領域が前もってセットされた条件を満足するかどうかが決定される。前もってセットされた条件が満足される場合に、RGBカメラは、その後の焦点合わせ及び撮影を実行するようトリガされ、又は前もってセットされた条件が満足されない場合には、前もってセットされた条件を満足する予測領域が取得されるか、又は撮影が終わるまで、撮影範囲は引き続きモニタされる。
例えば、図58に示されるように、車両が高速で道路を移動しているとき、車両の移動軌跡は、DVSによって検出された車両の運動方向及び運動速度に基づいて予測されてよく、それにより、車両がまさに移動しようとしている領域が予測でき、つまり、図58に示される5801である。予測領域が前もってセットされた条件を満足しない場合、RGBカメラは、焦点合わせを行うようトリガされてよく、あるいは、前もってセットされた領域が前もってセットされた条件を満足しない場合に、RGBカメラは、焦点合わせを行うようトリガされず、車両の運動軌跡は引き続きモニタされる。前もってセットされた条件を条件は、予測領域内の車両が不完全であること、予測領域の面積が過剰に小さいこと、などであってよい。例えば、車両がレンズの視野に完全には入っていない場合に、RGBカメラは撮影を実行するようトリガされない。
予測領域が前もってセットされた条件を満足する場合に、DVSは、予測領域を焦点領域としてRGBカメラへ伝えて、撮影のためにRGBカメラをトリガしてもよい。一般に、RGBカメラとDVSとの間にはパララックスが存在する場合があるので、レジストレーション操作が必要である。例えば、予測領域の座標系は、RGBカメラのピクセル座標系とアライメントされ、それにより、予測領域は、レジストレーション後にRGBカメラと同じ視野を有する座標系を有する。
具体的に、焦点領域は、ターゲットオブジェクトが現在位置している領域であってよく、又は予測領域であってもよい。焦点領域は、幾何形状パラメータを使用することによって記述されてもよい。焦点領域が外部長方形である場合に、DVSは、焦点領域の左上隅の座標、並びに焦点領域の幅及び高さなどのパラメータをRGBカメラへ伝えてもよく、焦点領域が多角形である場合に、DVSは、多角形の各頂点を時計回りに(又は反時計回りに)RGBカメラへ順次転送してもよく、焦点領域が最小外側円である場合に、DVSは、円中心の座標及び円の半径をRGBカメラへ転送してもよく、他も同様である。具体的に、実際の適用シナリオに基づいて調整が行われてもよい。一例がここでは記載のために単に使用されており、限定として使用されているわけではない。
更に、DVSは、運動速度及び運動方向などのターゲットオブジェクトの動きの特徴もRGBカメラへ伝えてよい。運動速度は、前の短時間窓でのそれと比較したターゲットオブジェクトの速さの変化値又は変化傾向であってよい。変化傾向は、より速い又はより遅いなどの速度傾向状態量を含み、また更には、速い、より速い、とても速い、遅い、より遅い、とても遅いなどの速度傾向状態量の更なるレベルを含んでもよいが、これらに限られない。運動方向も、前の短時間窓でのそれと比較した方向又は方向の変化であってよい。方向の変化は、左、右、上、下、不変と言った方向傾向状態変数や、左上、左下、右上、右下、左、右、上、下、及び不変などのより多くのレベルでの方向傾向状態変数を含んでよいが、限られない。
5603:予測領域に基づいて焦点合わせを実行する。
予測領域が決定された後、予測領域は焦点領域として使用されてもよく、少なくとも1つの焦点は焦点領域に基づいて決定され、焦点合わせは少なくとも1つの焦点に基づいて実行される。具体的に、例えば、焦点合わせは、焦点領域に含まれる点に基づいて直接実行されてよく、あるいは、焦点合わせは、焦点領域の中心点に最も近い焦点を選択することによって実行されてもよい。
一般に、RGBカメラは複数の焦点を有する。DVSによって供給された焦点領域に基づいて、焦点領域から最小ノルム距離を有する1つ以上の焦点が焦点合わせのために選択され、焦点固定が実行される。すなわち、1つ以上の焦点の焦点合わせは維持される。例えば、図54を参照されたい。DVSによって伝えられた予測領域を受け取ると、RGBカメラは、焦点領域の中心点から最小ノルム距離を有する1つ以上の点を焦点合わせのための焦点として選択してよく、そして、焦点固定を実行する。焦点合わせ方法には、位相焦点合わせ、コントラスト焦点合わせ、などがあるが限られない。
5604:露出パラメータを調整し、撮影を実行する。
焦点合わせが実行された後、露出パラメータは、DVSによって検出された動きの特徴に基づいて更に調整されてよい。例えば、ターゲットオブジェクトの運動速度が速いほど、より小さい露出パラメータを示し、ターゲットオブジェクトの運動速度が遅いほど、より大きい露出パラメータを示し、それにより、カメラはより鮮明な画像を撮影することができる。具体的に、カメラは、前もってセットされた範囲の撮影画像を取得するよう、収集された光信号を電気信号に変換してよい。
例えば、図59に示されるように、焦点領域4401は、車両の移動軌跡を予測することによって決定され、次いで、焦点固定が実行され、それから、露光時間が適切な値に調整される。車両は、焦点合わせが行われ、露光時間が調整される期間に予測領域へ移動し、それにより、動いている車両は、車両の鮮明な画像を取得するよう撮影される。
例えば、いくつかのシナリオで、ターゲットオブジェクトの運動速度と露光時間との間のマッピング関係が確立されてもよい。ターゲットオブジェクトの運動速度が決定された後、露光時間は、露光時間がターゲットオブジェクトの運動速度に一致し、より鮮明な画像が撮影されるように、マッピング関係に基づいて調整されてよい。具体的に、マッピング関係は、前もってセットされたマッピングテーブルであってよい。例えば、運動速度が第1範囲内にあるとき、露光時間は1/60秒であり、運動速度が第2範囲にあるとき、露光時間は1/360秒である。代替的に、マッピング関係は、線形関係、指数関係、反比例関係、などであってよい。具体的に、マッピング関係は、実際の適用シナリオに基づいて調整されてよい。限定はここでは課されない。
他の例として、いくつかのシナリオで、ターゲットオブジェクトの運動速度の変化値と露光時間の調整方法との間のマッピング関係が確立されてもよい。例えば、ターゲットオブジェクトの運動速度が増大する場合に、露光時間は短くなり、あるいは、ターゲットオブジェクトの運動速度が低減する場合に、露光時間は長くなり、それにより、カメラはより鮮明な画像を撮影することができる。より具体的には、露光時間の調整量は、運動速度の変化振幅に関係があり得る。例えば、運動速度の変動が大きいほど、露光時間の調整量は多くなることを示し、運動速度の変動が小さいほど、露光時間の調整量は小さくなることを示す。
他の例として、いくつかのシナリオで、露光時間は、ターゲットオブジェクトの運動速度及び運動方向を参照して調整されてもよい。運動速度が実際の環境でのターゲットオブジェクトの速さであり得る場合に、カメラの撮影方向に垂直な方向でのターゲットオブジェクトの速さは、その速さ及び運動方向に基づいて決定されてよく、次いで、露光時間は、カメラの撮影方向に垂直な方向での速さに基づいて調整される。例えば、カメラの撮影方向に垂直方向での速さが速いほど、より長い露光時間を示し、カメラの撮影方向に垂直な方向での速さが遅いほど、より短い露光時間を示す。
更に、露出パラメータをどのように調整すべきかについては、以下のステップ7304の関連する記載を参照されたい。詳細はここで再び記載されない。
5606:動きのディテールを強調する。
カメラを使用することによって撮影が実行されて撮影画像が取得された後、前もってセットされた範囲内の動いているオブジェクトに関する、DVSを使用することによって同時に検出された情報と、DVSによって検出された情報、例えば、画像内のターゲットオブジェクトの位置又はターゲットオブジェクトの輪郭とに基づいて、より鮮明なターゲット画像を取得するよう、カメラによって撮影された画像の動きのディテールに対して強調処理が実行される。
カメラを使用することによって撮影が実行されている間(カメラを使用することによって実行される撮影の期間は、以下で撮影期間と呼ばれる)、DVSは、撮影期間内に前もってセットされた範囲内の動いているオブジェクトに関する情報、例えば、画像内のターゲットオブジェクトの位置又はターゲットオブジェクトの輪郭などの情報を取得するよう、前もってセットされた領域内の動いているオブジェクトを継続的にモニタしてよいことが理解され得る。更に、カメラによって撮影された画像のテクスチャディテール又は輪郭を強調し、更には、より鮮明な画像を取得し、それによってユーザエクスペリエンスを向上させるために、ノイズフィルタリング又はエッジ先鋭化などの処理が、情報に基づいて撮影画像に対して実行される。
従って、本願のこの実施において、ターゲットオブジェクトの運動軌跡は、ターゲットオブジェクトの収集された動き情報を使用することによって、フィッティングされてよい。次いで、ターゲットオブジェクトの予測領域が、ターゲットオブジェクトのフィッティングされた運動軌跡に基づいて取得される。予測領域は、ターゲットオブジェクトが将来の期間にまさに動こうとしている領域である。焦点合わせ及び焦点固定が、予測領域に基づいて実行され、露出パラメータが、ターゲットオブジェクトの動きの特徴に基づいて調整される。このようにして、動いているターゲットオブジェクトの撮影は完了される。焦点合わせ、焦点固定、及び露出パラメータの調整などの一連のステップが実行された後、ターゲットオブジェクトは予測領域、つまり焦点領域へ移動することが理解され得る。この場合に、より鮮明な画像は、ターゲットオブジェクトを撮影することによって撮影され得る。従って、たとえターゲットオブジェクトが高速動作状態にあるとしても、ターゲットオブジェクトに対する焦点合わせは、より鮮明な画像を撮影するよう、正確に完了できる。
上記は、本願で提供される画像処理方法の具体的なプロシージャについて詳細に記載している。理解を容易にするために、以下は、具体的なシナリオを例として使用することによって、本願で提供される画像処理方法のいくつかの適用シナリオについて記載する。以下は、異なる適用シナリオについて個別に記載する。
例えば、理解を容易にするために、以下は、シナリオ1のプロセスの更なる詳細を記載する。図60は、本願に係る画像処理方法の他の略フローチャートである。
最初に、DVSは動き検出を実行し、つまり、RGBカメラの撮影範囲内の動いているオブジェクトを検出する。動いているターゲットオブジェクトが一例として使用され、イベントデータは、検出されたターゲットオブジェクトに関する情報に基づいて生成される。DVSは、検出範囲内の光強度の変化に基づいて、検出範囲内のイベントデータを生成してよい。現在の光強度と前のイベントによって生成された光強度との間の差が閾値を超える場合に、DVSは、イベントのデータを取得するようイベントを生成する。一般に、イベントのイベントデータは、イベントにおいて光強度の変化を生成するピクセルの位置、ピクセルのピクセル値、又は光強度の変化値などの1種類以上の情報を含んでよい。
DVSは、モニタされたイベントデータに基づいてターゲットオブジェクトの運動軌跡をフィッティングし、ターゲットオブジェクトの運動軌跡に基づいて、ターゲットオブジェクトがまさに動こうとしている領域を予測して、予測領域を取得してよい。
任意に、DVSが動き検出を実行し、予測領域を取得する課程で、RGBカメラはオフ状態にあってもよく、それにより、RGBカメラの電力消費は低減される。例えば、飛行機、車両、高速で動いているユーザなどの高速で動いているオブジェクトを撮影する場合に、オブジェクトの動きは最初に、DVSを使用することによってモニタされてよい。取得された予測領域が前もってセットされた条件を満足する場合にのみ、DVSは、撮影を行うようRGBカメラをトリガし、それにより、RGBカメラによって発生する電力消費は低減される。
予測領域を取得した後、DVSは予測領域をRGBカメラへ送信し、RGBカメラを有効になるようトリガし、予測領域に基づいて焦点合わせを行うことをRGBカメラに指示する。代替的に、DVSは、予測領域に基づいて焦点領域を決定してもよく、焦点領域の範囲は、予測領域の範囲よりも大きく、次いで、焦点領域に基づいて焦点合わせを行うことをRGBカメラに指示してよい。以下は、RGBカメラが予測領域に基づいて焦点合わせを行うことを指示される例について記載する。
一般に、予測領域をRGBカメラに送信する前に、DVSは更に、予測領域に対してレジストレーションを実行してもよい。具体的に言えば、予測領域が位置する座標系は、RGBカメラの座標系と一致し、それにより、RGBカメラは、焦点を正確に決定するために、撮影範囲内で予測領域の位置を正確に取得することができる。
RGBカメラは、DVSのトリガの下で有効になり、予測領域に基づいて焦点合わせを行うことができる。例えば、RGBカメラは、焦点合わせを実行し、焦点を固定する、つまり焦点を維持するよう、予測領域の中心点から最小ノルム距離を有する1つ以上の焦点を選択してよい。
その上、DVSは更に、ターゲットオブジェクトの動きの特徴をRGBカメラへ送信し、動きの特徴は、ターゲットオブジェクトの運動速度及び運動方向などの情報を含み得る。
RGBカメラは、露光時間、露出値、などを含む露出パラメータを、受信された動きの特徴に基づいて調整する。例えば、ターゲットオブジェクトの運動速度と対応する露光時間との間のマッピング関係がセットされてよい。ターゲットオブジェクトの運動速度が受信される場合に、露光時間を調整するために、運動速度に関連した露光時間はマッピング関係に従って決定されてよい。例えば、詳細については、表2を参照されたい。
運動速度は、撮影範囲内のターゲットオブジェクトの座標を使用することによって計算されてよい。例えば、座標系は、撮影範囲に基づいて確立されてよい。座標系は二次元座標系であってよく、又は三次元座標系であってよい。これは、実際の適用シナリオに基づいて特に調整されてよい。次いで、ターゲットオブジェクトの運動速度が、座標系内のターゲットオブジェクトの変化値に基づいて計算される。
露光時間が調整された後、撮影範囲内の画像信号が、RGBカメラの感光素子を使用することによって収集され、収集された画像信号は処理される。例えば、収集されたアナログ信号は、撮影画像を取得するよう、電気信号に変換される。
RGBカメラが撮影を行う場合に、DVSは、撮影範囲内のターゲットオブジェクトの動きを引き続きモニタしてよいので、撮影期間内のイベントデータを取得し得る。
RGBカメラが撮影範囲内の画像を撮影した後、同じ期間内の画像及びイベント画像は、撮影画像に対して動きディテールのエンハンスメントを行って、より鮮明な画像を取得するために、融合されてよい。
例えば、図61に示されるように、撮影期間内のDVSイベントは、動いている車両の輪郭を含んでよい。RGBカメラによって撮影された画像、つまり、図61に示されるRGB画像は、RGB画像の動きのディテールを強調するよう、DVSイベントに基づいて融合されてよい。例えば、ノイズフィルタリング又はエッジ先鋭化などの処理が、動きのディテールを強調されたターゲット画像を取得するよう実行される。強調された画像は、最終的な出力として使用されてよく、ディスプレイインターフェースに表示されるか、又は電子デバイスの記憶媒体に記憶される。
例えば、RGBカメラ及びDVSを使用することによってターゲットオブジェクトを取得するより具体的な方法については、図62を参照されたい。DVSは、撮影範囲内の動いているオブジェクトをモニタし、長時間窓を収集し、それから、時間窓を分割する方法でターゲットオブジェクトの運動軌跡をフィッティングし、フィッティングされた運動軌跡に基づいて、ターゲットオブジェクトが将来の期間に位置する領域を予測して、予測領域を取得する。予測領域が前もってセットされた条件を満足する場合に、RGBカメラは、有効にされ、予測領域に基づいて焦点合わせを行うようトリガされる。
第2に、DVSは更に、ターゲットオブジェクトの検出された運動軌跡に基づいて、ターゲットオブジェクトの運動速度又は運動方向などの走行特徴を計算し、走行特徴をRGBカメラへ送信する。RGBカメラは、動きの特徴に基づいて露出パラメータを調整して、動きの特徴と一致する露出パラメータ、例えば露光時間及び露出値を使用する。
露出パラメータが調整された後、撮影は実行され、感光素子によって捕捉された信号は、撮影されたRGB画像を取得するよう、電気信号に変換される。
RGBカメラが焦点合わせを実行し、露出パラメータを調整し、RGB画像を出力する場合に、DVSは、撮影期間内のイベントデータを取得するよう、撮影範囲内の動いているオブジェクトを継続的にモニタしてよい。イベントデータは、動作中のターゲットオブジェクトの輪郭、前もってセットされた領域内のターゲットオブジェクトの位置、などを含む。
次いで、電子デバイスのプロセッサは、より鮮明なターゲット画像を取得するよう、DVSによって収集されたイベントデータに基づいてエンハンスメント処理、例えば、ノイズフィルタリング及びエッジ先鋭化をRGB画像に対して実行してよい。
従って、このシナリオでは、高速で動いているオブジェクトの場合に、焦点合わせは、ターゲットオブジェクトが将来の期間に位置する領域を予測することによって、前もって実行されてよく、それにより、より鮮明な画像が動作中に撮影され得る。更に、運動速度と一致する露出が、露出パラメータを調整することによってターゲットオブジェクトに対して実行されてよく、それにより、カメラは更に、より鮮明な画像を撮影する。更に、撮影画像の動きのディテールは、より鮮明なターゲット画像を取得するよう、同じ期間にDVSによって検出されたイベントに基づいて強調されてもよい。
シナリオ2
例えば、非高速動作を撮影するプロセスについては、図63を参照されたい。非高速動作シナリオには、安全性保護シナリオ及びアクセス制御シナリオがある。
6301:DVSは動きのモニタリングを実行する。
このシナリオでは、ターゲットオブジェクトは、低速で動いているオブジェクトであってよい。
具体的に、ステップ6301については、上記のステップ5201の関連する記載を参照されたい。詳細はここで再び記載されない。
例えば、このシナリオ2は、アクセス制御シナリオであってよい。図64に示されるように、RGBカメラ及びDVSは、アクセス制御のためにセットされてよく、ISP又はディスプレイなどの装置が更に配置されてもよい。ここでは、単に例の説明を示す。詳細は1つずつ記載されない。
6302:ターゲットオブジェクトが現在位置している領域に基づいて、RGBカメラの撮影をトリガすべきかどうかを決定し、そうである場合に、ステップ6303を実行し、あるいは、そうでない場合には、ステップ6301を実行する。
このシナリオでは、ターゲットオブジェクトは低速で動いているので、ターゲットオブジェクトが現在位置している領域に基づいて、撮影を行うようRGBカメラをトリガすべきかどうかが決定され得る。具体的に、ターゲットオブジェクトが現在位置している領域が前もってセットされた条件を満足するかどうかが決定されてよく、そうである場合に、ステップ6303が実行され、あるいは、そうでない場合には、ステップ6301が実行される。
例えば、現在の領域内のターゲットオブジェクトが完全であるかどうか、及び現在の領域の面積が前もってセットされた値よりも大きいかどうかが決定されてよい。現在の領域内のターゲットオブジェクトが完全であるか、又は現在の領域の面積が前もってセットされた値よりも大きい場合に、DVSは、現在の領域を焦点領域としてRGBカメラへ送信し、RGBカメラを有効にして、現在の領域に基づいて撮影を行うようトリガしてよい。
例えば、図65に示されるように、ターゲットオブジェクトがアクセス制御システムのモニタリング範囲に入り、異常な動きが起きる、例えば、オブジェクトがアクセス制御システムに近づいたり、又はアクセス制御システムに接触したりする場合に、オブジェクトのエリアがDVSカメラ及びRGBカメラの撮影範囲を覆うことがあり、DVSは光強度の変化を検出する。例えば、コミュニティの公共領域はアクセス制御システムの外側にある。人々がアクセス制御システムの前に入ると、廊下の光が遮られ、視野全体の光強度が低下することがある。図65の1801に示されるように、DVSが光強度の変化に基づいて、動いているオブジェクトを検出すると、DVSは、ターゲットオブジェクトが現在位置している領域をモニタし、次いで、ターゲットオブジェクトが現在位置している領域の面積が前もってセットされた値より大きいかどうかを決定するか、ターゲットオブジェクトが現在位置している領域でのターゲットオブジェクトが完全であるかどうかを決定して、RGBカメラに撮影を実行させるべきかどうか決定し得る。RGBカメラに撮影を実行させると決定した場合、DVSは、ターゲットオブジェクトが現在位置している領域を焦点領域としてRGBカメラへ送信してもよい。RGBカメラは、ターゲットオブジェクトが現在位置している領域に基づいて焦点合わせを実行し、ターゲットオブジェクトの動きの特徴に基づいて露出パラメータを調整し、ターゲットオブジェクトの撮影を完了して、ターゲットオブジェクトのRGB画像を取得し得る。更に、DVS、撮影期間中、ターゲットオブジェクトが位置する領域を継続的にモニタすることができる。
6303:ターゲットオブジェクトが現在位置している領域に基づいて焦点合わせを実行する。
現在の動き領域に基づいて焦点合わせを行う方法は、前もってセットされた領域に基づいて焦点合わせを行う方法に似ている。詳細はここで再び記載されない。ステップ6303はステップ5203に似ている。詳細はここで再び記載されない。
6304:露出パラメータを調整し、撮影を実行する。
このシナリオでは、露出パラメータは光強度に基づいて調整されてよい。具体的に、露出パラメータは露光時間を含んでもよく、露光時間は、撮影範囲内の光強度と負の相関関係がある。
更に、露出パラメータを調整するために使用される光強度値は、DVSによって収集された光強度値であってよく、あるいは、RGBカメラ又は他のデバイスによって収集された光強度値であってよい。これは、実際の適用シナリオに基づいて特に調整されてよい。制限はここでは課されない。
例えば、平均光強度の変化は、DVSの全体のイベント発生率に基づいて推定されてよく、平均光強度Lは、DVSイベント発生率Rと正の相関関係にあり、つまり、L∝Rである。露出パラメータは、この関係に従って調整されてよい。推定された平均光強度が低下するとき、露光時間は、例えば、1/100秒から1/30秒に増える。推定された平均光強度が増大すると、露光時間は減り、例えば、1/30秒から1/100秒に減る。
他の例として、平均光強度の値は計算することができ、次いで、露出パラメータは、平均光強度の値に基づいて決定される。平均光強度の値が大きいほど、より短い露光時間を示し、平均光強度の値が小さいほど、より長い露光時間を示す。従って、カメラの露光時間は、平均光強度の値と一致し、それにより、撮影範囲内の画像は、より鮮明な画像を取得するよう十分に撮影でき、それによって、ユーザエクスペリエンスを改善する。
6305:動きディテールを強調する。
ステップ6305は、上記のステップ5205に似ている。詳細はここで再び記載されない。
従って、本願のシナリオでは、焦点合わせは、DVSによって検出されたターゲットオブジェクトが現在位置している領域に基づいて実行されてよく、動いているオブジェクトが位置する領域は正確に識別されるので、正確な焦点合わせを行うことができる。更に、露出パラメータも光強度に基づいて調整され得るので、RGBカメラは、より鮮明な画像を撮影するために、光強度に正確に適応することができる。更に、本願のシナリオでは、撮影画像の動きディテールも、より鮮明なターゲット画像を取得するよう、同じ期間内にDVSによって検出されたイベントに基づいて強調され得る。
更に、このシナリオでは、特にいくつかの監視シナリオで、RGBカメラが監視のために継続的に使用される場合に、多くの電力消費が発生する。例えば、RGBカメラによって行われる連続撮影の電力消費は、通常、数百ミリワットから数十ワットであり、大量のデータが生成される。本願で提供される画像処理方法に従って、RGBカメラは、DVSが動いているオブジェクトを検出する場合にのみ撮影を有効にするようトリガされてよい。DVSの電力消費は、通常、数十ミリワットである。例えば、DAVIS346モデルセンサの電力消費は10ミリワットから30ミリワットである。従って、電力消費は削減され得る。更に、DVSによっては、動いているオブジェクトの輪郭しか取得しないので、ユーザのプライバシーデータなどの全てのデータがモニタされるわけではなく、ユーザエクスペリエンスは改善される。更に、異常な動きが撮影でき、その後のアラーム動作は、撮影された画像に基づいて行われ得る。具体的に、セキュリティを向上させるために、実際の適用シナリオに基づいて調整が行われてもよい。本願で提供される画像処理方法に従って、外部の動きは、低電力消費のDVSを使用することによってリアルタイムでモニタされ、RGBカメラは、異常な動きが検出された場合にのみ作動するようトリガされ、それにより、この方法は電力消費の点で有利である。更に、DVSによって出力されるイベントは、具体的なテクスチャディテールを含まず、動いているオブジェクトの輪郭及び位置しか含まないので、この方法はプライバシー及びセキュリティの点で有利である。
本願は、グラフィカルユーザインターフェース(graphical user interface,GUI)を更に提供する。GUIは、電子デバイス、例えば、端末、モニタリングデバイス、又は自動運転車などのデバイスで使用されてよい。電子デバイスはディスプレイ、メモリ、及び1つ以上のプロセッサを含んでもよい。1つ以上のプロセッサは、図52から図65で説明されている画像処理方法のステップなどの、メモリに記憶されている1つ以上のコンピュータプログラムを実行するよう構成される。GUIは、図52から図65でカメラによって撮影された画像を、ディスプレイを使用することによって表示するよう構成される。
以下は、本願で提供されるGUIについて詳細に記載する。
グラフィカルユーザインターフェースは、ターゲットオブジェクトを撮影し、前もってセットされた領域内の画像を焦点合わせ情報に基づいて撮影するトリガ操作に応答して、前もってセットされた領域の画像を表示することを含み、前もってセットされた領域は、カメラの撮影領域であり、焦点合わせ情報は、前もってセットされた領域内のターゲットオブジェクトに焦点を合わせるためのパラメータを含み、焦点合わせ情報は、ターゲットオブジェクトの動き情報に基づいて決定され、動き情報は、前もってセットされた領域で動くターゲットオブジェクトの運動軌跡に関する情報を含む。
例えば、図66に示されるように、ターゲットオブジェクトは、高速で動いている車両であってよく、GUIは具体的に、ターゲットオブジェクトの動き情報を検出することであり、動き情報は、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡に関する情報を含んでよく、前もってセットされた領域はカメラの撮影領域である、ことと、動き情報に基づいて焦点合わせ情報を決定することであり、焦点合わせ情報は、前もってセットされた領域内のターゲットオブジェクトに焦点を合わせるためのパラメータを含む、ことと、次いで、焦点合わせ情報に基づいて、前もってセットされた領域内のターゲットオブジェクトに焦点を合わせることとに応答して、車両の画像がカメラを使用することによって撮影された後に、撮影された画像をディスプレイに表示することを含んでよく、画像には、高速で動く車両が含まれ得る。
従って、本願のこの実施において、カメラの撮影範囲内の動いているターゲットオブジェクトの運動軌跡が検出され得、次いで、ターゲットオブジェクトの運動軌跡に基づいて、焦点合わせ情報が決定され、焦点合わせが、より鮮明な画像を撮影するよう完了される。たとえターゲットオブジェクトが動いているとしても、ターゲットオブジェクトは正確に焦点を合わせられ得、動き状態に対応するより鮮明な画像が撮影され得、それによって、ユーザエクスペリエンスを改善する。
可能な実施において、焦点合わせ情報は焦点領域に関する情報を含み、グラフィカルユーザインターフェースは、予測領域を取得するよう、動き情報に基づいて、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測し、予測領域に基づいて焦点領域を決定することに応答して、焦点領域をディスプレイに表示することを更に含んでもよい。
例えば、図67に示されるように、車両は高速動作状態にあるとき、将来の前もってセットされた期間における車両の運動軌跡は、車両が将来の期間にまさに達しようとする予測領域を取得するよう、撮影範囲内で動いている車両の検出された運動軌跡に基づいて予測され得る。領域は焦点領域6701として使用され、焦点領域6701は、図68に示されるように、焦点を合わせられ、それにより、ターゲットオブジェクトのより鮮明な画像が撮影される。
従って、本願のこの実施において、将来の前もってセットされた期間におけるターゲットオブジェクトの運動軌跡が予測され得、焦点領域は予測領域に基づき決定され、それにより、ターゲットオブジェクトは正確に焦点を合わせられ得る。たとえターゲットオブジェクトが高速で動いているとしても、本願のこの実施において、ターゲットオブジェクトは、ターゲットオブジェクトが焦点領域にあることを可能にするために、予測により前もって焦点を合わせられ得、それにより、高速で動いているより鮮明なターゲットオブジェクトが撮影される。
可能な実施において、グラフィカルユーザインターフェースは具体的に、予測領域が前もってセットされた条件を満足する場合に、予測領域に基づき焦点領域を決定することに応答して焦点領域をディスプレイに表示すること、又は予測領域が前もってセットされた条件を満足しない場合に、動き情報に基づき前もってセットされた期間内のターゲットオブジェクトの運動軌跡を予測して、新しい予測領域を取得し、新しい予測領域に基づき焦点領域を決定することに応答して、焦点領域をディスプレイに表示することを含んでもよい。
前もってセットされた条件は、予測領域が完全なターゲットオブジェクトを含むこと、予測領域の面積が前もってセットされた値よりも広いこと、などであってよい。
例えば、図69Aに示されるように、カメラによって撮影されたターゲットオブジェクトが不完全である場合に、ターゲットオブジェクトの予測領域の面積は小さくなり、つまり、焦点領域6901は小さく、車両の面積よりも小さい。その結果、後に撮影される車両の画像は不鮮明になる。しかし、図69Bに示されるように、車両本体が撮影範囲に完全に入る場合に、面積が要件を満足する予測領域、つまり、焦点領域6902が取得され得、それにより、車両の完全かつ鮮明な画像が、図69Cに示されるように、焦点領域5502に基づき撮影される。
従って、本願のこの実施において、予測領域が前もってセットされた条件を満足する場合にのみ、焦点領域は予測領域に基づき決定され、カメラは撮影を実行するようトリガされ、予測領域が前もってセットされた条件を満足しない場合には、カメラは撮影を実行するようトリガされない。従って、ターゲットオブジェクトの不完全な画像は、撮影しないよういにすることができ、あるいは、意味のない撮影は回避することができる。更に、撮影が実行されないとき、カメラは無効状態になり、カメラは、予測領域が前もってセットされた条件を満足する場合にのみ撮影を実行するようトリガされ、それにより、カメラによって生成される電力消費は削減され得る。
可能な実施において、動き情報には、ターゲットオブジェクトの運動方向及び運動速度のうちの少なくとも1つが含まれ、グラフィカルユーザインターフェースは具体的に、前もってセットされた期間内のターゲットオブジェクトの運動軌跡を運動方向及び/又は運動速度並びにターゲットオブジェクトが前もってセットされた範囲内を動くときに生成されるターゲットオブジェクトの運動軌跡に基づき予測して、予測領域を取得することに応答して、予測領域をディスプレイに表示することを含む。
従って、本願のこの実施において、将来の前もってセットされた期間におけるターゲットオブジェクトの運動軌跡は、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡、運動方向及び/又は運動速度、などに基づき予測され得、それにより、ターゲットオブジェクトの将来の運動軌跡が正確に予測され得、ターゲットオブジェクトはより正確に焦点を合わせられ得、それによって、より鮮明な画像を撮影する。
可能な実施において、グラフィカルユーザインターフェースは具体的に、運動方向及び/又は運動速度並びに前もってセットされた範囲内のターゲットオブジェクトの運動軌跡に基づいて、時間により変化する、ターゲットオブジェクトが位置している領域の中心点の変化関数をフィッティングすることと、変化関数に基づいて、計算により、予測される中心点を取得することであり、予測される中心点は、予測により取得される、ターゲットオブジェクトが位置している領域の中心点である、ことと、予測される中心点に基づき予測領域を取得し、予測領域をディスプレイに表示することを含んでよい。
可能な実施において、予測範囲内の画像はRGBカメラによって撮影され、グラフィカルユーザインターフェースは具体的に、焦点領域の中心点から最小ノルム距離を有する、RGBカメラの複数の焦点の中の少なくとも1つの焦点を焦点として使用することによって焦点合わせを実行することに応答して、焦点として使用される少なくとも1つの焦点に基づき焦点合わせを実行することによって撮影される画像をディスプレイに表示することを含んでもよい。
可能な実施において、焦点合わせ情報には、焦点領域に関する情報が含まれ、動き情報には、ターゲットオブジェクトの現在の領域が含まれ、グラフィカルユーザインターフェースは具体的に、ターゲットオブジェクトが現在位置している領域を焦点領域として使用することに応答して、焦点領域をディスプレイに表示することを含んでもよい。
例えば、図70に示されるように、ターゲットオブジェクトは、低速で動いている歩行者であってよい。この場合に、ターゲットオブジェクトの運動速度は遅く、ターゲットオブジェクトの現在の領域は、焦点領域7001として直接使用されてもよく、次いで、焦点領域5601は、より鮮明な画像を取得するよう、焦点を合わせられる。
従って、本願のこの実施において、前もってセットされた範囲内のターゲットオブジェクトの運動軌跡に関する情報には、ターゲットオブジェクトが現在位置している領域と、ターゲットオブジェクトが過去に位置していた領域とが含まれ得る。ターゲットオブジェクトが現在位置している領域は、ターゲットオブジェクトに焦点を合わせることを完了するために、焦点領域として使用されてよい。このようにして、より鮮明な画像が撮影され得る。
可能な実施において、グラフィカルユーザインターフェースは具体的に、前もってセットされた範囲内画像が撮影される前に露出パラメータを取得することに応答して、ディスプレイに露出パラメータを表示することと、露出パラメータに基づき前もってセットされた範囲内のターゲットオブジェクトを撮影することに応答して、露出パラメータに基づき前もってセットされた範囲内で撮影された画像をディスプレイに表示することとを含んでもよい。従って、本願のこの実施において、露出パラメータは、露出パラメータに基づき撮影を完了して、より鮮明な画像を取得するために、更に調整されてもよい。
具体的に、露出パラメータは、EV、露光時間、露出量、開口サイズ、又はISOなどのパラメータが含まれ得る。画像が撮影される場合に、露出パラメータは撮影インターフェースに表示されてよく、それにより、ユーザは、表示されている露出パラメータに基づき現在の撮影ステータスを取得することができ、ユーザエクスペリエンスは改善される。
例えば、図71に示されるように、露出パラメータはEVを含んでよい。画像が撮影される場合に、EV=6ならば、「EV:6」が表示インターフェースに表示されてよく、それにより、ユーザエクスペリエンスは、表示インターフェースを使用することによって、又はEVの特定の値を表示することによって、改善される。
可能な実施において、露出パラメータは動き情報に基づき決定され、露出パラメータは露光時間を含み、露光時間は、ターゲットオブジェクトの運動速度と負の相関関係がある。
従って、本願のこの実施において、露光時間がターゲットオブジェクトの運動速度と一致するように、露光時間はターゲットオブジェクトの運動速度に基づき決定されてよい。例えば、運動速度が速いほど、より短い露光時間を示し、運動速度が遅いほど、より長い露光時間を示す。露出過多、露出不足、などは回避することができ、それにより、より鮮明な画像がその後に撮影され得、ユーザエクスペリエンスは改善され得る。
可能な実施において、露出パラメータは、光強度に基づき決定され、光強度は、カメラによって検出された光強度であってよく、又はモーションセンサによって検出された光強度であってよく、露出パラメータは露光時間を含み、前もってセットされた範囲内の光強度の値は、露光時間と負の相関関係がある。
従って、本願のこの実施において、露光時間は、検出された光強度に基づいて決定されてよい。光強度がより高い場合に、露光時間はより短く、光強度がより低い場合に、露光時間はより長い。従って、適切な露出量は確保され得、より鮮明な画像が撮影され得る。
可能な実施において、グラフィカルユーザインターフェースは、モニタされたターゲットオブジェクトと、オブジェクトに対応する動き情報とに基づいて、前もってセットされた範囲内の画像に焦点を合わせて、前もってセットされた範囲内のターゲット画像を取得することに応答して、画像をディスプレイに表示することを更に含んでもよい。
従って、本願の実施方法では、画像が撮影される場合に、画像内のターゲットオブジェクトに対応する動きに関する情報、例えば、前もってセットされた範囲内のターゲットオブジェクトの位置及びターゲットオブジェクトの輪郭などの情報を取得するよう、前もってセットされた範囲内のターゲットオブジェクトの動きが更にモニタされてよい。更に、より鮮明な画像を取得するよう、情報に基づいて、撮影された画像に対してエンハンスメント処理が実行される。
例えば、DVSが、動いているターゲットオブジェクトの輪郭を収集してもよく、それにより、DVSは、DVSによって捕捉されたターゲットオブジェクトの輪郭に基づいて、RGBカメラによって収集された画像に対してエンハンスメント処理を実行してよい。RGBカメラによって捕捉された画像は、図72Aに示されるものであってよい。例えば、ターゲットオブジェクトの輪郭のノイズは除去され、ターゲットオブジェクトの輪郭は、図72Bに示されるように、ターゲットオブジェクトのより鮮明な画像を取得するよう、強調される。
可能な実施において、動き情報は、ダイナミックビジョンセンサDVSにより、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタすることによって、取得される。
従って、本願のこの実施において、動いているオブジェクトは、正確な動き情報を取得するよう、DVSによりカメラの撮影範囲内でモニタされてよい。たとえターゲットオブジェクトが高速動作状態にあるとしても、ターゲットオブジェクトの動き情報は、DVSによりタイムリーに捕捉され得る。
実施2:HDRモード撮影シナリオで画像を取得する方法。
最初に、HDRモード撮影シナリオについては、本願に係る画像処理方法の略フローチャートである図73を参照されたい。上記の実施1のものと同じであるか又は類似している名詞、ステップ、などは以下で詳細に記載されないことが留意されるべきである。
7301:第1イベント画像と、複数の撮影されたRGB画像とを取得する。
第1イベント画像は、モーションセンサにより収集された画像であってよく、前もってセットされた範囲内で動いているオブジェクトに関する情報を含む。前もってセットされた範囲は、モーションセンサの検出範囲として理解されてよく、前もってセットされた範囲はカメラの撮影範囲を含む。理解を容易にするために、本願で述べられているイベント画像は、ある期間にモーションセンサにより収集された情報に基づいて生成された動的画像として理解され得、ある期間にモーションセンサの検出範囲内でモーションセンサに対して動くオブジェクトの動きの変化を示す。
第2実施で述べられている第1イベント画像及び第2イベント画像は、図73から図80の撮影シナリオで使用されるイベント画像を指すことが留意されるべきである。第1イベント画像及び第2イベント画像は、SLAMに対応する図95から図108又は図118から図120において以下で述べられている第1イベント画像及び第2イベント画像と同じであっても又は異なってもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。
複数のRGB画像(又は第1画像と呼ばれる)は、異なる露光時間を使用することによって撮影された画像であってもよい。例えば、複数の画像は、短い露光時間を使用して撮影された画像、及び長い露光時間を使用して撮影された画像であってよい。一般に、露光時間が長いほど、低光シナリオでより多くのテクスチャ情報が収集され得ることを示し、露光時間が短いほど、強光シナリオでより多くのテクスチャ情報が収集され得ることを示す。従って、より豊かなテクスチャを有する画像は、異なる露光時間を使用することによって収集され得る。
例えば、図36を参照されたい。第1イベント画像は、カメラが複数のRGB画像を撮影する場合にDVSによって収集されてよい。第1イベント画像は、ターゲットオブジェクトが位置する領域のサイズ、境界、及びオブジェクトがカメラの撮影範囲内で動く期間における前もってセットされた範囲内の角点の座標などの情報を含んでよい。
具体的に、例えば、DVSによって収集されたデータによって形成される画像は、Fd(x,y)=Σt1≦t≦t2events(x,y,t)と表されてよい。
であり、(x,y)は、画像内の位置の座標であり、tはある瞬間を表し、t1は、露出画像が撮影され始める時点から50ミリ秒を引くことによって求められ、t2は、露出画像が撮影され始める時点であり、eventsは、DVSなどのモーションセンサによって収集されたデータを表す。
より具体的には、第1イベント画像は、上記のステップ5201で述べられている動き情報に似ている。詳細はここで再び記載されない。
任意に、この実施形態で述べられているイベント画像は、より鮮明な画像を取得するよう、図38から図44に対応する上記の方法プロシージャを使用することによって最適化されてもよい。
本願のこの実施において、理解を容易にするために、RGBカメラによって撮影された画像はRGB画像と呼ばれ、モーションセンサによって収集された情報はイベント画像と呼ばれることが留意されるべきである。
7302:第1イベント画像に基づいて、各RGB画像に対応するぶれ度を計算する。
第1イベント画像及び複数のRGB画像が取得された後、各RGB画像に対応するぶれ度は、第1イベント画像を使用することによって計算される。ぶれ度は、RGB画像を撮影するカメラのぶれ度、又はRGB画像が撮影されるときに撮影範囲内のオブジェクトが動いている状態にあるためにぼやけた画像の不鮮明度として理解されてよい。代替的に、いずれの場合も存在することがある。
具体的に、第1イベント画像は、ある期間にカメラの撮影範囲内で動いている状態にあるオブジェクトの位置及び輪郭などの情報を含み、期間は、複数のRGB画像の撮影期間をカバーする。従って、各RGB画像のぶれ度は、各RGB画像の撮影期間に含まれている動いている状態にあるオブジェクトに関する、第1イベント画像内の情報に基づいて、計算されてよい。
例えば、RGB画像が撮影されるぶれ度を量子化する方法は:
を含んでよい。Blureは、e番目のRGB露出画像の不鮮明度、つまり、各画像が撮影されるぶれ度を測定するためのものである。te0は、露出画像の撮影が開始する時点である。teは、現在のRGB画像の露光時間である。H*Wは、現在のRGB画像の長さ及び幅を示す。(x,y)は、RGB画像内の局所部分の位置を示す。re(x,y)は、e番目のRGB露出画像内の局所的な不鮮明度を示す。eventsは、DVSによって収集されたデータを示す。αは、正規化係数であり、r(x,y)を[0,1]の範囲に正規化するために使用される。
本願でぶれ度を量子化する方法は一例にすぎないことが留意されるべきである。具体的に、Brenner gradient関数、分散関数、又はエントロピ関数などの他の方法が、ぶれ度を量子化するために使用されてもよい。具体的に、実際の適用シナリオに基づいて調整が行われてもよい。これは本願で制限されない。
7303:RGB画像が再撮影される必要があるかどうかを決定し、そうである場合に、ステップ7304を実行し、あるいは、そうでない場合に、ステップ7306を実行する。
各RGB画像の撮影のぶれ度が計算された後、各RGB画像に対応するぶれ度に基づいて、そのRGB画像が再撮影される必要があるかどうかが決定される。RGB画像が再撮影される必要がある場合には、ステップ7304が引き続き実行されてよい。RGB画像が再撮影される必要がない場合には、ステップ7306が引き続き実行されてよい。
具体的に、各RGB画像のぶれ度が第1プリセット値を超えるかどうかが決定されてよい。画像のぶれ度が第1プリセット値を超える場合には、RGB画像は再撮影され得る。全てのRGB画像のぶれ度が第1プリセット値を超えない場合に、RGB画像は再撮影される必要がない。複数のRGB画像のぶれ度が第1プリセット値を超える場合には、複数のRGB画像は再撮影される必要あり得る。
可能な実施において、各RGB画像のぶれ度が第1プリセット値を超えるかどうかを決定することに加えて、RGB画像を再撮影する再撮影回数が特定の回数を超えるかどうかが更に決定されてもよい。再撮影回数が特定の回数を超える場合に、再撮影は実行されなくてもよい。再撮影回数が特定の回数を超えない場合に、RGB画像は引き続き再撮影され得る。例えば、再撮影回数は5未満であるよう前もってセットされてよい。再撮影回数が5に達する場合には、RGB画像は、たとえRGB画像のぶれ度が高いとしても、再撮影されない。
例えば、RGBが撮影されるぶれ度を量子化する方法は、
を含んでよい。Blure≧threshold2のとき、RGB画像は再撮影される必要があり、threshold2は第1プリセット値である。
他の可能な実施において、1つ以上のRGB画像(しかし、全てのRGB画像ではない)のぶれ度が第1プリセット値よりも大きい場合に、再撮影は不要であり、ぶれ度が第1プリセット値よりも大きくない残りのRGB画像は、最終的な画像を取得するよう融合され、それによって、画像を取得する効率は向上する。
理解を容易にするために、例えば、ぶれ度が低い画像は図74に示されるものであってよく、ぶれ度が高い画像は図75に示されるものであってよい。明らかに、ぶれ度が高い画像に含まれる情報は不正確であり、視覚インターフェース上でぼやける。ぶれ度が高い画像が融合に使用される場合に、最終的に取得されるターゲット画像に含まれる情報も不正確であり、一層ぼやけている。従って、この場合に、1つ以上のRGB画像は再撮影される必要がある。他の例として、図76に示されるように、最も暗い光強度に対する最も強い光強度の比率が大きいシナリオでは、撮影されたRGB画像は露出過多である場合があり、最も強い光強度を有する部分の画像は不鮮明である。しかし、DVSによって捕捉された画像の鮮明度は高い。従って、DVSによって収集された情報は、より鮮明なRGB画像を取得するよう、RGB画像が再撮影される必要があるかどうかを決定するために使用されてよい。
可能な実施において、RGB画像が再撮影される必要があるかどうかを決定する方法は、第1イベント画像を複数の領域に分割し、相応して、複数のRGB画像の中で露出値が最も小さいRGB画像(又は第3画像と呼ばれる)を複数の領域に分割することを更に含んでもよい。第1イベント画像内の複数の領域の形状及び位置は、RGB画像内の複数の領域の形状及び位置に対応する。例えば、第1イベント画像が16個の長方形領域に分割される場合に、露出値が最も小さいRGB画像は、形状、サイズ及び位置が第1イベント画像内の領域のそれらと同じである16個の長方形領域に分割されてよい。露出値は、露光時間、露出量、又は露出レベルのうちの1つ以上を含んでよい。次いで、第1イベント画像内の各領域がテクスチャ情報(又は第1テクスチャ情報と呼ばれる)を含むかどうかが計算され、露出値が最も小さいRGB画像内の各領域がテクスチャ情報を含むかどうかが計算される。次いで、第1イベント画像内の各領域は、露出値が最も小さいRGB画像内の各領域と比較される。第1動的領域内のある領域がテクスチャ情報を含み、露出値が最も小さいRGB内にあり、当該領域と同じである領域がテクスチャ情報を含まない場合に、それは、RGB画像内のこの領域が非常にぼやけており、RGB画像は再撮影される可能性があることを示す。第1イベント画像内の各領域がテクスチャ情報を含まない場合に、RGB画像は再撮影される必要がない。
例えば、最大光強度と最小光強度との間の比率が大きいシナリオでは、つまり、明暗差が大きいシナリオでは、第1イベント画像及び露出値が最も小さいRGB画像は、同じ形状及びサイズの領域に分割される。次いで、第1イベント画像及び露出値が最も小さいRGB画像の各領域がテクスチャ情報を含むかどうかが計算される。
図77に示されるように、第1イベント画像及び露出値が最も小さいRGB画像は、複数のマクロブロックにセグメント化されてもよい。分散が前もってセットされた閾値threshold0よりも大きいマクロブロックが第1イベント画像に存在する場合に、そのマクロブロックは、マクロブロックセット{MBi}として記録され、すなわち、マクロブロックMBiはテクスチャ情報を含む。相応して、対応するマクロブロック領域は、露出値が最も小さいRGB画像Ieで見つけられ、第1イベント画像に含まれるテクスチャが、最も小さい露出値を有するRGB画像によって捕捉されているかどうかは、Ieでのそれらのマクロブロック領域のピクセル分散を計算することによって決定される。Ieでのピクセル分散が前もってセットされた閾値threshold1よりも小さいマクロブロックMBiがある場合に、その領域のテクスチャがRGB画像によって完全には捕捉されておらず、RGB画像が再撮影される必要があることを示す。
可能な実施において、第1イベント画像に含まれるテクスチャ特徴及び第3画像内の特徴が更に抽出されてもよく、第1イベント画像に含まれる特徴及び第3画像内の特徴は照合される。例えば、特徴間のユークリッド距離が比較される。ユークリッド距離が近いほど、より高い一致度を示し、ユークリッド距離が遠いほど、より低い一致度を示す。一致度が低く、例えば、0.8よりも低い場合に、それは、動いているオブジェクトのテクスチャ情報がRGB画像に完全には捕捉されていない可能性があり、RGB画像が再撮影される必要があることを示す。第1イベント画像又はRGB画像から抽出された特徴は、スケール不変特徴変換(scale invariant feature transform,SIFT)若しくはディープニューラルネットワークにより抽出された特徴、又は生成されたグレースケールヒストグラムであってよい。具体的に、これは、実際の適用シナリオに基づいて調整されてよい。制限は本願で課されない。
代替的に、可能な実施において、第1イベント画像で検出された領域のサイズが計算されてもよく、当該領域にはイベントが存在する。イベントが存在する領域のサイズが前もってセットされたサイズを超える場合に、RGB画像は再撮影される必要があると決定される。イベントが存在する領域のサイズが前もってセットされたサイズを超えない場合に、RGB画像は再撮影不要であってよい。代替的に、RGB画像が再撮影される必要があるかどうかは、他の実施で決定されてもよい。
更に、いくつかのシナリオで、イベント領域の位置が第1イベント画像又はRGB画像の中心領域に位置し、例えば、RGB画像の中心点をカバーする場合に、RGB画像は再撮影される必要がある。領域がRGB画像の周辺領域にあり、例えば、RGB画像の境界線に近く、イベント領域の面積が特定の値よりも小さい場合には、RGB画像は再撮影不要であってよい。代替的に、RGB画像が再撮影される必要があるかどうかは、イベント領域とイベント画像の中心点との間の距離に基づいて更に決定されてもよい。例えば、イベント領域とイベント画像の中心点との間の距離が前もってセットされた距離に満たない場合、距離が200ピクセル未満である場合に、RGB画像は再撮影される必要があり、あるいは、距離が200ピクセル以上である場合に、RGB画像は再撮影される必要がない。具体的に、これは、実際の適用シナリオに基づいて調整されてよい。
具体的に、例えば、RGB画像に対応するイベント画像は、Fe(x,y)=Σte0≦t≦te0+teevents(x,y,t)と表されてよい。イベント画像は、重なり合わない同じサイズの複数のマクロブロックに分割され、動き領域のサイズは、動きマクロブロックの数を使用することによって計算される。イベント画像上のマクロブロックに含まれる非ゼロピクセルの数が前もってセットされた閾値threshold3よりも多い場合かつその場合に限り、マクロブロックは動きマクロブロックの数と決定される。イベント画像は16×16個のマクロブロックを含む場合に、threshold3は128にセットされてよい。動き領域に含まれる動きマクロブロックの数が128を超える場合に、RGB画像は再撮影される必要がある。数が128を超えない場合に、RGB画像は再撮影される必要がなく、あるいは、RGB画像が再撮影される必要があるかどうかは、他の方法で決定される。
可能な実施において、モーションセンサによって撮影される範囲は、RGBカメラの撮影範囲とは異なってもよい。このシナリオでは、ステップ7302より前に、第1イベント画像及び複数のRGB画像は更にアライメントされる必要があり、それにより、第1イベント画像に対応する撮影範囲は、RGB画像に対応する撮影範囲に一致する。
7304:露出パラメータを計算する。
露出パラメータには、露光時間、露出量、露出レベル、などのうちの1つ以上が含まれ得る。
例えば、露光時間を計算する方法は、最短露光時間を有する画像に対応するDVSデータを使用することによって露出過多領域の実際のピクセル値Ie’(x,y)=Σte0≦t≦te0+tep(x,y,t)*Cを推定することを含んでよい。Cは、DVSカメラの閾値である。Cは、通常は2である。p(x,y,t)={-1,0,1}は、時間tでのピクセル位置(x,y)の符号付きイベントである。前の時点と比較して、光強度が下がる場合に、イベントは-1であり、光強度が上がる場合に、イベントは1であり、あるいは、光強度が変わらない場合に、イベントは起こらず、それは0と記録される。カメラ応答関数(Camera Response Function,CRF)に基づいて、露出領域の露出値は、
であり、最適な露光時間
は、露出値に基づいて推定される。Vmin=0及びVmax=255である。
更に、RGB画像のぶれ度が第1プリセット値よりも高い場合に、再撮影に使用される露出パラメータが計算されると、RGB画像に対応する露出パラメータは直接使用されてもよい。
他の例として、ここで露出パラメータを計算する方法については、上記の実施で露出パラメータを調整する方法、例えば、ステップ5604、ステップ7404、図60、又は図62に対応する上記の実施形態で述べられた露出調整方法を参照されたい。
ステップ7304は任意のステップであることが留意されるべきである。露光時間、露出量、又は露出レベルなどの露出パラメータは再計算されてもよく、再撮影は、ぶれ度が第1プリセット値よりも大きいRGB画像に対応する露出パラメータ、などを使用することによって実行されてもよい。
7305:ぶれ度が第1プリセット値以下であるRGB画像を取得するよう再撮影を行う。
RGB画像が再撮影される場合に、モーションセンサは、撮影範囲内の動いているオブジェクトの画像を捕捉するために使用されてよく、次いで、再撮影されたRGB画像に対応するぶれ度は、RGB画像が再撮影されるときにモーションセンサによって捕捉されたイベント画像を使用することによって計算される。ぶれ度が第1プリセット値よりも高い場合に、再撮影されたRGB画像のぶれ度が第1プリセット値以下になるか、再撮影の回数が前もってセットされた回数に達するか、などまで、ステップ7303が実行され続けてもよい。
ステップ7304がステップ7305の前に実行される、つまり、露出パラメータが計算される場合に、RGB画像は、露出パラメータを使用することによって再撮影されてもよく、あるいは、ステップ7304が実行されない場合に、ぶれ度が第1プリセット値よりも大きいRGB画像に対応する露出パラメータが、新しいRGB画像、又は第2画像と呼ばれる、を取得するよう、撮影に使用されてもよい。
更に、動いているオブジェクトが撮影範囲に存在するシナリオでRGB画像が再撮影される場合に、RGB画像を再撮影する具体的方法については上記の実施1を参照されたい。例えば、撮影範囲内のオブジェクトの運動軌跡は、DVSによって収集されたデータを使用することによって予測されてよい。従って、焦点合わせは、より鮮明な画像を撮影するよう、予測された結果に基づいて実行される。詳細はここで再び記載されない。
従って、本願のこの実施において、露出ポリシーは、ダイナミック検知カメラ(つまり、モーションセンサ)によって収集された情報を使用することによって適応的に調整される。具体的に言えば、撮影範囲内のテクスチャに関する動的検知情報の高ダイナミックレンジ検知特徴を使用することによって、適切な露光時間を有する画像は適応的に再撮影され、それにより、強い又は暗い光の領域でテクスチャ情報を捕捉するカメラの能力は向上する。
7306:各RGB画像のぶれ度に基づいて融合重みを計算し、各画像の融合重みに基づいて複数のRGB画像を融合してターゲット画像を取得する。
ぶれ度が第1プリセット値を超えない複数のRGB画像が取得された後、各RGB画像に対応する融合重みは、各RGB画像のぶれ度に基づいて計算され、複数のRGB画像は、高精細のターゲット画像を取得するよう、各RGB画像の融合重みに基づいて融合される。
複数のRGB画像を融合する過程で、異なる露光時間のRGB画像はアライメントされてよく、それにより、融合を通じて取得されたターゲットはより鮮明である。一般に、複数のRGB画像の相対位置は、ピクセル点又は特徴点に基づいて、あるいは、オプティカルフローを計算することによって探索されてもよく、オフセットは、RGB画像がオフセットに基づいてアライメントされるように、計算されてもよい。
例えば、RGB画像をアライメントする具体的な方法は、最初に、イベントデータに基づいて局所的なオプティカルフロー情報を計算することを含んでよい。計算方法は次の通りである:
局所空間Ω内のイベント画像データp(x,y,t)はサンプルプレーン上にあり、
が、プレーンのパラメータを表すために使用される、ことが仮定される。パラメータa、b、c及びdは、次の式:
を最適化することによって解くことができる。
局所空間Ω内のイベント画像データp(x,y,t)はサンプルプレーン上にあり、
プレーンΣe=ax+by+ct+dに従って、局所空間Ωの局所オフセット(u,v)は解くことができ、局所オフセットは(∂x/∂Σe,∂y/∂Σe)である。画像は、u及びvの値に基づいてアライメントされ、つまり、Ie(x,y)=Ie+N(x+u,y+v)である。Ieは、先に撮影された露出画像である。ie+Nは、Ieの後に撮影された露出画像であり、N=1,2,・・・である。p(x,y,t)は、IeとIe+Nとの間に局所空間Ω内で起きたイベントのデータである。Ωの空間分解能は8×8である。局所オフセットは、RGB画像全体のアライメントを完了するよう、画像に対して局所空間Ωごとに推定される。特に、Ωの分解能がH×Wである場合に、画像全体の大域的なオフセットが計算される。
各RGB画像の融合重みを計算する過程で、高い融合重みは、ぶれ度が低いRGB画像に対してセットされてよく、低い融合重みは、ぶれ度が高いRGB画像に対してセットされてよく、それにより、最終的に取得されたターゲット画像に含まれる情報はより明りょうである。
画像ごとに融合重みをセットする複数の方法が存在し得る。例えば、各RGB画像の融合重みは、複数のRGB画像のぶれ度の比率を使用することによってセットされるか、あるいは、各RGB画像の融合重みは、各RGB画像のぶれ度を使用することによってセットされる。
例えば、RGB画像ごとに初期融合重みをセットする方法は:
と表現されてよい。
we(x,y)は、RGB画像の融合重みを示す。Vmin=0及びVmax=255である。
RGB画像が撮影されるときに、カメラが揺れるか、又は撮影範囲内のオブジェクトが動いている状態にある場合に、各画像の融合重みは、各画像のぶれ度に基づいて調整されてよい。例えば、調整された融合重みは:
と表現されてよい。
Blureは、各RGB画像のぶれ度であり、BSeは、動き領域のサイズを示す。
一般に、RGB画像のぶれ度が高く、つまり、画像全体がぼやけており、RGB画像が、イベント画像に対応する期間に大きい動き領域を有する場合に、RGB画像の融合重みは、最終的に取得されたターゲット画像において不鮮明な領域を回避するよう、大いに小さくされてよい。しかし、RGB画像のぶれ度が低く、つまり、画像全体が鮮明であり、RGB画像がイベント画像に対応する期間にほとんど又は全く動き領域を有さない場合に、RGB画像の融合重みは、最終的なターゲット画像をより鮮明にするために、初期融合重みに基づいて大きくされてよい。
可能な実施において、各RGB画像の第1ぶれ度が第1プリセット値以下であるが第2プリセット値よりも高い場合に、ぶれ補正処理が、ぶれ補正された第1画像の夫々を取得するよう各第1画像に実行される。具体的に、ぶれ補正方法には、AIぶれ補正アルゴリズム、オプティカルフローに基づいたぶれ補正アルゴリズム、USM(Unsharp Mask)先鋭化アルゴリズムなどが含まれ得る。具体的に、ぶれ補正方法は、実際の適用シナリオに基づいて調整されてよい。これは本願で制限されない。従って、本願のこの実施において、ぶれがある場合は、動的データに基づいて区別されてよい。ぶれがない場合に、直接融合が実行される。ぶれが強くない場合に、適応的なぶれ補正がRGB画像に対して実行される。ぶれが強い場合に、RGB画像は再撮影される。複数のぶれ度を含むシナリオが使用され、強力な汎化能力が存在する。
例えば、画像のフレームは、図78に示されるように、直接撮影されてもよい。本願で提供される方法に従って、イベント画像を参照して複数のRGB画像を融合することによって取得されるターゲット画像は、図79に示されるものであってよい。明らかに、本願で提供される方法を使用することによって取得される画像はより鮮明であり、ユーザエクスペリエンスは向上する。
従って、本願のこの実施において、RGB画像が撮影されるときに存在するRGB画像のぶれ度は、イベント画像に基づいて量子化されてよく、各RGB画像の融合度は、各RGB画像のぶれ度に基づいて決定されてよい。一般に、より低いぶれ度を有するRGB画像は、より鮮明なターゲット画像を取得するために、より高い融合重みに対応し、それにより、最終的に取得されたターゲット画像に含まれる情報は、より鮮明なRGB画像である傾向がある。更に、ぶれ度が高いRGB画像の場合に、RGB画像は、ぶれ度がより低いより鮮明なRGB画像を取得するよう再撮影されてよく、それにより、より鮮明な画像がその後の画像融合に使用され得るので、最終的なターゲット画像をより鮮明にする。
理解を容易にするために、本願で提供される画像処理方法のプロシージャは、より具体的なシナリオを使用することによって以下で詳細に記載される。
本願で提供される画像処理方法は、カメラ及びDVSなどのモーションセンサがハイ値又は接続されている携帯電話機又はカメラなどのデバイスによって実行されてよい。以下は、記載のための例として携帯電話機を使用する。
図80に示されるように、ユーザが携帯電話機を使用することによって撮影を行うシナリオでは、ユーザはHDRモードを有効にし、HDRモードを使用することによって、より鮮明な画像を撮影し得る。
ユーザが撮影ボタンをタップした後、携帯電話機は短時間静止したままである。この場合に、携帯電話機は、異なる露光時間を使用することによって複数のRGB画像を撮影することがある。このプロセスで、1つ以上のRGB画像のぶれ度が前もってセットされた値よりも高い場合に、RGB画像は、新しいRGB画像を加えるために、再撮影されてよい。RGB画像を再撮影する過程で、ぶれ度が前もってセットされた値よりも高いRGB画像に対応する露光時間が使用されてよく、あるいは、露光時間に基づいて露出レベルを低減することによって取得される露光時間が、より鮮明な、再撮影されたRGB画像を取得されるために、使用されてもよい。
RGB画像のぶれ度が前もってセットされた値以下であるが0よりも大きい場合に、ぶれ補正処理が、より鮮明なRGB画像を取得するよう、RGB画像に実行されてもよい。更に、RGB画像を再撮影することと比較して、ぶれ補正処理を行うことは、最終的なターゲット画像を取得する効率を向上させることができる。全てのRGB画像のぶれ度が前もってセットされた値を超えない場合に、RGB画像の再撮影及びぶれ補正処理の実行は不要である。
次いで、融合重みが、各RGB画像のぶれ度に基づいて各RGB画像に割り当てられる。一般に、より高いぶれ度を有するRGB画像は、より小さい重み値に対応し、より低いぶれ度を有するRGB画像は、より大きい重み値に対応し、それにより、最終的に取得されたターゲット画像に含まれる情報は、より鮮明なRGB画像に含まれる情報である傾向がある。このようにして、最終的に取得されたターゲット画像はより鮮明であり、ユーザエクスペリエンスは改善される。更に、ターゲット画像がその後の画像認識、特徴抽出などに使用される場合に、取得された認識結果又は抽出された特徴はより正確である。
更に、上記の方法(HDRモード撮影シナリオで画像を取得する方法)では、DVSセンサ及びRGBカメラを使用して高品質の画像を協働的に生成する方法は、高フレームレートビデオ(High frame rate video,HFRビデオ)の適用シナリオに更に適用されてよく、HFRの各フレームの画像品質は、画像の品質を向上させるよう、DVSのHDR特徴及び動きのぼやけ除去を通じて改善される。更に、RGBセンサは、固定フレームレートで画像シーケンス(ビデオ)を撮影し、2つのRGB画像の間のDVSイベントは、高フレームレートビデオを再構成するために使用され、それにより、ビデオフレームレートは改善され得る。
図115は、本願で提供される画像処理装置の構造の模式図である。画像処理装置は、次のコンポーネントを含んでよい。
モーションセンサ11501は、ターゲットオブジェクトの動き情報を検出するよう取得され、動き情報は、前もってセットされた範囲内で動いているターゲットオブジェクトの運動軌跡に関する情報を含み、前もってセットされた範囲は、カメラの撮影範囲である。
計算モジュール11502は、動き情報に基づいて焦点合わせ情報を決定するよう構成され、焦点合わせ情報は、前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせるためのパラメータを含む。
撮影モジュール11503は、焦点合わせ情報に基づいて、前もってセットされた範囲内のターゲットオブジェクトに焦点を合わせ、前もってセットされた範囲内の画像を撮影するよう構成される。
可能な実施において、計算モジュール11502は、モーションセンサ11501へ結合されているモジュール、又はモーションセンサ11501内に配置されているモジュールであってもよい。
可能な実施において、焦点合わせ情報は、焦点領域に関する情報を含む。計算モジュール11502は具体的に、動き情報に基づいて、前もってセットされた期間におけるターゲットオブジェクトの運動軌跡を予測して、予測領域を取得し、予測領域に基づいて焦点領域を決定するようために使用される。
可能な実施において、計算モジュール11502は具体的に、予測領域が前もってセットされた条件を満足する場合に、予測領域を焦点領域として使用し、焦点合わせのために撮影モジュール11503をトリガするために使用され、あるいは、予測領域が前もってセットされた条件を満足しない場合に、動き情報に基づいて、前もってセットされた期間におけるターゲットオブジェクトの運動軌跡を再予測して、新しい予測領域を取得し、新しい予測領域に基づいて焦点領域を決定するために使用される。
前もってセットされた領域が前もってセットされた条件を満足することを決定する場合に、計算モジュール11502は、前もってセットされた領域を焦点領域として使用し、例えば、前もってセットされた領域を焦点領域として使用するか、あるいは、前もってセットされた領域よりも広い範囲を焦点領域として決定し、撮影を行うよう撮影モジュールをトリガする。その前に、撮影モジュールは無効状態にあってもよい。例えば、撮影モジュールがカメラを含む場合に、計算モジュール11502が撮影をトリガする前に、前もってセットされた領域が前もってセットされた条件を満足しないならば、カメラは無効状態にあってよく、それにより、カメラの電力消費は低減され、資源は節約される。
可能な実施において、動き情報は、ターゲットオブジェクトの運動方向又は運動速度のうちの少なくとも1つを更に含む。
計算モジュール11502は具体的に、前もってセットされた範囲内で動いているターゲットオブジェクトの運動軌跡と、運動方向及び/又は運動速度とに基づいて、前もってセットされた期間におけるターゲットオブジェクトの運動軌跡を予測して、予測領域を取得するよう構成される。
可能な実施において、計算モジュール11502は具体的に、動き領域と、運動方向及び/又は運動速度とに基づいて、時間にわたってターゲットオブジェクトの動き領域の中心点の変化関数をフィッティングし、変化関数に基づいて、ターゲットオブジェクトが前もってセットされた期間に位置している領域の予測された中心点である予測中心点を計算し、予測中心点に基づいて予測領域を取得するよう構成される。
可能な実施において、撮影モジュール11503はRGBカメラを含む。
撮影モジュール11503は具体的に、焦点合わせのために、RGBカメラの複数の焦点の中で、焦点領域の中心点から最小ノルム距離を有する少なくとも1つの点を使用するよう構成される。
可能な実施において、焦点合わせ情報は、焦点領域に関する情報を含み、動き領域は、ターゲットオブジェクトの中心領域を含み、計算モジュール11502は具体的に、ターゲットオブジェクトの現在の領域を焦点領域として使用するよう構成される。
可能な実施において、撮影モジュール11503は更に、撮影モジュール11503が前もってセットされた範囲内で画像を撮影する前に露出パラメータを取得し、露出パラメータに基づいて、前もってセットされた範囲内で画像を撮影するよう構成される。
可能な実施において、撮影モジュール11503は具体的に、動き情報に基づいて露出パラメータを取得するよう構成され、露出パラメータは露光時間を含み、露光時間は、ターゲットオブジェクトの運動速度と負の相関関係がある。
可能な実施において、撮影モジュール11503は具体的に、光強度に基づいて露出パラメータを取得するよう構成され、露出パラメータは露光時間を含み、前もってセットされた範囲内の光強度の値は、露光時間と負の相関関係がある。
可能な実施において、画像処理装置は、次のモジュールを更に含んでもよい。
エンハンスメントモジュール11504は、撮影モジュールが前もってセットされた範囲内で画像を撮影した後、画像に対応する、モニタされたターゲットオブジェクトの動き情報に基づいて、前もってセットされた範囲内の画像を融合し、前もってセットされた範囲内のターゲット画像を取得するよう構成される。
可能な実施において、モーションセンサ11501はダイナミックビジョンセンサDVSを含むことができ、DVSは、動き情報を取得するよう、前もってセットされた範囲内のターゲットオブジェクトの動きをモニタするよう構成される。
図116を参照されたい。本願は、次のモジュールを含む画像処理装置を更に提供する。
取得モジュール11601は、第1イベント画像及び複数の撮影された第1画像を取得するよう構成され、第1イベント画像は、複数の第1画像の撮影期間に前もってセットされた範囲内で動いているオブジェクトに関する情報を含み、情報は具体的に、モーションセンサ11603によって取得されてよく、複数の第1画像は異なる露光時間に対応し、前もってセットされた範囲はカメラの撮影範囲である。
処理モジュール11602は、第1イベント画像に基づいて、複数の第1画像の夫々に対応する第1ぶれ度を計算するよう構成され、第1ぶれ度は、複数の第1画像が撮影されるときのカメラ振動の程度を示す。
処理モジュール11602は更に、各第1画像に対応する第1ぶれ度に基づいて、複数の第1画像の中の各第1画像の融合重みを決定するよう構成され、複数の第1画像に対応する第1ぶれ度は、融合重みと負の相関関係にある。
処理モジュール11602は更に、ターゲット画像を取得するよう、各第1画像の融合重みに基づいて複数の第1画像を融合するよう構成される。
可能な実施において、処理モジュール11602は更に、第1ぶれ度に基づいて複数の第1画像の夫々の融合重みを決定する前に、第1ぶれ度が第1プリセット値以下であり、第2プリセット値よりも大きい場合に、各第1画像にぶれ補正処理を実行して、ぶれ補正後の各第1画像を取得するよう構成される。
可能な実施において、取得モジュール11601は更に、第1ぶれ度が第1プリセット値よりも大きい場合に第2画像を再撮影するよう構成され、第2画像の第2ぶれ度は第1プリセット値以下である。
処理モジュール11602は具体的に、各第1画像の第1ぶれ度に基づいて各第1画像の融合重みを計算し、第2ぶれ度に基づいて第2画像の融合重みを計算するよう構成される。
処理モジュール11602は具体的に、各第1画像の融合重み及び第2画像の融合重みに基づいて複数の第1画像と第2画像とを融合して、ターゲット画像を取得するよう構成される。
可能な実施において、取得モジュール11601は更に、第2画像を再撮影する前に、第2イベント画像を取得し、第2イベント画像に含まれる情報に基づいて露出パラメータを計算するよう構成され、第2イベント画像は、第1イベント画像を取得する前に取得され、露出パラメータは第2画像を撮影するために使用される。
可能な実施において、取得モジュール11601は具体的に、第1イベント画像を複数の領域に分割し、第3画像を複数の領域に分割し、第3画像は、複数の第1画像の中で露出値が最も小さい第1画像であり、第1イベント画像に含まれる複数の領域の位置は、第3画像に含まれる複数の領域の位置に対応し、露出値は、露光時間、露出量、又は露出レベルのうちの少なくとも1つを含み、
第1イベント画像内の各領域が第1テクスチャ情報を含むかどうかと、第3画像内の各領域が第2テクスチャ情報を含むかどうかとを計算し、
第1イベント画像内の第1領域が第1テクスチャ情報を含み、第1領域に対応する第3画像内の領域が第2テクスチャ情報を含まない場合に、露出パラメータに基づいて撮影を実行して第2画像を取得し、第1領域は第1動的領域内の任意の領域である、
よう構成される。
第1イベント画像内の各領域が第1テクスチャ情報を含むかどうかと、第3画像内の各領域が第2テクスチャ情報を含むかどうかとを計算し、
第1イベント画像内の第1領域が第1テクスチャ情報を含み、第1領域に対応する第3画像内の領域が第2テクスチャ情報を含まない場合に、露出パラメータに基づいて撮影を実行して第2画像を取得し、第1領域は第1動的領域内の任意の領域である、
よう構成される。
(2)DVS画像とRGB画像との融合
撮影技術は、携帯電話機及びカメラなどの端末デバイスで広く使用されており、感光コンポーネントがある期間(指定された露光時間)に光子(自然光)を受け、光子をデジタル信号(例えば、0~255)に量子化するプロセスである。感光コンポーネントは、感光コンポーネント又は画像センサとも呼ばれることがあり、デジタルカメラの重要な部分である。感光コンポーネントは、異なるコンポーネントに基づいて2つのタイプ:電荷結合素子(CCD)及び相補型金属酸化膜半導体(CMOS)に分けられ得る。感光コンポーネントは、撮影された光学画像の異なるタイプに基づいて2つのタイプ:カラーセンサ及びモーションセンサに分けられ得る。カラーセンサはRGBセンサとも呼ばれることがあり、モーションセンサは動き検出ビジョンセンサ(MDVS)であるか、又は略してダイナミックビジョンセンサ(DVS)と呼ばれることがある。
携帯電話機などのインテリジェント端末デバイスによって推進されて、画像センサは急速に発展している。画像センサの使用タイプの継続的な充実に伴い、1つの端末デバイス上で提供される画像センサのタイプやセンシング機能の数も増加している。その結果、端末デバイスが処理できる利用シーンはより広範囲になっている。そのため、豊富なセンシング機能を備えた画像センサをどのように構築するか、また、撮影プロセスにおける種々の利用シーンにおいて画像センサで得られたデータをどのように処理し、出力するのか、どのようなデータを出力するのかが早急に解決すべき課題となっている。
一般に、画像センサによって収集された情報は、画像再構築、ターゲット検出、動いているオブジェクトの撮影、動いているデバイスを使用した撮影、ぼけ補正のための撮影、動き推定、デプス推定、又はターゲット検出及び認識などのシナリオで使用され得る。現在、携帯電話機などのインテリジェント端末デバイスによって推進されて、画像センサは急速に発展している。画像センサの使用タイプの継続的な充実に伴い、1つの端末デバイス上で提供される画像センサのタイプやセンシング機能の数も増加している。その結果、端末デバイスが処理できる利用シーンはより広範囲になっている。そのため、豊富なセンシング機能を備えた画像センサをどのように構築するか、また、撮影プロセスにおける種々の利用シーンにおいて画像センサで得られたデータをどのように処理し、出力するのか、どのようなデータを出力するのかが早急に解決すべき課題となっている。
これに基づいて、本願の実施形態では、新しい画像センサが構築され、新しいデータ処理方法が、カラーセンサ及びモーションセンサの各々の利点を参照して提供されて、複数のアプリケーションモードでデータ収集及びデータ出力を実装する。新たに構築された画像センサは、より豊かでより強力な機能及びより幅広く使用されるシナリオをサポートする。以下は、次の3つの態様から本願の実施形態の内容について記載される。第1の態様は、既存の感光ユニット(つまり、センサピクセル)又は既存の画像センサに基づいて、より強力な検知機能を備えた画像センサの新しい構造をどのように構築するかに関係があり、また、新しい画像センサのチップアーキテクチャ、回路構造、及び対応するワーキングフローに関係がある。第2の態様は、新たに構築された画像センサに基づいてデータ収集及びデータ出力をどのように実装するかに関係があり、また、新しいデータ処理アルゴリズム及び異なるアプリケーションモードに関係があり、また、対応するデータストリームを処理するよう種々のデータ融合方法に適応したアルゴリズムを開発することに関係がある。第3の態様は、データ出力の応用例、つまり、動いているオブジェクト(動いている前景とも呼ばれ得る)を撮影画像からどのように効率的かつ正確に除去するかに関係がある。具体的に、第2の態様の具体的な実施は、次の点を更に含み得る:(1)新たに構築された画像センサに基づいて種々のアプリケーションモードでどのようにデータを収集するか、(2)種々のアプリケーションモードでどのようにデータを出力し、どのようなデータを出力するのか。具体的に、異なる出力モードでは、高品質の画像再構築、例えば、高フレームレートの画像再構築及び高ダイナミックレンジ(HDR)の画像再構築が、新しいアルゴリズムを参照して実施され得、あるいは、低電力のターゲット検出及び認識機能が実装され得る。セマンティック情報は、ユーザによりよい体験を提供するよう、画像と関連付けられる。理解を容易にするために、以下の実施形態では、モーションセンサがDVSである例が、記載のために使用される。
(1)画像センサの新しい構造及びワークフローを構築する
本願の実施形態は、多数の画像センサに関する知識に関係がある。本願の実施形態の解決法についてより良く理解するために、以下は最初に、本願の実施形態で使用され得る関連する用語及び概念について記載する。関連する概念の説明は、本願の実施形態の具体的な状況により制限される場合があるが、それは、本願がこの具体的な状況にのみ限定されることを意味するものではないことが理解されるべきである。異なる実施形態の具体的な状況も様々であり得る。具体的に、ここでは制限は課されない。
任意のイメージングシステムの目的は、要件を満足することができるピクチャを取得することであるから、イメージングシステムでは、グラフィクスプロセッサのタスクは、対応するイメージングシステムに対して十分に高い品質のピクチャ情報を抽出することである。具体的に、結像用対物レンズは、外部照明光(又は自発光光)が照射したシナリオを対物レンズの像面上に結像して、二次元の光強度分布(光学像)を形成する。二次元の光強度分布の光学像を1次元の時系列の電気信号に変換できるセンサが画像センサと呼ばれる。画像センサでは、各感光ユニットがピクセル(Pixel)に対応する。画像センサに含まれるピクセルの数が多いほど、画像センサがより多くのオブジェクトの詳細を感知できるため、画像がより鮮明になることを示す。言い換えると、画像センサによって提供される画像解像度はより高くなる。市場の主流カメラのほとんど300,000個のピクセル画像センサを使用している。つまり、画像センサには約300,000個の感光ユニットがある。対応する撮影解像度は640×480(302700個のピクセルに相当)である。図81に示されるように、2つの従来のカラーセンサが示されている。センサAには、5×5=25個の感光ユニットが含まれている(例としてのみ使用されている)。対応する撮影画像Aは25個のピクセル値を含み、各ピクセル値は対応する位置の感光ユニットに基づいて取得される。センサBには、10×10=100個の感光ユニットが含まれている(例としてのみ使用されている)。同様に、対応する撮影画像Bには100個のピクセル値が含まれており、各ピクセル値も対応する位置の感光ユニットに基づいて取得される。
DVSは、図81に対応するカラーセンサに似ていることが留意されるべきである。1つのDVSにも、複数の感光ユニットが含まれ、各感光ユニットも画像の1つのピクセルに対応する。DVSと従来のカラーセンサとの間の違いは、2種類の画像センサの感光ユニットの動作原理が異なる点にある。具体的に、従来のカラーセンサは、フレームフォーマットでフルフレーム画像を出力するが、DVSは、人間の網膜の3層モデルを使用し、各ピクセルは独立して非同期に動作し、フレームや露光時間の概念はない。DVSは動的な変化のみを捉えることができ、撮影シナリオが変化しない場合、カメラは出力を持たない(ノイズは考慮されない)ため、静的な情報を捉えることはできない。
本願のこの実施形態で述べられているイベント画像の少なくとも1フレームがイベント画像の複数のフレームである場合に、イベント画像の少なくとも1フレームは、同じ時間窓内のイベント画像であってよく、あるいは、異なる時間窓内のイベント画像であってもよい。例えば、イベント画像1は、期間[t1,t2]のイベント画像であり、イベント画像2は、期間[t2,t3]のイベント画像である、確かに、イベント画像の少なくとも1フレームは、代替的に、同じ期間内の異なる領域のイベント画像であってもよい。例えば、DVSのモニタリング領域は複数の領域に分割されてよく、対応するイベント画像は、各領域で検出されたイベントに基づいて生成される。更に、ある期間における異なるピクセル位置でのイベントは、略してイベントストリームとも呼ばれ得るイベントデータストリームを形成する。
例えば、図37に示されるように、時間窓は複数の短時間窓、例えば、図37に示されるk個の短時間窓に分割されてよい。各時間窓は、イベント画像の1フレームに対応してよい。セグメンテーション方法は、セットされた存続期間に基づいてセグメンテーションを実行することであってよく、あるいは、ランダムな存続期間に基づいてセグメンテーションを実行すること、又は運動軌跡の変化ステータスに基づいてセグメンテーションを実行すること、などであってよい。これは実際の適用シナリオに基づいて特に調整されてよい。k個の短時間窓がセグメンテーションを通じて取得された後、各短時間窓内のイベントの位置が解析され、ターゲットオブジェクトが各短時間窓内で位置する領域が決定される。例えば、短時間窓1内の動き領域は、図37に示される動き領域1であり、短時間窓k内の動き領域は、図37に示される動き領域kである。次いで、動き領域、及びターゲット領域の運動方向又は運動速度などの運動特徴が、短時間窓1~k内の動き領域の変化に基づいて決定される。更に、時間窓全体(つまり、図37の下にある実線の長方形ボックス)におけることなるピクセルの位置のイベントは、イベントデータストリームを形成する。
ユーザの日常の撮影活動では、動いているオブジェクト(動いている前景と呼ばれることがある)が撮影範囲内に予期せず現れることが多く、撮影効果に影響を与える。現在、動いている物体を除去する方法がいくつか市販されている。例えば、Lumia携帯電話は、ある期間(例えば、2秒)の動的な写真を撮影し、その動的な写真をつなぎ合わせて、動いているオブジェクトが特定のシナリオで除去され得るようにする。この態様は、撮影の際に高い要求があり、一定時間(例えば、上記の2秒間)安定して撮影を行う必要がある。しかし、除去効果は低く、高速で動いているオブジェクトを識別して除去することができない。このことから、撮影画像からいかに効率的かつ正確に動いているオブジェクトを除去するかが喫緊の課題となっている。
本出願の実施形態はデータ処理方法を提供する。具体的には、撮影画像から動いているオブジェクトを効率的かつ正確に除去する画像処理方法が提供される。
最初に、本願で提供される画像処理方法の具体的なプロシージャは、まず、イベントストリーム及び第1RGB画像のフレームを取得することであり、イベントストリームはイベント画像の少なくとも1フレームを含み、イベント画像の少なくとも1フレームの夫々は、モーションセンサのモニタリング範囲内で動いているターゲットオブジェクトの運動軌跡情報に基づいて生成され、第1RGB画像は、露光時間中の各瞬間にカメラによって捕捉された撮影シナリオを重ね合わせものである、ことと、イベントストリームに基づいてマスクを構成することであり、マスクは、イベント画像の各フレームの動き領域を決定するために使用される、ことと、イベントストリーム、第1RGB画像、及びマスクに基づいて第2RGB画像を取得することであり、第2RGB画像は、ターゲットオブジェクト(例えば、動いているオブジェクト)を除去することによって取得されたRGB画像である、ことを含んでよい。本願のこの実施形態で、動いているオブジェクトは、動いているオブジェクトを含まないRGB画像を取得するよう、ただ1つのRGB画像及びイベント画像にのみ基づいて除去されてよい。動いているオブジェクトを複数のRGB画像及びイベント画像に基づいて除去する既存の技術の方法と比較して、この方法は、ユーザによって撮影された1つのRGB画像しか必要とせずに、より良いユーザエクスペリエンスを提供する。
動いているオブジェクトの除去は、写真撮影、検出及び認識、背景モデリング、及びパノラマステッチなどのアプリケーションで高い重要性がある。例えば、携帯電話機の写真撮影などの適用シナリオでは、ユーザがいくつかの風景写真を撮影したい場合に、ときどき撮影プロセスで、撮影領域に(例えば、多くの人々がいる風光明媚な領域で)歩行者が多く存在する場合があり、動いているオブジェクトを除去することでユーザの要求を満たす風景写真が得られる。他の例として、監視シナリオでは、背景減算方式を用いて背景及び前景(すなわち、動いている前景)を分離して、動いているオブジェクトを検出するという目的を迅速に達成することができる。他の例として、パノラマスプライシングシナリオでは、パノラマスプライシングには、動いているオブジェクトの複数の写真のスプライシングが含まれ、動いている前景を除去する必要がある。
以下は、本願で提供される画像処理方法について詳細に記載する。詳細については、図82を参照されたい。図82は、本願の実施形態で提供される画像処理方法の略フローチャートである。方法は次のステップを含んでよい。
8201:イベントストリーム及び第1RGB画像のフレームを取得する。
最初に、イベントストリーム及びRGB画像のフレーム(第1RGB画像と呼ばれ得る)は、カメラのモーションセンサ(例えば、DVS)及びRGBセンサにより夫々取得される。取得されたイベントストリームには、イベント画像の少なくとも1フレームが含まれ、イベント画像の少なくとも1フレームの夫々は、ターゲットオブジェクトがモーションセンサのモニタリング範囲内で動くときに生成されるターゲットオブジェクト(つまり、動いているオブジェクト)の運動軌跡に関する情報に基づいて生成され、第1RGB画像は、露光時間中の各瞬間にカメラによって捕捉された撮影シナリオの重ね合わせである。
理解を容易にするために、以下は、イベントストリーム及び第1RGB画像をどのように取得するかについて個別に記載する。
a.イベントストリームを取得するプロセス
最初に、動き情報が、モーションセンサを使用することによって取得される。具体的に、モーションセンサは、モーションセンサの検出範囲内のターゲットオブジェクトの動きをモニタして、検出範囲内のターゲットオブジェクトの動き情報を取得してよい。ターゲットオブジェクトは、検出範囲内で動いているオブジェクトであり、1つ以上のターゲットオブジェクトが存在してよく、動き情報には、検出範囲内で動いているターゲットオブジェクトの運動軌跡に関する情報が含まれ得る。例えば、動き情報には、ターゲットオブジェクトの動きの輪郭、ターゲットオブジェクトが位置する領域のサイズ、又はターゲットオブジェクトが検出範囲内で動くときの検出範囲内の角点の座標などの情報が含まれ得る。
理解を容易にするために、ターゲットオブジェクトが検出範囲内で動く各検出時点でターゲットオブジェクトが位置する領域は、以下でターゲットオブジェクトの動き領域と呼ばれる。例えば、ターゲットオブジェクトが歩行者であり、歩行者が全身運動を行っている場合に、動き領域には歩行者の全身が含まれ得る。歩行者が腕だけ動かす場合に、ターゲットオブジェクトは歩行者の腕だけであってよく、動き領域には歩行者の腕部が含まれ得る。
次いで、イベント画像は動き情報に基づいて生成される。すなわち、動き情報が取得された後、イベント画像の少なくとも1フレームが、検出範囲内でモーションセンサによって収集された情報に基づき生成される。一般に、動き情報には、特定の期間における検出範囲内のターゲットオブジェクトの運動軌跡に関する情報が含まれ得る。動き情報はイベントと見なされてもよく、ある期間に取得された動き情報はイベントストリームを形成する。イベントストリーム内の1つの時間窓に対応する全ての動き情報は、イベント画像を取得するよう、対応する座標に基づいて同じ画像にマッピングされる。
例えば、イベント画像については、図35から図37及びそれらの関連する記載を参照されたい。詳細はここで再び記載されない。
任意に、本願で述べられているイベント画像は、より鮮明なイベント画像を取得するよう、図38から図44に対応する上記の方法プロシージャを使用することによって最適化されてよい。
理解を容易にするために、以下は一例を記載する。図83を参照されたい。モーションセンサは露出を必要としないので、モーションセンサは、動きのある稲妻を非常に高い時間分解能で捕捉できる。例えば、非常に短い時間窓(瞬間tkと見なされ得る)で、モーションセンサは雷の発生場所の明確な輪郭を捕捉できる。この場合、雷の運動軌跡が露光時間(例えば、[t1,t2])で連続的に撮影されるため、図83に示されるようなイベントストリームが形成される。
b.第1RGB画像のフレームを取得するプロセス
第1RGB画像は、カラーセンサを使用することによって取得されてよい。カラーセンサが有効にされる場合に、カメラは、カラーセンサを使用することによって第1RGB画像のフレームを取得してよい。カラーセンサが画像を取得する場合に、カラーセンサの原理は、カラーセンサによって取得された画像が露出時間内のシナリオの重ね合わせであることを決定する。第1RGB画像がIと表されるとすれば、画像Iは、時点t1から時点t2までの撮影シナリオfの露出結果を表す。ここで、露光時間は[t1,t2]である、と考えられる。更に、撮影シナリオfは、カメラの撮影範囲内のリアルで鮮明なシナリオの画像を指す。図84は、画像Iと、露出時点t1での画像Iに対応する撮影シナリオf(t1)と、露出時点t2での画像Iに対応する撮影シナリオf(t2)とを示す。画像Iは、時点t1から時点t2までの撮影シナリオfの露出結果の重ね合わせを表す。複数の撮影シナリオの露出重ね合わせにより得られる画像Iは、ぼやけた画像であることが分かる。
8202:イベントストリームに基づいてマスクを構成する。
イベントストリーム及び第1RGB画像が取得された後、マスクがイベントストリームに基づいて構成されてよく、マスクは、イベントストリーム内のイベント画像の各フレームの動き領域を決定するためのものであり、言い換えると、RGB画像内の動いているオブジェクトの位置を決定するためのものである。図85に示されるように、灰色領域は、背景エリアとも呼ばれ得る静的な領域であり、黒色領域は、動き領域である。
本願で、イベントストリームEに基づいてマスクM(t)を構成するプロセスはg(x)として記録されることが留意されるべきである。x時点での撮影シナリオf(x)の場合、動いているオブジェクトの動きはモーションセンサによってイベントストリームEに記録されているので、マスクM(t)はM(t)=g(E(t+)Δt)と表され得る。E(t+Δt)は、図86に示されるように、
と表され得る。g(x)は、マスクを構成するための方法として使用され、多くの実施を有してよい。例えば、接続領域が、形態学的方法でイベント画像の位置情報を使用することによって構成されてもよい。代替的に、時間減衰を伴った関数が、ある期間に生成されたイベント画像の領域に異なる重みを割り当てるよう選択されてもよく、それにより、マスクは然るべく取得される。代替的に、空間近傍である期間に生成されるイベントの画像の数が前もってセットされた閾値を超える領域は、0(動き領域を示す)として記録され、ある期間に生成されるイベント画像の数が前もってセットされた閾値を超えない領域は、1(背景領域を示す)として記録され、それにより、マスクはこのようにして取得される。本願のこの実施形態で、マスクを構成する具体的な実施は制限されない。
理解を容易にするために、マスクを構成する具体的な実施がここでは記載される。最初に、モーションセンサのモニタリング範囲は複数の前もってセットされた近傍(近傍kとしてセットされる)に分割されてよい。次いで、各近傍kの範囲で、前もってセットされた期間範囲Δtにおけるイベントストリームのイベント画像の数が閾数Pを超える場合に、対応する近傍は動き領域と決定され、動き領域は0とマークされてよく、前もってセットされた期間範囲Δtにおけるイベントストリームのイベントの数が閾数Pを超えない場合に、対応する近傍は背景領域と決定され、背景領域は1とマークされてよい。詳細については、次の式(18)を参照されたい:
Mxy(t)は、瞬間tでの位置(x,y)のマスクMの値を表し、eij(s)は、イベントストリーム内のs時点でのイベント画像eの位置(i,j)で記録されるイベント(イベントストリームに属する)を表す。
8203:イベントストリーム、第1RGB画像、及びマスクに基づいて第2RGB画像を取得し、このとき、第2RGB画像は、ターゲットオブジェクトを除去することによって取得されたRGB画像である。
イベントストリーム、第1RGB画像、及びマスクが上記のステップに従って取得された後、第2RGB画像は、イベントストリーム、第1RGB画像、及びマスクに基づいて取得されてよい。第2RGB画像は、ターゲットオブジェクトを除去することによって取得されたRGB画像である。図87は、画像Iに対応する、動いているオブジェクトを除去することによって取得される画像I’である。
以下は、イベントストリーム、第1RGB画像(画像Iとも呼ばれ得る)、及びマスクに基づいて第2RGB画像をどのように取得するかについて具体的に記載する。
動きのぶれを含む画像I及びイベントストリームEに基づいて、動きのぶれのない画像f(t1)をどのように計算するかが、最初に記載される。具体的に、以下は、次の一連の式に従って取得されてよい:
カラーセンサの撮影原理は、カラーセンサの撮影結果が露出時間内の全ての瞬間に対応するシナリオの重ね合わせであることを決定する。すなわち、瞬間tでの撮影シナリオに対応する標準画質画像がf(t)である場合に、画像Iは、時点t1から時点t2までf(t)を積分することによって取得され、上記の式(19)に示されるように
である。図84の画像Iに示されるように、8つの稲妻は、ある瞬間での動いているオブジェクトの実際の位置を表す。露出時間は長いので、稲妻は異なる位置へ移動し、複数回カメラによって捕捉され、最終的に、ぼやけた写真が撮影される。
しかし、モーションセンサは露出を必要としないので、モーションセンサは、動きのある稲妻を非常に高い時間分解能で捕捉できる。具体的に、上記の式(20)に示されるように、モーションセンサは、離散的な動き情報、つまり、離散的なイベント(x,y,σ,t0)を捕捉する。x及びyは、光強度の変化の座標を示し、pは、光強度の変化の方向を示し、tは、変化の時間を示す。exy(t)は、位置(x,y)で時間tに関して連続関数を表すために使用され、exy(t)=σδt0(t)である。δt0(t)は、時間t0で1の整数を有するインパルス関数を表し、σは、瞬間t0で光強度の変化があるかどうかを表す。すなわち、基準となる光強度変化と比較した対数領域の光強度変化が閾値cより大きい場合は、σ=1であり、変化が閾値の逆量-cより小さい場合は、σ=-1である。それ以外の場合は、σ=0である。続いて、e(t)は、(x,y)の位置におけるex,y(t)を表す。例えば、非常に短い時間窓(瞬間tkと見なされ得る)において、DVSは、稲妻の位置の明確な輪郭を捕捉することができ、輪郭上の点は、図83の各稲妻の輪郭としてe(tk)として表され得る。次いで、稲妻の動きは、露出時間中に継続的に捕捉され、このようにしてイベント画像を形成する。特定のイベント画像内の各ピクセルの値は、上記の式(21)に従って、
によって表され得る。
更に、イベントを生成する原理は、対応するピクセル位置での光強度の変化の対数値がcの値に達すること、つまり、次の式(29)に示されるようなものである:
リアルかつ鮮明な画像f(t1)及び瞬間tでのリアルかつ鮮明な画像f(t)は、光強度の変化を伴うf(t1)を連続的に重ね合わせることによって取得される結果として表されてよく、つまり、上記の式(22)logf(t)=logf(t1)+c・E(t)で示されるとおりである。式(22)は、式(23)を取得するよう式(19)に代入され、次いで、式(21)は、式(24)を取得するよう式(23)に代入される。項目を移動するなどの操作が式(24)に対して実行され、ぼやけた画像I及びイベントストリームeからリアルかつ鮮明な画像f(t1)を取得する式(25)は:
として示される。
従って、異なる瞬間の複数の画像がカメラを使用することによって撮影され、図88に示されるように、撮影された画像の2つのフレームI1及びI2がここで記載のための例として使用される場合に、各画像内の動いているオブジェクトの位置がROI1及びROI2であることが知られているならば、1の背景エリア及び0の動き領域を有するマスクM1及びM2が取得され得る。この場合に、動いているオブジェクトを含まない画像は、異なる習慣の異なる動き領域の画像を結合することによって取得されてよい。動いているオブジェクトを含まない画像はI’と表されてよく、具体的に次の式(27)で示され得る:
2つの画像の場合から、n個の画像が撮影される場合に、動いているオブジェクトを含まない画像I’の表現は、図28に示されるように、取得されることが分かる:
上記の式(27)及び式(28)の両方で、少なくとも2つの画像は、動いているオブジェクトを含まない画像I’を取得するためにユーザによって手動で撮影される必要がある。許可されている撮影時間が非常に短いいくつかの場合、例えば、空中に咲く花火の画像や、窓からの高速で飛ぶ飛行機の画像を撮影する場合に、これらの撮影シナリオは、非常に短い時間に許可された撮影範囲に存在し、ユーザは、1つの画像を撮影する時間しかない場合がある。この場合に、動いているオブジェクトを含まない画像I’は、次の方法を使用することによって取得され得る:最初に、撮影画像はIと表記され、画像Iは、時点t1から時点t2までの撮影シナリオの露出結果を表す、ことが仮定される。ここで、露光期間は[t1,t2]である、と考えられる。更に、撮影シナリオfは、カメラの撮影範囲内のリアルで鮮明なシナリオの画像を指す。つなわち、f(t)は、動きのぼけを含まない理想的な画像を表す。この場合に、動いている前景を除去することによって得られる画像I’は、次の式(29)として表され得る:
M(t)は、瞬間tでの画像Iのマスクを表す。マスクの構成方法は、上記の式(18)で示されたものであってよい。詳細はここで再び記載されない。
ぼやけた画像I及びイベントストリームeから理想的なリアルで鮮明な画像f(t1)を取得するプロセスは、上記の式(25)で示されていることが知られており、つまり、次の式(30)から式(32)は、一連の変形を実行することによって取得され得る:
上記の式(29)及び式(32)を参照して、ただ1つの画像Iしか撮影されない場合に、動いているオブジェクトを含まない対応する画像I’をどのように取得するかは、具体的に、式(33)に示され得ることが最終的に分かる:
動いているオブジェクトを含まない画像I’を画像Iに基づいて取得する上記の過程で、最初に、ユーザは、画像Iを撮影するようカメラを手動でトリガする必要があることが留意されるべきである。しかし、いくつかの適用シナリオで、図89に示されるように、動いているオブジェクトが撮影プロセス中に時点t1及び時点t2でわずかに動くとき、2つの時点での動いているオブジェクトの重なり合った領域は夫々大きい。その結果、動いているオブジェクトは上記の方法で除去され得ず、又は除去効果は乏しい。従って、本願のいくつかの実施では、画像処理方法が更に提供される。当該画像処理方法と上記の画像処理方法との間の違いは、モーションセンサによって収集された動きデータに突然の動き変化が存在するかどうかが決定され得る点にある。突然の動き変化が存在する場合に、カメラは、第3RGB画像(図90に図示)を撮影するようトリガされる。次いで、イベントストリーム及び第1RGB画像のフレームが、上記のステップ8201及びステップ8202と同様の方法で取得され、マスクは、イベントストリームに基づいて構成される(上記のステップ8201及びステップ8202を参照されたく、詳細はここで再び記載されない)。最後に、動いている背景を含まない第2RGB画像がイベントストリーム、第1RGB画像、第3RGB画像、及びマスクに基づいて取得される。取得された第3RGB画像は、突然の動き変化の場合にカメラをトリガすることによって自動的に捕捉され、高い感度を有する。従って、画像のフレームは、動いているオブジェクトの変化をユーザが認知するときに最初に取得され得る。解決法は、上記の式(33)で与えられる、単一画像Iから動いているオブジェクトを除去する方法と組み合わされて、次の式(34)に示されるようにカメラによって自動的に捕捉された第3RGB画像(つまり、画像Bk)及びユーザによって手動で捕捉された第1RGB画像(つまり、画像I)に基づいて画像から動いているオブジェクトを除去する方法を得ることができる:
画像Bkは、カメラが瞬間kでトリガされるときに露出時間内で撮影される第3RGB画像を表す。露出時間内に3つの突然の動きの変化がある場合に、カメラは、3つの瞬間kの夫々で第3RGB画像を撮影するようトリガされる。Mkは、瞬間kでの画像Bkに基づいて構成されたマスクを表す。従って、図91に示されるように、動いているオブジェクトを含まない画像I’は、突然の動き変化によってトリガされたカメラによって捕捉された画像Bk(1つ以上の画像)と、特定の露出時間内にユーザによって能動的に撮影された画像Iとに基づいて、上記の式(34)を使用することによって、取得され得る。
本願のこの実施形態の2つの方法の理解を促すために、以下は、本願の実施形態における、動いている前景を画像から除去する2つの方法について記載するために、例を使用する。図92は、第1RGB画像(つまり、画像I)のフレーム及びイベントストリームEに基づいて、動いているオブジェクトを含まない第2RGB画像(つまり、画像I’)を取得する略フローチャートと、画像I’の表現形式とである。図93は、第1RGB画像(つまり、画像I)のフレーム、突然の動き変化によってトリガされる撮影により取得される第3RGB画像(つまり、1つ以上の画像Bk)、及びイベントストリームEに基づいて、動いているオブジェクトを含まない第2RGB画像(つまり、画像I’)を取得する略フローチャートと、画像I’の表現形式とである。上記から分かるように、図92のモードでは、単一画像IとイベントストリームEとの間の関係が確立され、動いているオブジェクトを除去することによって取得される画像I’が、相応して構成されたマスクMに基づいて計算される。具体的なプロセスは、次の通りに要約することができる:イベントカメラはイベントストリームEを取得し、ユーザは画像を撮影し、RGBカメラは画像Iを取得し、マスクMは、イベントストリーム内の異なる動きについて生成され、動いているオブジェクトを除去することによって取得される画像I’は、上記の式(33)を使用することによって画像I、イベントストリームE、及びマスクMに基づいて計算される。図93のモードでは、モーションセンサによって収集された動きデータを使用することによって、突然の動き変化が起こる場合にRGBカメラが画像Bkを捕捉するようトリガされることが決定され、その後に、動いているオブジェクトが画像Iから除去される。具体的なプロセスは、次の通りに要約することができる:イベントカメラはイベントストリームEを取得し、イベントストリームEを解析することによって、突然の動き変化がモニタリング範囲内で起こっている(例えば、新しい、動いているオブジェクトが現れる)かどうかを決定し、RGBカメラは画像Bkを捕捉するようトリガされる。ユーザは、画像を撮影し、RGBカメラを使用することによって画像Iを取得し、イベントストリームE内の異なる動きについてマスクMを生成する。動いているオブジェクトを除去することによって取得される画像I’は、画像I,画像Bk、イベントストリームE、及びマスクMに基づいて上記の式(34)を使用することによって計算される。
本願のいくつかの実施において、イベントカメラ及びRGBカメラは1つのカメラに一体化されてもよく、あるいは、2つの独立したカメラが別々に作動してもよい。これはここで特に制限されない。
更に、本願が適用される撮影シナリオでは、撮影中に組み合わせて使用されるセンサは更に、表示インターフェースに表示されてもよい。例えば、DVS、IMU、又は赤外線などの選択肢が表示インターフェースに表示されてもよく、ユーザは、ユーザの期待を満足する画像を取得するよう、これらのセンサを有効にすべきかどうかを選択する。例えば、図94Aに示されるように、ユーザが撮影インターフェースを開く、ユーザは、設定オプションから撮影設定を選択し得る。図94Bに示されるように、ユーザは、ユーザの期待を満足する画像又はビデオを取得するよう、DVS、IMU、赤外線、などを有効にすべきかどうかを選択し得る。
図81から図94に対応する実施形態に基づいて、本願の実施形態の上記の解決法をより良く実施するために、以下は、上記の解決法を実施するよう構成された関連するデバイスを更に提供する。詳細について、図117は、本願の実施形態に係る画像処理装置の構造の模式図である。画像処理装置11700は、取得モジュール11701、構成モジュール11702、及び処理モジュール11703を含む。取得モジュール11701は、イベントストリーム及び第1RGB画像のフレームを取得するよう構成される。イベントストリームは、イベント画像の少なくとも1フレームを含み、イベント画像の少なくとも1フレームの夫々は、モーションセンサのモニタリング範囲内で動いているターゲットオブジェクトの運動軌跡情報に基づいて生成され、第1RGB画像は、露光時間内の各瞬間にカメラによって捕捉された撮影シナリオの重ね合わせである。構成モジュール11702は、イベントストリームに基づいてマスクを構成するよう構成され、マスクは、イベント画像の各フレームの動き領域を決定するために使用される。処理モジュール11703は、イベントストリーム、第1RGB画像、及びマスクに基づいて第2RGB画像を取得するよう構成され、第2RGB画像は、ターゲットオブジェクトを除去することによって取得されたRGB画像である。
本願の上記の実施において、動いているオブジェクトを含まないRGB画像を取得するために、動いているオブジェクトは、ただ1つのRGB画像及びイベントストリームにのみ基づいて除去され得る。複数のRGB画像及びイベントストリームに基づいて動いているオブジェクトを除去する既存の技術での方法と比較して、この方法は、ユーザによって撮影されたただ1つのRGB画像しか必要とせず、より良いユーザエクスペリエンスを提供する。
可能な実施において、取得モジュール11701は、モーションセンサがモニタリング範囲内で第1時点で突然の動きの変化を検出する場合に、第3RGB画像を撮影するようカメラをトリガするよう更に構成される。処理モジュール11703は、イベントストリーム、第1RGB画像、第3RGB画像、及びマスクに基づいて第2RGB画像を取得するよう更に構成される。
本願の上記の実施において、モーションセンサによって収集された動きデータに突然の動きの変化があるかどうかが決定されてよい。突然の動きの変化がある場合に、カメラは、第3RGB画像を撮影するようトリガされる。次いで、イベントストリーム及び第1RGB画像のフレームが、上記の方法と同にようにして取得され、マスクがイベントストリームに基づいて構成される。最後に、動いているオブジェクトを含まない第2RGB画像が、イベントストリーム、第1RGB画像、第3RGB画像、及びマスクに基づいて取得される。第3RGB画像は、突然の動きの変化の最中に自動的にスナップショットを撮るようカメラをトリガすることによって取得され、感度が高い。従って、画像のフレームは、動いているオブジェクトに変化があるとユーザが知覚すると最初に取得され得る。この場合に、より良い除去効果は、第3RGB画像及び第1RGB画像に基づいて、動いているオブジェクトに対して実施され得る。
可能な実施において、モーションセンサがモニタリング範囲内で第1時点で突然の動きの変化を検出することは、第1時点でモーションセンサによって収集された第1イベントストリームの生成領域と、第2時点でモーションセンサによって収集された第2イベントストリームの生成領域との間の重複部分が、前もってセットされた値よりも小さいことを含む。
本願の上記の実施で、突然の動きの変化を決定する条件は、具体的に記載されており、実行可能である。
可能な設計において、構成モジュール11702は、モーションセンサのモニタリング範囲を複数の前もセットされた近傍に分割し、対象となる前もってセットされた近傍において、前もってセットされた期間内のイベントストリームのイベント画像の数が閾数を超える場合に、その対象となる前もってセットされた近傍が動きサブ領域であることを決定するよう特に構成され、対象となる前もってセットされた近傍は、複数の前もってセットされた近傍のうちのいずれか1つであり、各動きサブ領域はマスクを形成する。
本願の上記の実施において、マスク構成方法は具体的に記載されており、操作するのが簡単かつ容易である。
(3)SLAM
従来のAPS(Advanced Photo System)カメラは、動いているオブジェクトを見つけ、背景差分と同様の方法に基づいてかような部分の鍵となる情報を解析する。最も簡単な実施方法は、フレーム差分アルゴリズムである。DVSは、単一ピクセルの輝度変化を検出することによって、動いているオブジェクトを捕捉することができ、フレーム差分アルゴリズムの効果とほぼ同じ効果があるが、遅延が低い。DVSカメラは、単一動作オブジェクトシナリオにおいて、例えば、レンズが固定されており、撮影背景が鮮明である監視シナリオにおいて、前景の動いているオブジェクトが位置している長方形領域/又はマスクを即時に見つけることができる。例えば、図95は、従来のカメラによって撮影されたシナリオと、本願の実施形態で提供されるDVSによって撮影されたシナリオとの間の比較の模式図である。図95の(a)は、従来のAPSカメラによって撮影されたシナリオの模式図であり、図95の(b)は、DVSによって撮影されたシナリオの模式図である。
具体的に、DVSを使用することによって動いているオブジェクトを検出するプロシージャが以下で記載される。
動いているオブジェクトが画像に現れるか、又は光がシナリオ中で変化すると、DVSの対応する領域ではイベントが生成される。図95の(b)に示されるバイナリ画像は、ある期間(例えば、1秒間)にイベントが起こるピクセル位置を1にセットし、また、イベントが起こらないピクセル位置を0にセットすることによって、取得される。接続された長方形ボックス領域がバイナリ画像上で見つけられる。次いで、長方形ボックス領域のサイズが決定される。長方形ボックス領域の面積>閾値1のとき、シナリオ内の光は変化したと見なされる。閾値2>長方形ボックス領域の面積のとき、長方形ボックス領域の面積は小さすぎ、ノイズによって生成された動き領域、例えば、風によって引き起こされた葉の揺れ、であると見なされる。閾値1>長方形ボックス領域の面積>閾値2のとき、オブジェクトが動いているオブジェクトであるかどうかが更に、動きの連続性に基づいて決定される。
任意に、DVSセンサ及びRGBカメラを使用することによって動いているオブジェクトを検出及び認識するプロシージャが以下で図に示される。
動いているオブジェクトが画像に現れるか、又は光がシナリオ中で変化すると、DVSの対応する領域ではイベントが生成される。図95の(b)に示されるバイナリ画像は、ある期間(例えば、1秒間)にイベントが起こるピクセル位置を1にセットし、また、イベントが起こらないピクセル位置を0にセットすることによって、取得される。接続された長方形ボックス領域が画像上で見つけられる。長方形ボックス領域が1つの円(h×w×0.1)によって広げられた後、RGBカメラに対応するフレーム上の対応する長方形領域が見つけられ、当該長方形領域が動作オブジェクト領域として使用される。既存のRGB画像ディープラーニングネットワークが、動作オブジェクト領域内のオブジェクトのカテゴリを認識するために使用される。
一般に、DVSは、動いているオブジェクトを検出するために使用され、DVSが高速で動いているオブジェクトに敏感であり、動作イベントを即時に捕捉して応答解析を実行することができるため、低遅延という利点がある。DVSは、APSに比べて時間分解能が高い。その上、DVSセンサは、オブジェクトの動きに対する感度が高く、シナリオの光強度によってそれほど影響されない。言い換えると、DVSセンサは、明るすぎる場合や暗すぎる場合に依然として、動いているオブジェクトに関する情報を認識することができる。
DVSは、正確な位置決め機能及びマップ再構築機能をもたらすようSLAM技術で使用される。この機能はARシナリオで有用である。その上、DVSに基づいて、ユーザは、仮想-物理融合を通じて物理空間の仮想情報を見ることができる。
例えば、ユーザがDVSに基づいて物理空間の仮想情報を見ることを可能にするいくつかの例が以下で記載される。
1.実際の建物の仮想サイネージ、建物の出入口の仮想表示、並びに駅、食堂、コーヒーショップ、コンビニエンスストア、母子室、体育館、充電スタンド、ATM、及びトイレなどのキャンパスサービス施設の仮想サイネージ。
2.室内の温度及び湿度、空気の質、建物内の人数、会議室の名前、及び会議の議題などのスマート情報の表示。詳細について、図96は、本出願の実施形態で提供されるDVSを使用する屋内ナビゲーションシステムの模式図である。
3.3D歩行ナビゲーション、リアルタイムの屋内及び屋外歩行ナビゲーションのサポート。詳細について、図97は、本出願の実施形態に係るDVSを使用する屋外ナビゲーションの模式図であり、図98aは、本出願の実施形態に係るDVSを使用する駅ナビゲーションの模式図であり、図98bは、本出願の実施形態に係るDVSを使用する景勝地ナビゲーションの模式図であり、図99は、本出願の実施形態に係る、DVSを使用するショッピングモールナビゲーションの概略図である。
具体的に、完全シナリオ空間コンピューティングでは、本特許で発明された、DVSカメラと従来のセンサ(例えば、カメラ)との融合アーキテクチャは、速い動き、高ダイナミック環境収集、及び大きな光強度の変化の環境で精度を向上させるようポーズ推定に使用されてよい。例えば、DVSカメラは光強度の変化に敏感であるから、夜間でも画像一致点を見つけることができ、夜間の測位が可能になる。
高速、高ダイナミックレンジ、及び動きによって引き起こされる光強度の変化を検出する能力などのDVSの特徴に基づいて、既存のSLAMが速い動き及び高ダイナミック環境に失敗しやすいという問題は解決され得る。更には、DVSは、光強度の変化しか検出せず、データ冗長性が低く、また、収集の電力消費量(20mW)及び帯域幅(100kB/s)も低い。SLMAに入力されるデータを少量であるから、SLAMの電力消費量は大いに削減され得る。
ポーズ推定情報が完全シナリオ空間で取得された後、ポーズ推定情報は、環境又はシナリオ認識及び理解のために使用されてもよい。
任意に、強いシナリオ理解の精度を向上させるよう、正確な位置決めが、高精度マップを参照して更に実行されてもよい。
最後に、マップ情報、位置推定情報、及び現在のアプリケーション要件に基づいて、下層情報が、実際の環境内の対応する位置でレンダリング及び画像化され得る。
図100は、本願の実施形態に係るSLAMの実行の略フローチャートである。図100に示されるように、SLAMシステムは端末に配置される。端末は、例えば、ロボット、無人航空機、又は無人車両であってよい。端末は、SLAMシステムを実行することによって入力データを取得し、入力データに基づいて一連のSLAMプロシージャを実行して、SLAMを完了する。SLAMプロシージャを実行するための入力データには、イベント画像、RGB画像、デプス画像、及びIMUデータが含まれ得るが限られない。例えば、イベント画像センサ(例えば、DVS)及びRGBカメラが端末に配置されている場合に、端末上のSLAMシステムの入力データはイベント画像及びRGB画像である。他の例として、DVS、RGBカメラ、及びデプスカメラが端末に配置されている場合に、端末上のSLAMシステムの入力データはイベント画像、RGB画像、及びデプス画像である。
任意に、本願で述べられているイベント画像は、より鮮明なイベント画像を取得するよう、図38から図44に対応する上記の方法プロシージャを使用することによって最適化されてもよい。詳細は以下で記載されない。
任意に、実際のアプリケーションでは、異なるタイプの入力データを取得するよう構成された複数のデバイスが端末に配置されることがある。例えば、DVS、RGBカメラ、及びデプスカメラが端末に配置され、端末は、現在のシナリオに基づいて、SLAMのためのデータを適応的に選択してもよい。例えば、高速動作シナリオ又は突然の照明シナリオでは、端末は、SLAM用のデータとしてイベント画像しか選択しなくてもよい。つまり、このシナリオでは、端末は、イベント画像センサのみを有効にし、RGBカメラ及びデプスカメラを無効にすると選択し得る。代替的に、SLAMを実行する過程で、端末のSLAMシステムは、イベント画像センサによって伝えられたデータのみを取得すればよく、RGBカメラ及びデプスカメラによって伝えられたデータを取得しない。
端末のSLAMシステムがSLAMプロシージャを実行する過程で、端末は、入力データに基づいてポーズ推定を実行し、入力データがキーフレームであるかどうかを決定してもよい。入力データがキーフレームであるとき、決定されたキーフレームに基づいてマップが構築される。その上、端末は更に、決定されたキーフレームに基づいて閉ループ検出を継続的に実行し、閉ループが検出されるときに大域的最適化を実行して、SLAMプロシージャを引き続き実行してもよい。
理解を容易にするために、以下は、端末がSLAMプロシージャを実行するステップについて個別に記載する。
a.ポーズ推定
図101は、本願の実施形態に係るポーズ推定方法10100の略フローチャートである。図101に示されるように、ポーズ推定方法10100は次のステップを含む。
ステップ10101:第1イベント画像及びターゲット画像を取得し、ターゲット画像にはRGB画像又はデプスマップが含まれる。
この実施形態で、ポーズ推定方法10100はSLAMシナリオに適用されてよく、ポーズ推定方法10100は、SLAMを実行するための端末(又は図1Bの上記の電子デバイス)、例えば、ロボット端末、無人車両端末、又は無人航空機端末によって実行されてよい。
この実施形態で、第1イベント画像は、ターゲットオブジェクトがモーションセンサのモニタリング範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報に基づいて、生成される。例えば、第1イベント画像はDVSイベント画像であってよい。DVSは、端末へ接続されても、又はそれに前もってセットされてもよい。端末は、DVSを使用することによって環境をモニタし、環境に対応するDVSイベント画像を取得する。環境情報を捕捉するための赤緑青(RGB)カメラ又はデプスカメラが、端末へ接続されても、又はそれに前もってセットされてもよい。端末は、RGBカメラ及びデプスカメラを使用することによって環境内のRGB画像又はデプス画像を取得し、例えば、上記のターゲット画像を取得し得る。RGB画像は、3つの異なる基本色:赤、緑、及び青を夫々表すピクセルR、G、及びBの色を識別するために3つのコンポーネントR、G、及びBを使用するTrueColor画像とも呼ばれる。3つの原色に基づいて任意の色が合成され得る。
DVSによって出力された単一イベントは、通常、ほとんど情報を運ばず、ノイズの影響を受けやすい。そのため、実際のアプリケーションでは、イベント画像は、DVSによって出力された複数の連続したイベントに基づいて形成され得る。
可能な実施において、端末は、DVSによって出力されたN個の連続したDVSイベントを取得し、N個の連続したDVSイベントを第1イベント画像に統合してよく、ここで、Nは1よりも大きい整数である。実際のアプリケーションでは、Nの値は、実際の状況に基づいて調整されてよい。例えば、Nの値は、DVSの感度及びSLAMの精度要求に応じて、4、5、又は10などの値として決定される。Nの値はこの実施形態で特に制限されない。
この実施形態で、イベント画像及びRGB画像を取得した後、端末は、イベント画像及びRGB画像に対して時系列アライメント操作を実行して、時系列においてアライメントされているイベント画像及びRGB画像を取得し、その後に、時系列においてアライメントされているイベント画像及びRGB画像に基づいてポーズ推定を行うことができる。イベント画像及びRGB画像を捕捉する過程で、端末は連続的に動いており、イベント画像及びRGB画像は異なる装置によって収集される。そのため、イベント画像及びRGB画像がその後のポーズ推定に一緒に使用され得ることを確かにするために、時系列アライメント操作が行われる必要がある。時系列アライメント操作が行われた後、時系列においてアライメントされているイベント画像及びRGB画像は、同じ瞬間又は近い瞬間に収集することによって取得されたものであるが確かにされ得、つまり、イベント画像及びRGB画像によって収集された環境情報が同じであることが確かにされ得る。
例えば、第1イベント画像及びターゲット画像を取得した後、端末は、第1イベント画像の取得時間及びターゲット画像の取得時間を決定してもよい。次いで、端末は、第1イベント画像の取得時間とターゲット画像の取得時間との間の時間差が第2閾値に満たないことに基づいて、第1イベント画像が時系列においてターゲット画像とアライメントされていることを決定してもよい。第2閾値は、SLAMの精度及びRGBカメラによってRGB画像を捕捉する頻度に基づいて決定されてよい。例えば、第2閾値の値は、5ミリ秒又は10ミリ秒であってよい。第2閾値の値はこの実施形態で特に制限されない。
第1イベント画像はN個の連続したDVSイベントを統合することによって取得されるので、端末は、N個の連続したDVSイベントに対応する取得時間に基づいて第1イベント画像の取得時間を決定すること、言い換えると、第1イベント時間の取得時間が、N個の連続したDVSイベントの中の最初のDVSイベントの取得から最後のDVSイベントの取得までの期間であると決定すること、ができる。ターゲット画像の取得時間は、端末がRGBカメラからターゲット画像を受け取る瞬間であってよい。実際に、第1イベント画像の取得時間は期間であり、ターゲット画像の取得時間は瞬間である。そのため、端末は、ターゲット画像の取得時間が、第1イベント画像に対応する取得時間の範囲内に入るかどうかに応じて、ターゲット画像の取得時間と第1イベント画像の取得時間との間の時間差を決定してよい。例えば、ターゲット画像の取得時間が第1イベント画像に対応する取得時間の期間範囲内にある場合に、ターゲット画像の取得時間と第1イベント画像の取得時間との間の時間差は0である(つまり、時間差は第2閾値に満たない)と決定され得る。ターゲット画像の取得時間が第1イベント画像に対応する取得時間の期間範囲内にない場合に、時間差は、第1イベント画像の最初のDVSイベントの取得時間又は最後のDVSイベントの取得時間に基づいて決定され得る。
例えば、Nは4であり、端末が、第1イベント画像に統合される4つの連続したDVSイベント画像を取得する瞬間は夫々、t1、t2、t3及びt4である、ことが仮定される。この場合に、端末は、第1イベント画像の取得時間がt1からt4までの期間であると決定してよい。更に、端末がターゲット画像を取得する瞬間はt5であり、時点t5は、t1からt4までの期間範囲の外にある。このようにして、端末は、瞬間t5と瞬間t1との間の時間差1、及び瞬間t5と瞬間t4との間の時間差2を決定し得る。時間差1又は時間差2のどちらか一方が第2閾値よりも短い場合に、第1イベント画像は時系列においてターゲット画像とアライメントされていることが決定され得る。
例えば、図102は、本願の実施形態に従ってDVSイベントをイベント画像に統合する模式図である。図102に示されるように、図102の最初の行の各点は、DVSカメラによって取得された各DVSイベントを表す。図102において、4つのDVSは全て1つのイベント画像に統合され、統合によって得られたイベント画像は、例えば、図102のWk、Wk+1、Wk+2、Wk+3、Wk+4、Wk+5、及びWk+6である。2つごとのDVS間の時間インターバルは異なるので、4つの異なるDVSを統合することによって得られたイベント画像の積分時間は異なる。図102において、垂直な点線は、RGBカメラによって捕捉されたRGB画像を表し、tk、tk+1、tk+2、tk+3、及びtk+4は夫々、RGBカメラがRGB画像k、RGB画像k+1、RGB画像k+2、RGB画像k+3、及びRGB画像k+4を捕捉した時点である。図102から分かるように、イベント画像Wkの取得時間とRGB画像kの取得時間との間の時間差は第2閾値よりも小さく、イベント画像Wkは時系列においてRGB画像kとアライメントされていることが決定され得る。イベント画像Wk+1の取得時間とRGB画像kの取得時間及びRGB画像k+1の取得時間との間の時間差はいずれも第2閾値よりも大きい。従って、イベント画像Wk(つまり、第2イベント画像)は、時系列において当該イベント画像とアライメントされているRGB画像を有さないことが決定され得る。
ステップ10102:第1イベント画像の積分時間を決定する。
第1イベント画像が複数の連続したDVSイベントを統合することによって取得される場合に、第1イベント時間の積分時間は、複数の連続したDVSイベントの間の時間インターバルであってよい。要するに、端末は、複数の連続したDVSイベントの中の最後のDVSイベントと最初のDVSイベントとの間の時間インターバルを決定することによって、第1イベント画像の積分時間を決定し得る。
例えば、Nは4であり、端末が、第1イベント画像に統合される4つの連続したDVSイベント画像を取得する瞬間は夫々、t1、t2、t3及びt4であるすれば、端末は、第1イベントの積分時間がt4-t1であると決定し得る。
ステップ10103:積分時間が第1閾値に満たない場合に、ターゲット画像はポーズ推定を実行するためのものではないと決定する。
この実施形態で、端末が高速動作シナリオ又は突然の照明変化シナリオにある場合に、環境情報は急激に変化するので、DVSは、短時間に多数のイベントを捕捉することなり、つまり、短時間の多数のイベントを取得することになる。よって、固定数のイベントに基づいて取得されるイベント画像に対応する積分時間は短い。この場合に、環境情報は急激に変化するので、RGBカメラが有効な環境情報を捕捉することはしばしば困難である。例えば、高速で動いているオブジェクトが存在するシナリオで、高速で動いているオブジェクトは、通常、RGBカメラによって収集されたRGB画像では捕捉するのが困難である。すなわち、RGB画像内の高速で動いているオブジェクトに対応する領域は、ぼやけた領域である。
従って、第1イベント画像に対応する積分時間が第1閾値に満たない場合に、端末は、RGB画像の品質が低いこと又は環境の有効な情報が捕捉され得ないことを決定してよく、それにより、端末は、ターゲット画像を使用することによってポーズ推定を行わないと決定し得る。第1閾値の値は、SLAMの精度要求に基づいて決定されてよい。例えば、第1閾値の値は5ms又は7msであってよい。第1閾値の値はこの実施形態で特に制限されない。言い換えると、端末が第1イベント画像に対応する取得時間にポーズを計算する場合に、たとえ端末が、第1イベント画像は時系列において第1イベント画像とアライメントされたターゲット画像を有する、と決定することができたとして、端末は、第1イベント画像にのみ基づいてポーズ推定を行う。このようにして、第1イベント画像及びターゲット画像が共同的なポーズ推定に使用される場合に、ターゲット画像の低品質によって引き起こされるポーズ推定効果の悪さは、有効に回避することができる。
可能な実施において、端末によって、時系列において第1イベント画像とアライメントされているターゲット画像を決定した後、第1閾値に満たない第1イベント画像の積分に基づいて、ポーズ推定を行うためにターゲット画像を使用しないと決定することに加えて、端末は、第1イベント画像を取得し、第1イベント画像の積分時間が第1閾値に満たないことを決定した後で、ポーズ推定を行うために第1イベント画像に対応するRGB画像を使用しないと決定してもよい。言い換えると、端末は、第1イベント画像に対して時系列アライメント操作を実行しなくてもよく、第1イベント画像を使用することによってポーズ推定操作を直接実行して、時系列アライメント操作のためのリソースオーバヘッドを減らすことができる。
ステップ10104:第1イベント画像に基づいてポーズ推定を実行する。
ポーズ推定を行うためにターゲット画像を使用しないと決定した後、端末は、第1イベント画像に基づいてポーズ推定を行って、第1イベント画像の取得時点での端末の対応するポーズを計算し得る。
この実施形態で、端末が、イベント画像の積分時間が閾値に満たない場合に基づいて、RGBカメラが有効な環境情報収集することが困難であるシナリオに端末が現在あると決定するとき、端末は、品質が悪いRGB画像がポーズ推定を実行するためのものではないことを決定し、それによってポーズ推定精度を向上させる。
上記は、端末が高速動作シナリオ又は突然の照明変化シナリオにある場合に端末がポーズ推定を行うプロセスについて詳細に記載している。以下は、端末が静的シナリオ又は低速動作シナリオにある場合に端末がポーズ推定を行うプロセスについて記載する。
可能な実施形態で、端末によって取得される入力信号がDVSイベント、RGB画像、及びIMUデータを含む場合に、端末は、DVSイベントを統合してイベント画像を取得し、イベント画像、RGB画像、及びIMUデータに対して時系列アライメントを実行して、時系列アライメントの結果に基づいてポーズ推定を行う。
具体的に、端末が時系列アライメント操作を行うプロセスは、次の通りである。
端末がN個の連続したDVSイベントを統合することによってイベント画像を取得する場合に、端末は、イベント画像に隣接するRGB画像及びIMUデータの取得時間とイベント画像の取得時間との間の時間差が第2閾値よりも小さいかどうかを決定して、イベント画像が、時系列においてアライメントされているRGB画像及び/又はIMUデータを有するかどうかを決定する。
IMUがデータを収集する周波数は、RGBカメラが画像を捕捉する周波数よりもはるかに高いので、如何なる瞬間にも時系列においてRGB画像とアライメントされているIMUデータが存在すると見なされ得る。このようにして、端末がRGB画像を取得する場合に、端末は、RGB画像の取得時間と隣接するイベント画像の取得時間との間の時間差が第2閾値よりも小さいかどうかを決定して、時系列においてRGB画像とアライメントされているイベント画像が存在するかどうかを決定し得る。
端末が時系列アライメント操作を行う上記のプロセスに基づいて、時系列アライメント操作を行った後、端末は、時系列においてアライメントされている可能性がある複数の可能な信号組み合わせを取得し得る。具体的に、時系列においてアライメントされている複数の可能な信号組み合わせは、次の通りに示される。
1.イベント画像、RGB画像、及びIMUデータ
端末がイベント画像を取得した後、端末は、イベント画像に隣接するRG画像の取得時間を決定する。RGB画像の取得時間とイベント画像の取得時間との間の時間差が第2閾値よりも小さい場合に、端末は、イベント画像が時系列においてRGB画像とアライメントされていると決定する。IMUがデータを収集する周波数は、RGBカメラが画像を捕捉する周波数よりもはるかに高いので、如何なる瞬間にも時系列においてRGB画像とアライメントされているIMUデータが存在すると見なされ得る。従って、イベント画像が時系列においてRGB画像とアライメントされていると決定された後、時系列においてイベント画像及びRGB画像とアライメントされているIMUデータは取得され得る。
この場合に、端末は、イベント画像、RGB画像、及びIMUデータに基づいてポーズ推定を実行し得る。
2.RGB画像及びIMUデータ
端末がRGB画像を取得した後、端末は、時系列においてRGB画像とアライメントされているイベント画像があるかどうかを決定する、つまり、RGB画像の取得時間と隣接するイベント画像の取得時間との間の時間差が第2閾値より小さいかどうかを決定する。RGB画像の取得時間と隣接するイベント画像の取得時間との間の時間差が第2閾値以上である場合に、端末は、時系列においてRGB画像とアライメントされたイベント画像はないと決定する、つまり、IMUデータのみが時系列においてRGB画像とアライメントされている。
この場合に、端末は、RGB画像及びIMUデータに基づいてポーズ推定を実行し得る。
3.イベント画像及びIMUデータ
端末がイベント画像を取得した後、端末は、イベント画像に隣接するRGB画像の取得時間を決定する。イベント画像の取得時間とイベント画像に隣接するRGB画像の取得時間との間の時間差が第2閾値以上である場合に、端末は、RGB画像が時系列においてイベント画像とアライメントされていないと決定する。RGB画像が時系列においてイベント画像とアライメントされていないと決定した後、端末は、IMUデータが時系列においてイベント画像とアライメントされているかどうかを引き続き決定してもよい。具体的に、端末は、イベント画像に隣接するIMUデータの取得時間を決定する。イベント画像に隣接するIMUデータの取得時間と隣接するイベント画像の取得時間との間の時間差が第3閾値よりも小さい場合に、端末は、イベント画像が時系列においてIMUデータとアライメントされていると決定する。
この場合に、端末は、イベント画像及びIMUデータに基づいてポーズ推定を実行し得る。
4.イベント画像
同様に、端末がイベント画像を取得した後、端末は、イベント画像に隣接するRGB画像の取得時間を決定する。イベント画像の取得時間とイベント画像に隣接するRGB画像の取得時間との間の時間差が第2閾値以上である場合に、端末は、RGB画像が時系列においてイベント画像とアライメントされていないと決定する。RGB画像が時系列においてイベント画像とアライメントされていないと決定した、端末は、IMUデータが時系列においてイベント画像とアライメントされているかどうかを引き続き決定してもよい。具体的に、端末は、イベント画像に隣接するIMUデータの取得時間を決定する。イベント画像に隣接するIMUデータの取得時間と隣接するイベント画像の取得時間との間の時間差が第3閾値以上である場合に、端末は、IMUデータが時系列においてイベント画像とアライメントされていないと決定する。
この場合に、端末はイベントデータに基づいてポーズ推定を実行し得る。
例えば、端末は、第2イベント画像を取得し、第2イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である。第2イベント画像に対応する期間は、第1イベント画像に対応する期間とは異なる。すなわち、モーションセンサが第1イベントを検出する期間は、モーションセンサが第2イベント画像を検出する期間とは異なる。ターゲット画像が時系列において第2イベント画像とアライメントされない場合に、第2イベント画像は、ポーズ推定を一緒に行うためのイベント画像を有さないと決定される。従って、端末は、第2イベント画像に基づいてポーズ推定を実行する。例えば、端末は、第2イベント画像にのみ基づいてポーズ推定を行うか、又は端末は、第2イベント画像及びIMUデータに基づいてポーズ推定を行う。
可能な実施形態で、スライディング窓に基づいた視覚的慣性ポーズ推定が使用される場合に、ポーズ推定プロセスは、本質的に、コスト関数の共同最適化プロセスである。時系列においてアライメントされた信号の上記の複数の可能な組み合わせに基づいて、異なる信号組み合わせの下でのコスト関数が取得され得る。
例えば、イベント画像、RGB画像、及びIMUデータを含む、時系列においてアライメントされた信号の組み合わせの場合に、コスト関数は3つの項目:イベントカメラの重み付き投影誤差、RGBカメラの重み付き投影誤差、及び慣性誤差項を含む。具体的に、コスト関数は、式35に示されるものである:
Jはコスト関数を表す。iはカメラインデックスを示し、iが0であるとき、それはイベントカメラを示し、iが1であるとき、それはRGBカメラを示す。kはフレームインデックスを示す。jはロードマップインデックスを表す。J(j,k)は、k番目のフレームでセンサiによってリザーブされているロードマップインデックスを表す。Wr
i,j,kは、ロードマップ測定値の情報マトリクスを表す。Ws
kは、k番目のIMUエラーの情報マトリクスを表す。esは慣性誤差項を表す。
任意に、イベント画像の積分時間が第1閾値に満たない場合に、つまり、端末が高速動作シナリオ又は突然の照明変化シナリオにあるとき、コスト関数は、ポーズ推定精度を向上させるよう、RGB画像を使用することによっては解かれない。すなわち、コスト関数は2つの項目、つまり、イベントカメラの重み付き投影誤差及び慣性誤差項を含む。要するに、コスト関数に対応する式を得るために、iの値範囲が0であるように、式35に基づいて変更が行われ得る。
時系列においてアライメントされた信号の組み合わせがRGB画像及びIMUデータである場合に、端末は、RGB画像及びIMUデータを使用することによってのみコスト関数を解く。すなわち、コスト関数は2つの項目、つまり、RGBカメラの重み付き投影誤差及び慣性誤差項を含む。要するに、コスト関数に対応する式を得るために、iの値範囲が1であるように、式35に基づいて変更が行われ得る。
時系列においてアライメントされた信号の組み合わせがイベント画像及びIMUデータである場合に、端末は、イベント画像及びIMUデータを使用することによってのみコスト関数を解く。すなわち、コスト関数は2つの項目、つまり、イベント画像の重み付き投影誤差及び慣性誤差項を含む。
時系列に
おいてアライメントされた信号の組み合わせがイベント画像を含む場合に、端末は、イベント画像を使用することによってのみコスト関数を解く。すなわち、コスト関数は1つの項目、つまり、イベント画像の重み付き投影誤差及しか含まない。
おいてアライメントされた信号の組み合わせがイベント画像を含む場合に、端末は、イベント画像を使用することによってのみコスト関数を解く。すなわち、コスト関数は1つの項目、つまり、イベント画像の重み付き投影誤差及しか含まない。
ポーズ推定プロセスで、ポーズ推定は、通常、再帰的なプロセスであり、すなわち、現在のフレームのポーズは、前のフレームのポーズに基づいて解かれる。このようにして、ポーズ推定プロセスでの誤差は、フレームごとに受け渡されて、累積的な誤差を生じさせる。従って、ポーズ推定プロセスで、端末は更に、ポーズ推定の累積的な誤差を減らしかつポーズ推定の精度を向上させるよう、ループバック検出を実行する。ループバック検出は、閉ループ検出とも呼ばれ、マップが閉じられるように、端末が一度到達したシナリオを識別するプロセスを指す。ループバック検出により、端末が前の位置に戻ったかどうかが決定され得る。ループバックが検出される場合に、情報は、累積的な誤差を除去するよう、最適化処理のためにバックエンドに渡される。
可能な実施において、端末は、第1イベント画像及びディクショナリに基づいてループバック検出を実行し、ディクショナリは、イベント画像に基づいて構成されたディクショナリである。
任意に、ループバック検出を実行する前に、端末は、イベント画像に基づいて前もってディクショナリを構成してもよく、それにより、ループバック検出は、ループバック検出を実行する過程でディクショナリに基づいて実行され得る。具体的に、端末によってディクショナリを構成するプロセスは、端末によって複数のイベント画像を取得することを含み、複数のイベント画像は訓練に使用されるイベント画像であり、複数のイベント画像は、端末によって異なるシナリオで撮影されたイベント画像であってよい。端末は、特徴抽出アルゴリズムを使用することによって、複数のイベント画像の視覚的特徴を取得する。視覚的特徴には、例えば、画像のテクスチャ、パターン、又はグレースケール統計値などの特徴が含まれ得る。異なるシナリオで撮影されたイベント画像は、異なる視覚的特徴を有する。従って、あるシナリオの各要素は、視覚的特徴を使用することによって表現され得る。複数のイベント画像の視覚的特徴を取得した後、端末は、クラスタ化された視覚的特徴を取得するよう、クラスタリングアルゴリズムを使用することによって視覚的特徴をクラスタ化し、クラスタ化された視覚的特徴は、対応する記述子を有する。視覚的特徴をクラスタ化することによって、類似した視覚的特徴は、視覚的特徴のその後の照合、及びクラスタ化された視覚的特徴に基づいたディクショナリの構成を容易にするために、1つのカテゴリに分類されてよい。
例えば、複数のイベント画像において視覚的特徴を抽出した後、端末は、夫々の視覚的特徴に対応する記述子、例えば、ORB記述子又はBRIEF記述子を取得してもよい。記述子は、視覚的特徴を表現するためのものである。次いで、複数の視覚的特徴は、階層k平均(Hierarchical K-means)クラスタリングアルゴリズム又はK平均++クラスタリングアルゴリズムを使用することによってk個のクラスタに分類され、各クラスタは、クラスタの重心を使用することによって記述される。すなわち、各クラスの記述子が取得される。視覚的特徴のクラスタリングの品質は、一般に、同じくラスタの二乗和誤差(SSE)を使用することによって表現され得る。SSEが小さいほど、同じクラスのデータ点はクラスタの重心により近いことを示し、より良いクラスタリング効果を示す。ここでの「~に近い」は、測距法を使用することによって実施されてよく、異なる測距法はクラスタリング効果にも影響を与える。
ディクショナリを構成する過程で、N個全てのクラスタ化された記述子は、kd個のリーフノードを含むツリー構造を取得するために、k分岐及びd深さのkツリーのリーフノード上に分散され得る。実際のアプリケーションでは、k及びdの値は、シナリオサイズ及び達成されるべき効果に基づいて調整されてよい。このようにして、イベント画像の視覚的特徴が検索される場合に、対応するクラスタ中心は、対数時間計算量(d回=logkN)を使用することによって求めることができ、複雑度の高いブルートフォース検索が必要となる。
ディクショナリが取得された後、端末が第1イベント画像及びディクショナリに基づいてループバック検出を実行することは具体的に、端末が第1イベント画像の記述子を決定することを含んでよい。例えば、端末は、特徴抽出アルゴリズムを使用することによって第1イベント画像内の視覚的特徴を抽出し、抽出された視覚的特徴の記述子を決定する。端末は、ディクショナリの中で、第1イベント画像の記述子に対応する視覚的特徴を決定する。例えば、端末は、ディクショナリのkツリーから、第1イベント画像の記述子に一致する視覚的特徴を検索する。端末は、視覚的特徴に基づいて、第1イベント画像に対応するバグ・オブ・ワードベクトル(BoWベクトル)を決定し、第1イベント画像に対応するバグ・オブ・ワードベクトルと他のイベント画像のバグ・オブ・ワードベクトルとの間の類似度を決定するして、第1イベント画像に一致するイベント画像を決定する。
要約すると、イベント画像に基づいて端末によって構成されたディクショナリは、しなり全体におけるすべての視覚的特徴の組と見なすことができる。端末によって現在のイベント画像に基づいてディクショナリの中で対応する視覚的特徴を決定することは、端末によって、現在のイベント画像に含まれる視覚的特徴をディクショナリから探すことと等価である。バグ・オブ・ワードベクトルは、現在のイベント画像に含まれる視覚的特徴に基づいて形成されてよい。例えば、バグ・オブ・ワードベクトルにおいて、現在のイベント画像に含まれる視覚的特徴は1と表され、現在のイベント画像に含まれない視覚的特徴は0と表される。最後に、異なるイベント画像の間でバグ・オブ・ワードベクトルの類似度を比較することによって、2つのイベント画像が一致するかどうかが決定され得る。2つのイベント画像間のバグ・オブ・ワードベクトルの類似度が前もってセットされた閾値以上である場合に、2つのイベント画像は一致すると決定され得る。2つのイベント画像間のバグ・オブ・ワードベクトルの類似度が前もってセットされた閾値に満たない場合に、2つのイベント画像は一致しないと決定され得る。
b.キーフレーム
キーフレームは、ビデオ又は画像セットの鍵となる情報を表すことができるビデオ又は画像セット内の画像である。一般に、キーフレームによって接続されたコンテンツの2つのセグメントは大いに変化する。ビデオデータの量が増えるにつれて、キーフレームはビデオ解析、ビデオコーディング、セキュリティ監視、及びロボットビジョン分野で広く使用されている。
キーフレーム選択は、ビデオ解析の基礎的な部分である。キーフレーム選択により、適切なビデオアブストラクトが、ビデオのインデックス作成、ブラウジング、検索、検出などのために提供され得る。キーフレームの使用は、ビデオデータストリームのコンテンツ及び時間の冗長性を減らすことができる。キーフレームはビデオコンテンツを効果的に反映できるだけでなく、ビデオ解析時間を大幅に短縮することもできる。
ビデオ符号化中、画像品質及び符号化ビットレートが要件を満足することを確かにするために、キー符号化フレームが動的に加えられる必要がある。一般に、キーフレームは、画像コンテンツが大幅に変わるときに挿入される必要がある。
セキュリティ保護の有効な手段として、ビデオ監視が多くの分野で広く使用されている。終日の監視は大量のビデオデータを発生させるが、ユーザは、大きく変化したビデオデータのわずかの部分にしか関心がない。従って、キーフレーム抽出技術は、ユーザが興味を持っているキーフレームシーケンスを取り出すことができる。
近年、ロボット、無人航空機、無人車両、及びAR/VRなどのデバイスはますます普及するにつれて、この分野での重要な技術の1つとして、視覚的な自己位置推定及び環境地図作成の同時実行(visula simultaneous localization and mapping,VSLAM)がよく知られている。VSLAMは、動いているオブジェクトがセンサ情報に基づいてその位置を計算しかつ環境マップを構成するプロセスである。VSLAMは、動いているオブジェクトによって、それ自身の位置を決定し、経路を計画し、シナリオを理解するために使用され得る。VSLAMでは、キーフレームは、通常、画像を生成しかつ位置決めを行うために使用される。これは、システムのリアルタイム性能の低下、計算費用の増大、及びフレームごとの挿入によって引き起こされるシステムメモリの過剰な消費、という問題を回避することができる。
ビデオ解析、ビデオ符号化、セキュリティ監視、及びロボットビジョンなどの上記の分野で、対応するイベント画像は、DVSを使用することによって取得されてよく、必要とされるキーフレームは、複数の取得されたイベント画像から選択される。
関連する技術では、イベント画像のキーフレームを選択する方法は、特徴抽出及びポーズ推定などの複雑な計算が全てのイベント画像に対して実行された後にのみ、イベント画像がキーフレームであるかどうかを決定するものである。複雑な計算は全てのイベント画像に対して実行される必要があるので、このスキームの計算量は多い。
図103は、本願の実施形態に係るキーフレーム選択方法10300の略フローチャートである。図103に示されるように、キーフレーム選択方法10300は次のステップを含む。
ステップ10301:イベント画像を取得する。
この実施形態で、キーフレーム選択方法10300は、ビデオ解析、ビデオ符号化及び復号化、又はセキュリティ監視などのシナリオに適用されてよい。キーフレーム選択方法10300は、端末又はサーバ、例えば、ビデオ解析用のサーバ、ビデオ符号化及び復号化を実行する端末若しくはサーバ、又は監視用の端末によって実行されてよい。記載を簡単にするために、以下は、端末が実行本体である例を使用することによって、本願のこの実施形態で提供されるキーフレーム選択方法10300について記載する。
この実施形態で、DVSは、端末へ接続されても又は端末で前もってセットされてもよい。端末は、DVSを使用することによってターゲット環境をモニタし、ターゲット環境に対応するイベント画像を取得する。
ステップ10302:イベント画像の第1情報を決定する。
第1情報は、イベント画像内のイベント及び/又は特徴を含んでよく、端末は、イベント画像内のイベント及び/又は特徴を検出することによって第1情報を決定してよい。
可能な例において、イベント画像内のピクセルが光強度変化の傾向を表す場合に、イベント画像はバイナリ画像であり、端末は、ピクセル値が0ではないピクセルがイベント画像内のイベントであると決定し得る。すなわち、値が0ではないピクセルの数は、イベント画像内のイベントの数である。
他の可能な例において、イベント画像内のピクセルが絶対光強度を表す場合に、イベント画像はグレースケール画像である。このように、端末は、イベント画像内の、ピクセル値が特定の閾値を超えるピクセルが、イベント画像のイベントであると決定してよく、すなわち、ピクセル値が特定の閾値を超えるピクセルの数は、イベント画像内のイベントの数である。代替的に、端末は、現在のイベント画像内のピクセル値を、前の時点での隣接するイベント画像内の対応するピクセル値から減じ、絶対値を求め、絶対値が特定の閾値を超えるピクセルがイベント画像内のイベントであると決定してもよい。
イベント画像内の特徴について、端末は、特徴抽出アルゴリズムを使用することによってイベント画像内の特徴を抽出し得る。特徴抽出アルゴリズムには、加速化断片試験による特徴抽出(FAST)アルゴリズム、指向FAST及び回転BRIEF(ORB)アルゴリズム、加速ロバスト特徴(SURF)アルゴリズム、及びスケール不変特徴変換(SIFT)アルゴリムなどのアルゴリズムが含まれ得るが限られない。イベント画像内の特徴を抽出した後、端末は、抽出された特徴に関する統計値を収集することによってイベント画像内の特徴の数を決定してもよい。
ステップ10303:第1情報に基づいて、イベント画像が第1条件を満足すると決定される場合に、イベント画像がキーフレームであることを決定する。
可能な例において、第1条件は、次の:イベントの数が第1閾値よりも多いこと、イベント有効領域の数が第2閾値よりも多いこと、特徴の数が第3閾値よりも多いこと、及び特徴有効領域が第4閾値よりも多いこと、のうちの1つ以上を含んでよい。すなわち、端末が、第1情報に基づいて、イベント画像が、次の:イベントの数が第1閾値よりも多いこと、イベント有効領域の数が第2閾値よりも多いこと、特徴の数が第3閾値よりも多いこと、及び特徴有効領域が第4閾値よりも多いこと、のうちの1つ以上を満足することを決定する場合に、端末は、イベント画像がキーフレームであると決定してよい。
第1条件が、イベント有効領域の数が第2閾値よりも多いことを含む場合に、端末は、イベント画像を複数の領域に分割し、各領域でイベントの数を決定してよい。ある領域内のイベントの数が特定の閾数よりも多いとき、端末は、当該領域が有効領域であると決定し得る。このようにして、端末は、有効領域の数が第2閾値よりも多いかどうかに関する統計値を収集することによって、イベント画像が第1条件を満足するかどうかを決定してよい。領域内のイベントの数に対応する閾値は、領域分割方法に基づいて決定されてよく、閾値は本願で特に制限されない。
端末は、複数の方法で、イベント画像を複数の領域に分割してよい。可能な実施において、端末は、イベント画像を複数の領域に均等に分割してよく、例えば、イベント画像を1030個の領域に均等に分割してよく、全ての領域は同じ面積を有する。他の可能な実施においては、端末は、イベント画像を複数の領域に不均等に分割してもよい。例えば、イベント画像の中心位置を分割することによって取得された領域の面積は小さく、イベント画像の端の位置を分割することによって取得された領域の面積は大きい。例えば、図104は、本願の実施形態に係るイベント画像の領域分割の模式図である。図104の(a)に示されるように、イベント画像は1030個の領域に均等に分割され、全ての領域は同じ面積を有する。図104の(b)に示されるように、イベント画像は複数の領域に不均等に分割され、イベント画像の端の位置にある領域の面積は、中心位置にある領域の面積の4倍である。
第1条件が、特徴有効領域が第4閾値よりも多いことを含む場合に、端末は、イベント画像を複数の領域に分割し、各領域で特徴の数を決定してよい。ある領域内の特徴の数が特定の閾数よりも多いとき、端末は、当該領域が特徴有効領域であると決定し得る。このようにして、端末は、特徴有効領域の数が第4閾値よりも多いかどうかに関する統計値を収集することによって、イベント画像が第1条件を満足するかどうかを決定してよい。領域内の特徴の数に対応する閾値は、領域分割方法に基づいて決定されてよく、閾値は本願で特に制限されない。
更に、端末がイベント画像を複数の領域に分割する方法は、イベント有効領域を決定する上記の分割方法と同様である。詳細については、上記の記載を参照されたい。詳細はここで再び記載されない。
可能な実施形態で、端末は、複数のDVSによって生成されて時系列においてアライメントされているイベント画像を取得してもよい。この場合に、1つのフレームが、キーフレーム選択を実行するためにイベント画像から選択される。上記の第1条件が満足される場合に、複数の現在のイベント画像がキーフレームとして決定される。
可能な実施形態で、イベント画像は、時系列においてイベント画像とアライメントされたデプス画像を更に有してもよい。例えば、デプスカメラが構成される場合に、時系列においてイベント画像とアライメントされているデプス画像は、デプスカメラによって生成され得る。この場合に、イベント画像が第1条件を満足する場合に、イベント画像及び時系列においてイベント画像とアライメントされているデプスマップの両方がキーフレームとして決定され得る。
可能な実施形態で、イベント画像は対応するRGB画像を更に有してもよく、RGB画像は、時系列においてイベント画像とアライメントされている。すなわち、端末は、時系列においてアライメントされているイベント画像及びRGB画像を取得し得る。この場合に、端末は、RGB画像に対応する特徴の数及び/又は特徴有効領域を取得してもよい。RGB画像が特定の条件を満足するかどうかは、RGB画像に対応する特徴の数が特定の閾値よりも多いかどうか、及び/又はRGB画像に対応する特徴有効領域が特定の閾値よりも大きいかどうかを決定することによって、決定される。このようにして、端末は、RGB画像が特定の条件を満足するかどうか、及び/又はイベント画像が第1条件を満足するかどうかを決定することによって、RGB画像及びイベント画像をキーフレームとして決定すべきかどうかを決定し得る。RGB画像の特徴の数に対応する特定の閾値及びRGB画像の特徴有効領域に対応する特定の閾値は異なる閾値であってよいことが留意されるべきである。
例えば、端末が、RGB画像に対応する特徴の数が特定の閾値よりも多いこと、又はRGB画像に対応する特徴が特定の閾値よりも大きいことを決定する場合に、端末は、RGB画像及び対応するイベント画像がキーフレームであると決定してよい。イベント画像が第1条件を満足すると端末が決定するとき、端末は、代替的に、イベント画像及び対応するRGB画像がキーフレームであると決定してもよい。
この実施形態で、現在のイベント画像がキーフレームであるかどうかは、イベント画像内のイベントの数、イベント分布、特徴の数、及び/又は特徴分布などの情報を決定することによって決定され、キーフレームは即時に選択され得、アルゴリズムの量は少なく、ビデオ解析、ビデオ符号化及び復号化、又はセキュリティ監視などのシナリオにおけるキーフレームは即時に選択され得る。
図105は、本願の実施形態に係るキーフレーム選択方法10500の略フローチャートである。図105に示されるように、キーフレーム選択方法10500は次のステップを含む。
ステップ10501:イベント画像を取得する。
ステップ10502:イベント画像の第1情報を決定し、第1情報はイベント画像内のイベント及び又は特徴を含む。
この実施形態で、キーフレーム選択方法10500はVSLAMシナリオに適用されてよく、キーフレーム選択方法10500は端末、例えば、ロボット端末、無人車両端末、又は無人航空機端末によって実行されてよい。
ステップ10501及びステップ10502は、上記のステップ10301及びステップ10302と同様である。詳細は、上記のステップ10301及びステップ10302を参照されたい。詳細はここで再び記載されない。
ステップ10503:第1情報に基づいて、イベント画像が第1条件を満足すると決定される場合に、イベント画像の第2情報を決定し、第2情報はイベント画像内の動き特徴及び/又はポーズ特徴を含み、第1条件は、イベントの数及び/又は特徴の数に関係がある。
この実施形態で、第1情報に基づいて、イベント画像が第1条件を満足することを決定するステップは、上記のステップ10303と同様である。詳細については、上記のステップ10303を参照されたい。詳細はここで再び記載されない。
第2情報は、イベント画像内の動き特徴及び/又はポーズ特徴を含んでよく、端末は、イベント画像においてイベント及び/又は特徴を検出することによって第1情報を決定してよい。
可能な実施において、端末は、エピポーラ拘束法を使用する方法で第2情報を決定してよい。エピポーラ拘束法は次のステップを含む。
端末は、第1キーフレーム(つまり、キーフレームとして最初に決定されたイベント画像)の三次元ポーズを座標系原点として初期化する。
端末は、現在のイベント画像の特徴を決定し、イベント画像の特徴を前のキーフレームの特徴と照合して、一致点ペアを取得する。端末がイベント画像の特徴を前のキーフレームの特徴と照合する方法には、ブルートフォース検索法があるが限られない。ブルートフォース検索法は、イベント画像内の特徴をトラバースし、1つずつ、各特徴が前のキーフレーム内の特徴と一致するかどうかを決定するものである。
端末は、ランダムサンプル一貫性アルゴリズム(RANSAC)を使用することによって、一致点ペアから、6自由度の相対運動モデルに適合する可能な限り多くのサブサンプルセットを選択する。相対運動モデルに適合する一致点ペアの数が前もってセットされた閾数よりも多い場合に、最小二乗法が、見つけられた一致点ペアに対して実行され、現在のイベント画像とキーフレーム画像との間の三次元空間内の相対運動マトリクスを計算する。端末は、三次元空間内の計算された相対運動マトリクスに基づいて、前のキーフレームに対する現在のイベント画像の動きの変化、つまり、動き特徴及びポーズ特徴を計算し得る。
ステップ10504:第2情報に基づいて、イベント画像が第2条件を満足すると決定される場合に、イベント画像がキーフレームであることを決定するし、第2条件は動き変化及び/又はポーズ変化に関係がある。
第2条件は、次の:現在のイベント画像と前のキーフレームとの間の距離が前もってセットされた距離値(前もってセットされた距離値は、例えば、10mmであってよい)を越えること、現在のイベント画像と前のキーフレームとの間の回転の角度が前もってセットされた角度値(前もってセットされた角度値は、例えば、10°であってよい)を越えること、現在のイベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を越え、かつ、回転角度が前もってセットされた角度値を超えること、及び現在のイベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を超えるか、又は回転角度が前もってセットされた角度値を越えること、のうちの1つ以上を含んでよい。
言い換えると、端末は、イベント画像がキーフレームとして使用できるかどうかを決定するために、イベント画像内の動きの変化及びポーズの変化のうちの1つ以上に基づいて、イベント画像が第2条件を満足するかどうかを決定し得る。
この実施形態で、粗目スクリーニング条件をセットすることによって、粗目スクリーニングが少ない計算量で画像に対して実行され、粗目スクリーニング条件を満足する画像は、キーフレームシーケンスとして加えられ、次いで、キーフレームシーケンス内の画像が細目スクリーニング条件に基づいて取り出され、それによってキーフレームが選択される。条件を満足しない一部の画像は少ない計算量で前もって除外され、それから、キーフレームが、条件を満足する画像の中から選択されるので、全ての画像を多大な計算量で計算する必要がなくなり、計算量は削減され得る。
可能な実施形態で、端末によって取得される入力が複数のイベント画像ストリームである場合に、端末は、上記の方法に従って動き特徴及びポーズ特徴を計算するためにイベント画像ストリームからいずれか1つを選択してもよい。代替的に、端末は、いずれか2つ以上のイベント画像ストリームを選択し、両目又はマルチビュー方式で動き特徴及びポーズ特徴を計算してもよい。
可能な実施形態で、イベント画像は同期デプス画像を更に有してもよい。例えば、デプスカメラが構成される場合に、イベント画像に同期したデプス画像がデプスカメラによって生成され得る。この場合に、イベント画像が第1条件及び第2条件を満足する場合に、端末は、イベント画像及び対応するデプス画像をキーフレームとして決定し得る。更に、ステップ10503で、イベント画像に対応するデプス画像が取得される場合に、端末は、対応するデプス情報を取得することができる。従って、端末は、代替的に、投影N点(Perspective-N-Point,PnP)アルゴリズム又は反復最接近点(Interative Closest Point,ICP)アルゴリズムを使用することによって動き特徴及びポーズ特徴を計算してもよい。
可能な実施形態で、イベント画像は同期RGB画像を更に有してもよく、RGB画像は時系列においてイベント画像とアライメントされている。すなわち、端末は、時系列においてアライメントされているイベント画像及びRGB画像を取得してよい。この場合に、端末が、第1情報に基づいて、イベント画像が第1条件を満足することを決定した後、端末は、イベント画像が第2条件を満足するかどうか、及び/又はRGB画像が第2条件を満足するかどうかを決定することによって、イベント画像及びイベント画像に対応するRGB画像をキーフレームとして決定すべきかどうかを決定し得る。例えば、RGB画像が第2条件を満足することを端末が決定するとき、端末は、イベント画像及びイベント画像に対応するRGB画像をキーフレームとして決定し得る。代替的に、イベント画像及びRGB画像が両方とも第2条件を満足することを決定する場合に、端末は、イベント画像及びイベント画像に対応するRGB画像がキーフレームであると決定し得る。RGB画像が第2条件を満足するかどうかを端末が決定する過程で、端末は最初に、RGB画像に基づいて、対応する動き特徴及び対応するポーズ特徴を決定してもよい。端末がRGB画像に対応する動き特徴及びポーズ特徴を決定するプロセスは、端末がイベント画像に対応する動き特徴及びポーズ特徴を決定するプロセスと同様である。詳細については、上記のステップ10503の記載を参照されたい。詳細はここで再び記載されない。
可能な実施形態で、イベント画像が同期RGB画像を有する場合に、いくつかのシナリオ、例えば、高品質のテクスチャ画像が生成される必要がある3D再構築シナリオでは、高い要求が、RGB画像の鮮明度及び輝度の一貫性に対して課される。そのため、この場合に、RGB画像の鮮明度及び輝度の一貫性は、キーフレームが選択されるときに更に考慮され得る。
具体的に、端末は、イベント画像が第2条件を満足するかどうか、イベント画像又はRGB画像の鮮明度が鮮明度閾値よりも大きいかどうか、及び/又はイベント画像又はRGB画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きいかどうかを決定することによって、イベント画像及びイベント画像に対応するRGB画像をキーフレームとして決定すべきかどうかを決定してもよい。
例えば、端末は、イベント画像が第2条件を満足することに基づいて、イベント画像及びイベント画像に対応するRGB画像がキーフレームであることを決定してよい。代替的に、端末は、イベント画像又はRGB画像の鮮明度が鮮明度閾値よりも大きいことに基づいて、イベント画像及びイベント画像に対応するRGB画像がキーフレームであることを決定してよい。代替的に、端末は、イベント画像又はRGB画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きいかどうかに応じて、イベント画像及びイベント画像に対応するRGB画像がキーフレームであることを決定してよい。更に、端末は,代替的に、イベント画像が第2条件を満足しかつイベント画像又はRGB画像の鮮明度が鮮明度閾値よりも大きいこと、又はイベント画像又はRGB画像の鮮明度が鮮明度閾値よりも大きくかつイベント画像又はRGB画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きいことに基づいて、イベント画像及びイベント画像に対応するRGB画像がキーフレームであることを決定してよい。
具体的に、端末によってRGB画像の鮮明度を決定する方法には、Brenner gradient法、Tenendrad gradient法、Laplacian gradient法、分散法、などが含まれ得るがこれらに限られない。Brenner gradient法を一例として用いると、端末は、2つの隣接するピクセル間のグレースケール差の二乗を計算してよく、関数は、次の通りに定義される:
f(x,y)は、画像fに対応するピクセル(x,y)のグレースケール値を表し、D(f)は、画像鮮明度の計算結果である。
上記の関数から分かるように、RGB画像の鮮明度を計算する過程で、RGB画像内の全てのピクセルが計算に関与し、計算量は多い。
この実施形態で、端末によってイベント画像の鮮明度を決定する方法にも、Brenner gradient法、Tenendrad gradient法、Laplacian gradient法、及び分散法などの上記の方法が含まれ得るがこれらに限られない。更に、端末は、イベント画像に基づいて鮮明度を計算し、計算結果を、正規化のために、計算に関与したピクセルの数で除して、正規化された結果を最終的な鮮明度計算結果として使用してもよい。このようにして、イベント画像の鮮明度を計算する過程では、イベントに反応するピクセルのみが上記の計算に関与するので、端末の計算量は可能な限り削減できる。
端末によってRGB画像の輝度一貫性インジケータを計算する方法は、次の方法を含むが限られない。
1.現在のRGB画像の平均輝度を計算する、つまり、最初に、RGB画像の全てのピクセルの輝度値を合算し、次いで、和をピクセルの数で除して、RGB画像の平均輝度を求める。同様に、隣接するRGB画像のキーフレームの平均輝度が上記の方法で計算される。最後に、現在のRGB画像の平均輝度と隣接するキーフレームの平均輝度との間の差の絶対値が計算され、絶対値が、RGB画像の輝度一貫性インジケータとして使用される。
2.現在のRGB画像と隣接するRGB画像のキーフレームとの間の差をピクセルごとに計算し(つまり、各グループに対応するピクセル間の輝度差を計算し)、その差の絶対値を計算する。次いで、和演算が、ピクセルの各グループに対応する絶対値に対して実行され、最後に、求められた合計結果を、正規化結果を得るようピクセルの数で除す。正規化結果は、輝度一貫性インジケータとして使用されてよい。
端末によってRGB画像の輝度一貫性インジケータを計算する上記の方法から分かるように、輝度一貫性インジケータがRGB画像に基づいて計算される場合に、RGB画像内の全てのピクセルが計算に関与し、計算量は多い。この実施形態で、端末は、イベント画像に基づいて輝度一貫性インジケータを計算してもよく、それにより、イベントに反応するピクセルのみが上記の計算に関与し、端末の計算量は可能な限り削減できる。例えば、端末によってイベント画像の輝度一貫性インジケータを計算する方法は、次の通りである。
1.イベント画像内のピクセルが光強度の変化極性を表す場合に、端末は最初に、現在のイベント画像内のイベントの数と隣接するイベント画像のキーフレーム内のイベントの数との間の差の絶対値を計算し、次いで、絶対値をイベント画像内のピクセルの数で除すことによって求められた結果を輝度一貫性インジケータとして使用してよい。
2.イベント画像内のピクセルが光強度を表す場合に、現在のイベント画像と隣接するイベント画像のキーフレームとの間の差をピクセルごとに計算し(つまり、各グループに対応するピクセル間の輝度差を計算し)、その差の絶対値を計算する。次いで、和演算が、ピクセルの各グループに対応する絶対値に対して実行され、最後に、求められた合計結果が、正規化結果を得るようピクセルの数で除される。正規化結果は、輝度一貫性インジケータとして使用されてよい。
可能な実施形態で、対応するRGB画像に加えて、イベント画像は同期デプス画像を更に有してもよい。例えば、デプスカメラが構成される場合に、イベント画像に同期したデプス画像がデプスカメラによって生成され得る。この場合に、イベント画像が第1条件及び第2条件を満足する場合に、端末は、イベント画像、RGB画像、及び対応するデプス画像をキーフレームとして決定してよい。更に、イベント画像に対応するデプス画像が取得される場合に、端末は、対応するデプス情報を取得することができる。従って、端末は、代替的に、PnPアルゴリズム又はICPアルゴリズムを使用することによって、動き特徴及びポーズ特徴を計算してもよい。
c.動的SLAM
SLAM技術を使用する動いているオブジェクトが自律的な動きを実現するには、動いているオブジェクトが、環境を感知し、動いているオブジェクトのポーズを正確に推定する機能を有する必要がある。関連技術では、動いているオブジェクトは、動作過程においてカメラを使用することによって環境画像を収集し、環境画像に対して特徴点抽出およびフレーム間マッチングを行うことにより、キーポイントの座標変化の観測データを取得する。次に、観測情報とポーズとの関数関係を確立し、最適化手法を用いて関数の極値を解く。最終的に、推定されたポーズ情報が得られる。
現在、関連技術におけるポーズ推定のためのアルゴリズムは、静的なシナリオ、つまり、動的オブジェクトがないシナリオに適用可能である。通常、アルゴリズムが動的なシナリオで正確なポーズ推定を実施することは困難である。
これを鑑み、本願の実施形態はポーズ推定方法を提供する。シナリオ内の動的領域はイベント画像に基づいて捕捉され、ポーズは動的領域に基づいて決定され、それにより、ポーズ情報は正確に決定され得る。
図106は、本願の実施形態に係るポーズ推定方法1060の略フローチャートである。図106に示されるようにポーズ推定方法1060は、次のステップを含み得る。
ステップ10601:イベント画像及びイベント画像に対応する画像を取得し、イベント画像によって捕捉された環境情報及び画像によって捕捉された環境情報は同じである。
この実施形態で、ポーズ推定方法1060はSLAMシナリオに適用されてよく、ポーズ推定方法1060は、SLAMを実行する端末、例えば、ロボット端末、無人車両端末、又は無人航空機端末によって実行されてよい。
この実施形態で、イベント画像は、ターゲットオブジェクトがモーションセンサのモニタリング範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報に基づいて生成される。例えば、イベント画像はDVSイベント画像であってよい。DVSは、端末へ接続されても又は端末で前もってセットされてもよい。端末は、DVSを使用することによって環境をモニタし、環境に対応するDVSイベント画像を取得する。代替的に、端末は、環境情報を捕捉するよう構成されたカメラ、例えば、デプスカメラ又はRGBへ接続されても又はそれにより前もってセットされてもよい。端末は、カメラにより対応する環境画像を取得し、例えば、デプスカメラにより環境内のデプス画像を取得するか、又はRGBカメラによりこの環境内の赤緑青(RGB)画像を取得してよい。RGB画像は、ピクセルの色を識別するよう3つの成分R、G及びBを使用するTrueColor画像とも呼ばれる。R、G及びBは夫々3つの異なった基本色、赤、緑及び青を表す。3つの原色に基づいて任意の色が合成され得る。
可能な実施形態で、端末がイベント画像及びターゲット画像を取得した後、端末は、イベント画像に対応するターゲット画像を取得するよう、イベント画像をターゲット画像とアライメントしてもよい。例えば、端末は、時間領域で最近傍信号を照合し、キャリブレーションする方法で、イベント画像を時間領域でターゲット画像とアライメントしてもよい。
言い換えると、アライメントされたイベント画像及びターゲット画像は、同じ瞬間に同じシナリオで環境情報を捕捉していると考えることができる。
言い換えると、アライメントされたイベント画像及びターゲット画像は、同じ瞬間に同じシナリオで環境情報を捕捉していると考えることができる。
ステップ10602:イベント画像内にある第1動き領域を決定する。
DVSは、シナリオ内で動的に変化する部分しか捕捉せず、DVSは動的に変化するオブジェクトエッジに強く反応するので、端末は、イベント画像の反応に基づいてイベント画像内の動き領域を決定することができ、つまり、動的な変化が起きている領域を決定することができることが理解される。
イベント画像の捕捉中、DVSは静止していても動いていてもよい。DVSが静止している場合に、DVSによって捕捉されたイベント画像内のイベントは、現在のシナリオで動いているオブジェクトを含む。DVSが動いている場合に、現在のシナリオ内の静止オブジェクト及び動いているオブジェクトの両方がDVSに対して動いている。そのため、DVSによって捕捉されたイベント画像内のイベントには、現在のシナリオ内の静止オブジェクト及び動いているオブジェクトが含まれ得る。すなわち、異なる動作状態でDVSによって収集されたイベント画像の場合に、端末によってイベント画像内の動き領域を決定する方法は異なり得る。
可能な実施形態で、DVSが静止状態でイベント画像を捕捉する場合に、端末は最初に、イベント画像に対して二値化処理を実行してよく、具体的には、イベント応答があるイベント画像内のピクセルは1にセットされ、イベント応答がないイベント画像内のピクセルは0にセットされて、イベント画像に対応するバイナリ画像が取得される。次いで、端末は、バイナリ画像内で輪郭を検出する。輪郭によって囲まれた面積が設定閾値よりも広い場合に、端末は、輪郭によって囲まれた領域が動き領域であると決定し得る。設定閾値は、例えば、10ピクセル又は106ピクセルであってよい。すなわち、10ピクセル又は106ピクセルよりも多いピクセルが、輪郭によって囲まれた領域に存在する場合に、端末は、輪郭によって囲まれた領域が動き領域であると決定し得る。
端末によって取得されたイベント画像には特定のノイズが存在する場合があり、言い換えると、シナリオにおいて動きが現れていない領域もイベント画像内の対応するピクセルを有する場合があることが理解されるべきである。このようにして、イベント画像内の動き領域は、イベント画像内のノイズが可能な限り除去される得るように、閾値を前もってセットすることによって決定され、それによって、イベント画像内のノイズ領域を動き領域として決定することは回避される。
他の可能な実施形態で、DVSが動いている状態でイベント画像を収集する場合に、端末は、現在のイベント画像(つまり、減算の瞬間に捕捉されるイベント画像)とイベント画像の前のフレーム(つまり、前の瞬間に捕捉されたイベント画像)とを取得してよく、現在のイベント画像及びイベント画像の前のフレームのオプティカルフローを計算する。オプティカルフローは、隣接するフレーム内の各ピクセル間の相対位置の変位ベクトルを表す2Dベクトル場である。オプティカルフローが計算により取得された後、端末は、現在のイベント画像の全てのピクセルの変位ベクトルをトラバースしてよい。現在のピクセルの変位ベクトルが周囲のピクセルのそれと一貫性がないか、又は現在のピクセルの変位ベクトルが周囲のピクセルのそれと一貫性はあるが、変位の大きさの間の差が前もってセットされた閾値よりも大きい場合に、当該ピクセルは、動き領域に属しているとマークされ(例えば、ピクセルは、当該ピクセルが動き領域に属していることを示すよう1とマークされる)、そうでない場合には、ピクセルは、静止領域に属しているとマークされて(例えば、ピクセルは、当該ピクセルが静止領域に属していることを示すよう0とマークされる)、マーク付き画像が得られる(具体的に言えば、ピクセルが1又は0と夫々マークされているバイナリ画像が得られる)。前もってセットされた閾値は、例えば、5ピクセル又は10ピクセルであってよい。具体的に言えば、ピクセルの変位の大きさとそのピクセルの周囲ピクセルの変位の大きさとの間の差が5ピクセル又は10ピクセルよりも大きい場合に、当該ピクセルは、動き領域に属しているとマークされ得る。マーク付き画像を取得した後、端末は、動き領域に属しているとマークされている画像内のピクセルを検出して、それらのピクセルによって形成された輪郭を取得してよい。更に、端末は、輪郭によって囲まれた領域が第1動き領域であると決定してもよく、第1動き領域以外の領域は静止領域である。
ステップ10603:第1動き領域に基づいて、画像内にある対応する第2動き領域を決定する。
当該画像については、画像内の各ピクセルが、イベント画像内で対応するピクセルを有する。従って、端末は、イベント画像内の第1動き領域に基づいて、当該画像内にある、第1動き領域に対応する第2動き領域を決定し得る。第2動き領域に対応する環境情報は、第1動き領域に対応するそれと同じである。例えば、イベント画像は、屋内シナリオでDVSによって捕捉されたイベント画像であってよく、屋内シナリオには移動中の歩行者が存在し、具体的に言えば、イベント画像内の第1動き領域は、補償が位置している領域であり、イベント画像に対応する画像内の第2動き領域も、歩行者が位置している領域である。
例えば、端末によって、イベント画像内にある第1動き領域に対応する、当該画像内にあるピクセルをリザーブし、他のピクセルを除去することによって取得された領域が、当該画像内の第2動き領域である。
ステップ10604:当該画像内にある第2動き領域に基づいてポーズ推定を実行する。
この実施形態で、カメラが画像を捕捉する過程で、カメラは静止していても動いていてもよい。具体的に言えば、端末によって取得された画像は、静止状態にあるカメラによって収集された画像であっても、又は動いている状態にあるカメラによって収集された画像であってもよい。異なる動作状態でカメラによって収集された画像の場合に、端末が画像に基づいてポーズを決定する方法も異なり得る。
方法1:画像は、静止状態にあるカメラによって捕捉された画像である。
カメラが静止状態にあるとき、カメラは同じシナリオで複数の異なる画像を捕捉する。従って、シナリオ内の静止オブジェクトの場合に、オブジェクトに対するカメラのポーズは変わらず、言い換えると、オブジェクトに対するカメラの位置及び姿勢は変わらない。しかし、シナリオ内の動いているオブジェクトの場合に、オブジェクトに対するカメラのポーズは変化し、言い換えると、カメラの位置又は姿勢は変化する。例えば、カメラが屋内シナリオで環境情報を捕捉し、カメラが静止状態にある場合に、屋内の静止した柱に対しては、カメラのポーズは変わらず、屋内の動いている人物に対しては、カメラのポーズは変化する。
このように、静止オブジェクトに対するカメラのポーズは変化しないので、端末は、動いているオブジェクトに基づいてカメラのポーズを決定し得る。言い換えると、端末は、取得された画像内にある第2動き領域に基づいてカメラのポーズを決定することができ、画像内の静止領域に基づいてはカメラのポーズを決定する必要がない。
具体的に、画像がRGB画像である場合に、端末は、画像内にある第2動き領域の特徴点を抽出し、画像の前のフレーム内の特徴点との照合を行って、特徴点の複数のペアを取得し得る。代替的に、端末は、オプティカルフローに基づいて照合を行い、特徴点の複数のペアを取得してもよい。次いで、特徴点のペアごとに、端末は、静的なシナリオではVSLAMに従って姿勢推定を行うことができ、現在のフレームの動き領域内の非特徴点については、端末は補間によりポーズを計算する。
特徴点は、画像内でグレースケール値が急峻に変化する点、又は曲率が大きく、画像エッジにある点(つまり、2つのエッジの交差点)を指す。画像特徴点は、特徴点に基づいた画像マッチングアルゴリズムで非常に重要な役割を果たす、画像特徴点は、画像の本質的な特徴を反映することができ、画像内のターゲットオブジェクトを識別することができる。画像マッチングは、特徴点に基づいて完了することができる。
画像がデプス画像である場合に、ICPアルゴリズムが照合のために使用され、その場合に、姿勢推定は、静的なシナリオではVSLAM方法に従って一致点のペアごとに行われる。現在のフレームの動き領域の一致するピクセルがない場合に、ポーズは補間により計算される。上記のポーズ推定方法は、比較的に計算量が多い。任意の方法は、まずデプス画像の動き領域をサンプリングし(例えば、等間隔サンプリング又はキーポイント検出を行い)、サンプリング点の姿勢推定を行うことであり、非サンプリン点のポーズは、サンプリング点のポーズに対する補間により取得される。
方法2:画像は、動いている状態のカメラによって捕捉された画像である。
カメラが動いている状態にあるとき、カメラのポーズは、シナリオ内の静止オブジェクト及び動いているオブジェクトの両方に対して変化し、静止オブジェクトに対するカメラのポーズ変化は、動いているオブジェクトに対するカメラのポーズ変化とは異なる。例えば、カメラが屋内シナリオで環境情報を捕捉し、カメラが右方向移動状態にある場合に、屋内の静止した柱に対して、カメラのポーズは変化し、屋内で左に移動している人物に対しても、カメラのポーズは変化し、人物に対するカメラのポーズ変化は、柱に対するカメラのポーズ変化よりも大きい。
このように、端末は、シナリオ内の静止オブジェクト及び/又は動いているオブジェクトに基づいてカメラのポーズを決定することができ、具体的に言えば、端末は、取得された画像内にある第2動き領域及び/又は画像内にある静止領域に基づいてカメラのポーズを決定することができる。以下は、画像内にある異なる領域に基づいて端末がカメラのポーズを決定するプロセスについて記載する。
1.端末は、画像内にある静止領域に基づいてカメラのポーズを決定する。
図107は、本願の実施形態に従って、画像の静止領域に基づいてポーズ推定を行う略フローチャートである。図107に示されるように、端末は、イベント画像とデプス画像又はRGB画像とに基づいて画像の静止領域を検出してよい。具体的に、デプス画像又はRGB画像内にある動き領域を決定した後、端末は、デプス画像又はRGB画像内にある動き領域に対応するピクセルを除去し、残りの領域は、デプス画像又はRGB画像内にある静止領域である。次いで、端末は、静的なシナリオでVSLAM方法に従ってデプス画像又はRGB画像内の静止領域に対してポーズ推定を実行してよい。
2.端末は、画像内にある動き領域に基づいてカメラのポーズを決定する。
図108aは、本願の実施形態に従って、画像の動き領域に基づいてポーズ推定を行う略フローチャートである。図108aに示されるように端末は、イベント画像とデプス画像又はRGB画像とに基づいて画像の静止領域を検出してよい。具体的に、デプス画像又はRGB画像内にある動き領域を決定した後、端末は、デプス画像又はRGB画像内にある動き領域に対応するピクセルを除去し、残りの領域は、デプス画像又はRGB画像内にある動き領域である。次いで、端末は、静的なシナリオでVSLAM方法に従ってデプス画像又はRGB画像内の動き領域に対してポーズ推定を実行してよい。
3.端末は、画像内の動き領域及び静止領域に基づいてカメラのポーズを決定する。
図108bは、本願の実施形態に従って、画像の全体領域に基づいてポーズ推定を行う略フローチャートである。図108bに示されるように端末は、イベント画像とデプス画像又はRGB画像とに基づいて、画像内にある静止領域及び動的領域に対して検出を行って、検出により、デプス画像又はRGB画像内にある静止領域及び動的領域を別々に取得してよい。端末が画像の静止領域を検出するプロセスは、図107に対応する実施形態のプロセスと同様である。詳細については、図107に対応する実施形態を参照されたい。端末が画像の動き領域を検出するプロセスは、図108aに対応する実施形態のプロセスと同様である。詳細については、図108aに対応する実施形態を参照されたい。詳細はここで再び記載されない。次いで、端末は、静的なシナリオでVSLAM方法に従ってデプス画像又はRGB画像内にある静止領域及び動き領域に対してポーズ推定を別々に実行してよい。
更に、上記の適用シナリオに加えて、本願で提供される方法は、視線追跡又は検出及び認識などのシナリオのような他のより詳細なシナリオに更に適用されてもよい。視線追跡には、遠隔視線追跡、AR/VR近眼視線追跡、視線反応インタラクションなどが含まれ得る。検出及び認識には、移動ターゲットの位置決め、顔の検出及び認識、車内の検出及び認識、ジェスチャー認識、セキュリティシナリオにおける検出及び認識などが含まれ得る。例えば、より鮮明なイベント画像が取得された後、イベント画像に基づいて更なる処理が実行されもよく、視線追跡、視線応答、セキュリティシナリオにおける検出及び認識、並びに車内の検出及び認識などの適用シナリオが、より鮮明な画像に基づいて実行される。以下は、例えば、本願で提供される方法のいくつかのより詳細な適用シナリオについて記載する。
シナリオ1:視線追跡
最初に、ウェアラブルAR/VRメガネの場合に、カメラは目の近くにあり、カメラと目との間の距離は相対的に固定されており、それにより、目の動作情報は容易に捕捉され得る。DVSカメラは、より迅速に動的オブジェクトを追跡し、動き変化情報を出力することができ、従来のカメラと比較して視線追跡を容易にする。
視線追跡シナリオでは、AR/VRメガネは、DVSセンサ及び赤外線センサを使用することによって構成されてよく、AR/VRメガネの構造は図109に示され得る。1つ以上のDVSセンサが存在してもよい。例えば、1つのDVSセンサが各メガネフレームに配置される。赤外線光源を生成する1つ以上の赤外線光源も存在してよい。赤外線光源が角膜上に照射される場合に、フリッカー点、つまりプルキニエ像(Purkinje image)が、瞳孔に入る光の、角膜の外面での反射(corneal reflection,CR)により生成される。眼球は球と類似しているので、眼球への照射により発生したフリッカー点の位置は、基本的には、眼球の回転により変化しない。角膜曲率中心は、1つ以上のフリッカー点及び光源位置を使用することによって計算により取得され、眼球運動ビジョンのアンカーポイント位置情報座標として使用される。眼球運動の変化のリアルタイム追跡において、DVSセンサは4タプル情報[X,Y,t,e]を生成し、X及びYは位置情報であり、tは時間情報であり、eはイベント変化情報である。次いで、動き補償が、より鮮明なイベント画像を取得するよう、本願で提供される方法に従って、DVSによって出力された情報を使用することによって実行されてよい。次いで、水平平面及び垂直平面上の眼球の回転角度が、DVSとユーザの眼球との間の相対位置関係、眼球、虹彩、及び瞳孔の幾何学モデル、並びにイベント画像内のイベントのピクセル座標(x,y)に基づいて推定され、DVSカメラに対する人間の目の視線角度を計算することができる。イベント画像は、より鮮明なイベント画像を取得するよう、本願の上記の動き補償方法で最適化されてよい。その後に、DVSカメラとスクリーンとの間の相対関係(例えば、スクリーン上に双眼カメラが存在し、双眼カメラは、スクリーンに対する頭部の空間位置を位置決めすることができる)と、DVSに対する人間の目の視線角度とに基づいて、スクリーン上にある視点の位置が、視線追跡を実施するよう推定される。
他の視線追跡シナリオでは、DVSは、より正確な視線追跡を実施するようアイトラッカーとともに使用されてもよい。例えば、アイトラッカーは、1000Hz未満の周波数で視点を収集し、DVSは、1000Hzの間隔で視点を収集する。より高い時間精度を有する目のデータが、アイトラッカー及びDVSの両方によって取得された視点に基づいて取得される。
他の視線追跡シナリオでは、DVSセンサは、遠隔視線追跡のために更に使用されてもよい。例えば、図13に示されるように、DVSセンサは、携帯電話機及びタブレット端末デバイスにより視線追跡を実施するために使用されてよい。このようなデバイスの場合に、目とセンサとの間の距離は比較的に広く、その距離は可変であるから、図109でのシナリオのそれと類似した方法が、複数のセンサにより三次元座標系において角膜中心及び眼球運動中心を決定し、更には、スクリーンと相互作用するために使用されてよい。
視線応答シナリオでは、図110に示される構造は、視線を検知するよう更に構成されてよい。DVSが、スクリーンに対するユーザの注視時間がtよりも長いことを検知する場合に、対応する視線追跡動作制御が実行されてよく、例えば、注視を通じてスクリーンをオンし得る。制御デバイスは携帯電話機、タブレット、装着可能な時計、などであってよい。例えば、上記の図に示されているバイナリマスク画像は、イベントがある期間(例えば、1秒間)に起こるピクセル位置を1にセットし、イベントが起こらないピクセル位置を0にセットすることによって、取得される。
訓練フェーズ:ユーザが異なる角度から異なる距離でスクリーンを注視する場合に撮影されるバイナリマスク画像が収集され、人間の目の領域がマークされる。ユーザが異なる角度から異なる距離でスクリーンを注視しない場合に撮影されるバイナリマスク画像が収集され、人間の目の領域がマークされる。モデルを訓練するための収集されたデータに基づいて、モデルは、人間の目の領域を位置決めし、“注視”及び“非注視”の2つの状態を認識することができる。
テストフェーズ:モデルは、人間の目の領域を見つけ出して、ユーザが“注視”状態にあるかどうかを認識するために、現在のバイナリマスク画像に対して使用される。ユーザが“注視”状態にある場合に、注視時間が更に決定される。注視時間が1秒以上である場合に、スクリーンはオンされる。ユーザが“非注視”状態にある場合に、デバイスがスクリーンオフ状態にあることが確かにされる。
更に、注視期間が特定の持続時間(例えば、3秒)よりも長い場合には、ロック解除のための身元識別を実施するために、目の特徴が抽出され、それによって、携帯電話機の即時のロック解除が実装される。人間の目と画面との間の距離が特定の距離(例えば、30cmよりも広い)を超える場合に、ロック解除機能のための身元識別は無効にされ、ユーザが形態電話を使用する場合のセキュリティは確保される。
このシナリオでは、従来のカメラに基づいた視線追跡ソリューションと比較して、DVSに基づいた視線追跡ソリューションはより速く、消費電力がより少ない。更に、遠隔視線追跡又は視線インタラクティブ認識を実行する場合に、DVSセンサは、認識のために人間の顔の全ての特徴を収集する必要がなく、RGBデバイスよりもユーザプライバシーをより良く保護することができる。例えば、ユーザの注視を検知するために使用されるRGBデバイスと比較して、DVSセンサはユーザの目の変化を検知さえすればよく、電力消費は低い。
シナリオ2:セキュリティシナリオにおける検出及び認識
従来のアドバンストフォトシステム(APS)カメラは、動いているオブジェクトを見つけ、背景差分と同様の方法に基づいて、そのような部分の鍵となる情報を解析する。最も簡単な実施方法はフレーム差分アルゴリズムである。DVSは、単一ピクセルの輝度変化を検出することによって、動いているオブジェクトを捕捉することができ、フレーム差分アルゴリズムの効果とほぼ同じ効果があるが、遅延が低い。DVSカメラは、単一動作オブジェクトシナリオにおいて、例えば、レンズが固定されており、撮影背景が鮮明である監視シナリオにおいて、前景の動いているオブジェクトが位置している長方形領域/又はマスクを即時に見つけることができる。本願で提供される方法に従って、より鮮明なイベント画像を取得するよう、DVSによって捕捉され画像に対して動き補償を実行することができ、それにより、セキュリティシナリオにおける検出及び認識はより正確である。
例えば、DVSセンサを使用することによって動いているオブジェクトを検出するシナリオで、プロシージャは、動いているオブジェクトが画像に現れるか又は光がシナリオ内で変化する場合に、イベントイベントがDVSに対応する領域で生成されることを含んでよい。イベントイベントがある期間(例えば、1秒間)に起こるピクセルの位置は1にセットされ、イベントイベントが起こらないピクセルの位置は0にセットされて、マスク画像が得られる。より鮮明なイベント画像を取得するよう、本願で提供される方法に従って、マスク画像に対して動き補償が実行される。イベント画像上の接続された長方形ボックス領域がフィルタリングにより取得される。次いで、長方形ボックスのサイズが決定される。長方形ボックスの面積が閾値1よりも大きい場合に、DVSによって検出された動き領域は大きすぎ、検出及び認識は実行されない。これは、DVSによって検出された変化がシナリオ光変化であるものとして理解され得る。閾値2が長方形ボックス領域の面積よりも大きい場合に、長方形ボックスは、ノイズにより生成された動き領域、例えば、風が葉に吹いて、葉が揺れる場合に生成される動き領域、として理解され得る。閾値1>長方形ボックスの面積>閾値2である場合には、更なる検出及び認識が実行される必要があるかどうかを決定するために、オブジェクトが動いているオブジェクトであるかどうかが、動きの連続性に基づいて更に決定されてよい。
例えば、DVSセンサ及びRGBカメラを使用することによって動いているオブジェクトを検出及び認識する他のシナリオでは、プロシージャは、動いているオブジェクトが画像に現れるか又は光がシナリオ内で変化する場合に、イベントイベントがDVSに対応する領域で生成されることを含んでよい。より鮮明なイベント画像が、本願で提供される方法に従って取得される。更に、動いているオブジェクトを表す長方形ボックスがイベント画像内で決定される。長方形ボックス領域を係数(h×w×0.1)によって広げることによって、RGBカメラに対応するフレーム上の対応する長方形領域が、動作オブジェクト領域として見つけられる。既存のRGB画像ディープラーニングネットワークが、動作オブジェクト領域内のオブジェクトのカテゴリを認識するために使用される。
従って、このシナリオにおいて、DVSセンサは、高速で動いているオブジェクトに反応するので、DVSセンサは、動作イベントを即時に捕捉し、応答解析を実行することができる。DVSセンサの時間分解能は、APSのそれよりも高い。そのため、DVSセンサは、動いているオブジェクトを検出するために使用される場合に、レイテンシが低いという利点がある。更に、DVSセンサは、オブジェクトの動きに対する感度が高く、シナリオの光強度によってはそれほど影響されない。言い換えると、DVSセンサは、明るすぎる場合や暗すぎる場合に依然として、動いているオブジェクトに関する情報を認識することができる。
シナリオ3:車内の検出及び認識
一般に、車両の走行プロセスにおいて、動作検知カメラは、静止している又は動いている車両の輪郭、ナンバープレート情報、及び視野内の車線を捕捉することができる。このシナリオは主に3つのアプリケーション:動いているオブジェクトの検出、高速走行中のナンバープレート認識、及び車線検出を含む。具体的に、DVSセンサは、車両の外のオブジェクトを検出するために車両に配置されてよく、あるいは、セキュリティ監視を実行するために公共輸送上のカメラに配置されてもよい。
より具体的には、動いているオブジェクトの検出では、車内シナリオにおける動いているオブジェクト(車両又は歩行者)のリアルタイムのターゲット検出は、動的検知チップの動き感度及び低レイテンシに基づいて実施される。特に、高速動作シナリオ(動きのぼやけを回避するため)及び高ダイナミックレンジシナリオの場合に、動いているオブジェクトの検出は、ドライバが障害物回避判断を行うのを支援する。
高速走行中の標識及び車線認識の場合に、2つのシナリオ:ADAS及び交通監視がある。前者は、車外のターゲットを認識するために使用される車載ADASであり、簡単なテクスチャ及び少数の色(例えば、2色画像)しか必要としない。DVSは、高速走行中のナンバープレート及び道路標識の認識と、近くの車両の相対速度の測定とに特に適している。後者は、高速道路のスナップショット、駐車違反のスナップショット、及び赤信号走行のスナップショットを含む、固定シナリオでのDVS交通監視である。一般に、DVSは、車載ADASでより価値がある。交通監視では、DVSは、(テクスチャの欠如を補いために)他のセンサと協働する必要があり得る。
車線検出は、自動運転のための車線維持及び車線変更支援などの機能に使用され、DVSは、リアルタイムで車線を検出するために使用されてよい。
DVSの他の利点は、DVSの動的な特徴が上記のシナリオで終日利用可能であることであり、DVSは、バックライト及び夜間条件で検出及び認識を実行することができる。
自動運転ネットワーキングダイアグラムが図111に示され得る。ネットワーキングは、自動運転車(例えば、図111に示される自動運転車A、自動運転車B、及び自動運転車Cなど)及び集中管理装置を含んでよく、更には、監視カメラ又は他のデバイスを含んでもよい。集中管理装置は、道路上の車両の環境データを制御又は認識するよう構成されてよい。
このシナリオで、動いているオブジェクトの検出、車線検出、高速道路標識又はナンバープレート認識が実行されてよい。具体的に、より鮮明なイベント画像が、本願で提供される方法に従って取得され得る。
動いているオブジェクトの検出:車内シナリオにおける動いているオブジェクト(車両又は歩行者)のリアルタイムのターゲット検出は、動的検知チップの動き感度及び低レイテンシに基づいて実施される。特に、高速動作シナリオ(動きのぼやけを回避するため)及び高ダイナミックレンジシナリオの場合に、動いているオブジェクトの検出は、ドライバが障害物回避判断を行うのを支援する。
車線検出は、自動運転のための車線維持及び車線変更支援などの機能に使用され、DVSは、リアルタイムで車線を検出するために使用されてよい。
高速走行中の標識及び車線認識の場合に、2つのシナリオ:ADAS及び交通監視がある。前者は、車外のターゲットを認識するために使用される車載ADASであり、簡単なテクスチャ及び少数の色(例えば、2色画像)しか必要としない。DVSは、高速走行中のナンバープレート及び道路標識の認識と、近くの車両の相対速度の測定とに特に適している。後者は、高速道路のスナップショット、駐車違反のスナップショット、及び赤信号走行のスナップショットを含む、固定シナリオでのDVS交通監視である。一般に、DVSは、車載ADASでより価値がある。交通監視では、DVSは、(テクスチャの欠如を補いために)他のセンサと協働する必要があり得る。
このシナリオで、動いているオブジェクトは、DVSによって捕捉された画像に基づいて、より速く正確に認識され得る。特に、簡単なテクスチャを含む画像の場合に、認識はより正確であり、電力消費はより低い。DVSは光強度によって影響されないので、夜間運転又はトンネルなどのシナリオでの認識も正確である。
図95、図108a、及び図108bに対応する実施形態に基づいて、本願の実施形態の上記のシナリオをより良く実施するために、以下は、上記の解決法を実施するよう構成された関連するデバイスを提供する。詳細については、本願の実施形態に係るデータ処理装置の構造の模式図である図118を参照されたい。図118に示されるように、データ処理装置は、取得モジュール11801及び処理モジュール11802を含む。取得モジュール11801は、第1イベント画像及び第1RGB画像を取得するよう構成され、第1イベント画像は、時系列において第1RGB画像とアライメントされ、第1イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である。処理モジュール11802は、第1イベント画像の積分時間を決定するよう構成される。処理モジュール11802は、積分時間が第1閾値に満たない場合に、第1RGB画像がポーズ推定を実行するためのものではないことを決定するよう更に構成される。処理モジュール11802は、第1イベント画像に基づいてポーズ推定を実行するよう更に構成される。
可能な設計において、処理モジュール11802は、第1イベント画像の取得時間及び第1RGB画像の取得時間を決定し、第1RGB画像の取得時間と第1イベント画像の取得時間との間の時間差が第2閾値に満たない場合に、第1イベント画像が時系列において第1ターゲット画像とアライメントされていることを決定するよう更に構成される。
可能な設計において、取得モジュール11801は、N個の連続したDVSイベントを取得するよう更に構成される。処理モジュール11802は、N個の連続したDVSイベントを第1イベント画像に統合するよう更に構成される。処理モジュール11802は、N個の連続したDVSイベントの取得時間に基づき第1イベント画像の取得時間を決定するよう更に構成される。
可能な設計において、処理モジュール11802は、第1イベント画像に統合されるN個の連続したDVSイベントを決定するよう更に構成される。処理モジュール11802は、N個の連続したDVSイベントの中の最初のDVSイベントの取得時間及び最後のDVSイベントの取得時間に基づいて第1イベント画像の積分時間を決定するよう更に構成される。
可能な設計において、取得モジュール11801は、第2イベント画像を取得するよう更に構成される。処理モジュール11802は、時系列において第2イベント画像とアライメントされたRGB画像がない場合に、第2イベント画像がポーズ推定を一緒に行うためのRGB画像を有さないことを決定するよう更に構成される。処理モジュール11802は、第2イベント画像に基づいてポーズ推定を実行するよう更に構成される。
可能な設計において、処理モジュール11802は、時系列において第2イベント画像とアライメントされる慣性計測装置IMUデータがあると決定する場合に、第2イベント画像及び第2イベント画像に対応するIMUデータに基づきポーズを決定するか、又は時系列において第2イベント画像とアライメントされた慣性計測装置IMUデータがないと決定する場合に、第2イベント画像にのみ基づいてポーズを決定するよう更に構成される。
可能な設計において、取得モジュール11801は、第2RGB画像を取得するよう更に構成される。処理モジュール11802は、時系列において第2RGB画像とアライメントされたイベント画像がない場合に、第2RGB画像がポーズ推定を一緒に実行するためのイベント画像を有さないことを決定するよう更に構成される。処理モジュール11802は、第2RGB画像に基づいてポーズを決定するよう更に構成される。
可能な設計において、処理モジュール11802は、第1イベント画像及びディクショナリに基づいてループバック検出を実行するよう更に構成され、ディクショナリは、イベント画像に基づいて構成されたディクショナリである。
可能な設計において、取得モジュール11801は、複数のイベント画像を取得するよう更に構成され、複数のイベント画像は訓練用のイベント画像である。取得モジュール11801は、複数のイベント画像の視覚的特徴を取得するよう更に構成される。処理モジュール11802は、クラスタ化された視覚的特徴を取得するようクラスタ化アルゴリズムに基づいて視覚的特徴をクラスタ化するよう更に構成され、クラスタ化された視覚的特徴は対応する記述子を有する。処理モジュール11802は、クラスタ化された視覚的特徴に基づいてディクショナリを構成するよう更に構成される。
可能な設計において、処理モジュール11802は、第1イベント画像の記述子を決定し、ディクショナリの中で、第1イベント画像の記述子に対応する視覚的特徴を決定し、視覚的特徴に基づいて、第1イベント画像に対応するバグ・オブ・ワードベクトルを決定し、第1イベント画像に一致するイベント画像を決定するよう、第1イベント画像に対応するバグ・オブ・ワードベクトルと他のイベント画像のバグ・オブ・ワードベクトルとの間の類似度を決定するよう更に構成される。
詳細については、本願の実施形態に係るデータ処理装置の構造の模式図である図119を参照されたい。図119に示されるように、データ処理装置は、取得モジュール11901及び処理モジュール11902を含む。取得モジュール11901は、イベント画像を取得するよう構成される。処理モジュール11902は、イベント画像の第1情報を決定するよう構成され、第1情報はイベント画像内のイベント及び/又は特徴を含む。処理モジュール11902は、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像がキーフレームであることを決定するよう更に構成され、第1条件はイベントの数及び/又は特徴の数に関する。
可能な設計において、第1条件は、次の:イベント画像内のイベントの数が第1閾値よりも多いこと、1イベント画像内のイベント有効領域の数が第2閾値よりも多いこと、イベント画像内の特徴の数が第3閾値よりも多いこと、及びイベント画像内の特徴有効領域が第4閾値よりも多いこと、のうちの1つ以上を含む。
可能な設計において、取得モジュール11901は、時系列においてイベント画像とアライメントされたデプス画像を取得するよう更に構成される。処理モジュール11902は、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像及びデプス画像がキーフレームであることを決定するよう更に構成される。
可能な設計において、取得モジュール11901は、時系列においてイベント画像とアライメントされたRGB画像を取得するよう構成される。取得モジュール11901は、RGB画像の特徴の数及び/又は特徴有効領域の数を取得するよう構成される。処理モジュール11902は、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定し、かつ、RGB画像の特徴の数が第5閾値よりも多く、及び/又はRGB画像の特徴有効領域の数が第6閾値よりも多い場合に、イベント画像及びRGB画像がキーフレームであることを決定するよう更に構成される。
可能な設計において、処理モジュール11902は、第1情報に基づいて、イベント画像が少なくとも第1条件を満足すると決定する場合に、イベント画像の第2情報を決定すし、第2情報がイベント画像内の動き特徴及び/又はポーズ特徴を含み、第2情報に基づいて、イベント画像が少なくとも第2条件を満足すると決定する場合に、イベント画像がキーフレームであることを決定するよう更に構成され、第2条件は動き変化及び/又はポーズ変化に関する。
可能な設計において、処理モジュール11902は、イベント画像の鮮明度及び/又は輝度一貫性インジケータを決定するよう更に構成される。処理モジュール11902は、第2情報に基づいて、イベント画像が少なくとも第2条件を満足すると決定し、かつ、イベント画像の鮮明度が鮮明度閾値よりも大きく、及び/又はイベント画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、イベント画像がキーフレームであることを決定するよう更に構成される。
可能な設計において、処理モジュール11902は、イベント画像内のピクセルが光強度変化極性を表す場合に、イベント画像内のイベントの数と隣接キーフレーム内のイベントの数との間の差の絶対値を計算し、イベント画像内のピクセルの数で絶対値を除して、イベント画像の輝度一貫性インジケータを取得するか、又はイベント画像内のピクセルが光強度を表す場合に、イベント画像のピクセルの各グループと隣接キーフレームとの間の輝度減算を実行し、差の絶対値を計算し、ピクセルの各グループに対応する絶対値に対して和演算を実行し、取得された和結果をピクセルの数で除して、イベント画像の輝度一貫性インジケータを取得するよう更に構成される。
可能な設計において、取得モジュール11901は、時系列においてイベント画像とアライメントされたRGB画像を取得するよう構成される。処理モジュール11902は、RGB画像の鮮明度及び/又は輝度一貫性インジケータを決定するよう更に構成される。処理モジュール11902は、第2情報に基づいて、イベント画像が少なくとも第2条件を満足すると決定し、RGB画像の鮮明度が鮮明度閾値よりも大きく、及び/又はRGB画像の輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、イベント画像及びRGB画像がキーフレームであることを決定するよう更に構成される。
可能な設計において、第2条件は、イベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を超えること、イベント画像と前のキーフレームとの間の回転角度が前もってセットされた角度値を超えること、及びイベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を超え、イベント画像と前のキーフレームとの間の回転角度が前もってセットされた角度値を超えること、のうちの1つ以上を含む。
詳細については、本願の実施形態に係るデータ処理装置の構造の模式図である図120を参照されたい。図120に示されるように、データ処理装置は、取得モジュール12001及び処理モジュール12002を含む。取得モジュールは、第1イベント画像及び第1イベント画像に対応するターゲット画像を取得するよう構成され、第1イベント画像内で捕捉される環境情報は、ターゲット画像内で捕捉されるそれと同じであり、ターゲット画像はデプス画像又はRGB画像を含み、第1イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を示す画像である。処理モジュールは、第1イベント画像内にある第1動き領域を決定するよう構成される。処理モジュールは、第1動き領域に基づいて、画像内にある対応する第2動き領域を決定するよう更に構成される。処理モジュールは、画像内にある第2動き領域に基づいてポーズ推定を実行するよう更に構成される。
可能な設計において、取得モジュールは、第1イベント画像を捕捉するダイナミックビジョンセンサDVSが静止している場合に、イベント応答が存在する、第1イベント画像内にあるピクセルを取得するよう更に構成される。処理モジュールは、イベント応答が存在するピクセルに基づいて第1動き領域を決定するよう更に構成される。
可能な設計において、処理モジュールは、イベント応答が存在する、第1イベント画像内にあるピクセルによって形成される輪郭を決定し、輪郭によって囲まれた面積が第1閾値よりも大きい場合に、輪郭によって囲まれている領域が第1動き領域であることを決定するよう更に構成される。
可能な設計において、取得モジュールは、第1イベント画像を捕捉するDVSが動いている場合に、第2イベント画像を取得するよう更に構成され、第2イベント画像は、第1イベント画像のイベント画像の前のフレームである。処理モジュールは、第2イベント画像に対する第1イベント画像内のピクセルの変位の大きさ及び変位方向を計算するよう更に構成される。処理モジュールは、第1イベント画像内のピクセルの変位方向が周囲ピクセルの変位方向と異なるか、又は第1イベント画像内のピクセルの変位の大きさと周囲ピクセルの変位の大きさとの間の差が第2閾値よりも大きい場合に、ピクセルが第1動き領域に属することを決定するよう更に構成される。
可能な設計において、処理モジュールは、第1動き領域に基づいて、画像内にある対応する静止領域を決定し、画像にある静止領域に基づいてポーズを決定するよう更に構成される。
図121は、以下で記載されるように、本願に係る他の電子デバイスの構造の模式図である。
電子デバイスは、プロセッサ12101、メモリ12102、RGBセンサ12103、及びモーションセンサ12104を含み得る。プロセッサ12101、RGBセンサ12103、及びモーションセンサ12104は、ラインにより相互接続される。メモリ12102は、プログラム命令及びデータを記憶するよう構成される。RGBセンサ12103は、撮影を行い、収集されたアナログ信号を電気信号に変換するために使用される。モーションセンサ12104は、撮影範囲内の動いているオブジェクトをモニタするよう構成される。
メモリ12102は、図3-aから図108-bのステップに対応するプログラム命令及びデータを記憶している。
プロセッサ12101は、図3-aから図108-bの上記の実施形態のうちのいずれか1つに示される電子デバイスによって実行される方法ステップを実行するよう構成される。
RGBセンサ12103は、図3-aから図108-bの上記の実施形態のうちのいずれか1つで電子デバイスによって実行される画像撮影ステップを実行するよう構成される。
モーションセンサ12104は、図3-aから図108-bの上記の実施形態のうちのいずれか1つで電子デバイスによって実行される、動いているオブジェクトをモニタするステップを実行するよう構成される。
本願の実施形態は、コンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は、車両の移動速度を生成するために使用されるプログラムを記憶している。プログラムがコンピュータで実行されると、コンピュータは、図2から図18に示されている実施形態で記載される方法のステップを実行することができる。
任意に、図121に示されるデバイスはチップであってよい。
本願の実施形態は電子デバイスを更に提供する。電子デバイスは、デジタルプロセッシングチップ又はチップとも呼ばれ得る。チップは、プロセッシングユニット及び通信インターフェースを含む。プロセッシングユニットは、通信インターフェースを通じてプログラム命令を取得し、プログラム命令はプロセッシングユニットによって実行される。プロセッシングユニットは、図3-aから図108-bの上記の実施形態のうちの1つ以上に示される電子デバイスによって実行される方法ステップを実行するよう構成される。
本願の実施形態は、デジタルプロセッシングチップを更に提供する。デジタルプロセッシングチップは、上記のプロセッサ12101又はプロセッサ12101の機能を実装するよう構成される回路及び1つ以上のインターフェースを組み込む。メモリがデジタルプロセッシングチップに組み込まれている場合に、デジタルプロセッシングチップは、上記の実施形態のうちのいずれか1つ以上の実施形態の方法ステップを完了してよい。メモリがデジタルプロセッシングチップに組み込まれていない場合に、デジタルプロセッシングチップは、通信インターフェースを通じて外部メモリへ接続されてもよい。デジタルプロセッシングチップは、外部メモリに記憶されているプログラムコードに基づいて、上記の方法で電子デバイスによって実行される動作を実施する。
本願の実施形態は、コンピュータプログラム製品を更に提供する。コンピュータプログラム製品がコンピュータで実行されると、コンピュータは、図3-aから図108-bに示される実施形態で記載される方法で電子デバイスによって実行されるステップを実行することができる。
本願の実施形態で提供される電子デバイスはチップであってよい。チップは、プロセッシングユニット及び通信インターフェースを含む。プロセッシングユニットは、例えば、プロセッサであってよく、通信ユニットは、例えば、入出力インターフェース、ピン、回路などであってよい。プロセッシングユニットは、記憶ユニットに記憶されているコンピュータ実行可能命令を実行してよく、それにより、サーバ内のチップは、図3-aから図108-bに示される実施形態で記載される画像処理方法を実行する。任意に、記憶ユニットは、チップ内の記憶ユニット、例えば、レジスタ又はキャッシュであってよい。代替的に、記憶ユニットは、無線アクセスデバイスエンドに位置しチップ外にある記憶ユニット、例えば、リードオンリーメモリ(ROM)若しくは静的な情報及び命令を記憶することができる他のタイプの静的記憶デバイス、又はランダムアクセスメモリ(RAM)であってもよい。
具体的に、上記のプロセッシングユニット又はプロセッサは、中央演算処理装置(CPU)、ネットワークプロセッサ(NPU)、グラフィクス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のタイプのプログラム可能なロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェア部品、などであってよい。汎用プロセッサはマイクロプロセッサであってよく、又は任意の従来のプロセッサなであってもよい。
更に、上記の装置実施形態は単に例であることが留意されるべきである。別個の部分として記載されるユニットは、物理的に分離していてもいなくてもよく、ユニットとして表示されている部分は物理的ユニットであってもなくてもよく、つまり、1つの場所に位置してもよく、あるいは、複数のネットワークユニットに分散していてもよい。一部又は全ての方法は、実施形態の解決法の目的を達成するよう実際の要件に基づき選択されてよい。更に、本願で提供される装置実施形態の添付の図面において、モジュール間の接続関係は、モジュール間に通信接続が存在することを示し、具体的には、1つ以上の通信バス又は信号ケーブルとして実施されてよい。
上記の実施の記載に従って、当業者は、本願がソフトウェア及び必要な汎用ハードウェアを使用することによって実施されてもよく、あるいは、確かに、特定用途向け集積回路、専用CPU、専用メモリ、専用部品、などを含む専用ハードウェアを使用することによって実施されてもよいことを明りょうに理解し得る。一般に、コンピュータプログラムによって完了される全ての機能は、対応するハードウェアによって容易に実施することができる。更に、同じ機能を実施するために使用される具体的なハードウェア構造も様々であってよく、アナログ回路、デジタル回路、又は専用回路がある。しかし、本願では、ソフトウェアプログラム実施が、より多くの場合における実施である。そのような離解に基づいて、本願の技術的解決法は本質的に、又は従来技術に寄与する部分は、ソフトウェア製品の形で実施されてよい。コンピュータソフトウェア製品は、コンピュータのフロッピーディスク、USBフラッシュドライブ、リムーバブルハードディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、又は光ディスクなどの読み出し可能な記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワークデバイス、などであってよい)に、本願の実施形態で記載される方法を実行することを指示するいくつかの命令を含む。
上記の実施形態のうちの全て又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせにより実施されてよい。ソフトウェアが実施形態を実施するために使用される場合に、全て又は一部の実施形態は、コンピュータプログラム製品の形で実施されてよい。
コンピュータプログラム製品は、1つ以上のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータにロードされて実行されると、本願の実施形態に係るプロシージャ又は機能は全て又は部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラム可能な装置であってよい。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてよく、あるいは、コンピュータ可読記憶媒体から他のコンピュータ可読記憶媒体に伝送されてもよい。例えば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、又はデータセンターから他のウェブサイト、コンピュータ、サーバ、又はデータセンターへ有線(例えば、同軸ケーブル、光ファイバ、若しくはデジタル加入者回線(DSL))又は無線(例えば、赤外線、電波、若しくはマイクロ波)方式で伝送されてもよい。コンピュータ可読記憶媒体は、コンピュータ又は1つ以上の使用可能な媒体を組み込むサーバ若しくはデータセンターなどのデータ記憶デバイスによって記憶され得る任意の使用可能な媒体であってよい。使用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、又は磁気テープ)、光学媒体(例えば、DVD)、半導体媒体(例えば、ソリッドステートドライブ(solid-state drive,SSD))などであってよい。
本願の明細書、特許請求の範囲、及び添付の図面において、「第1」、「第2」、「第3」、「第4」などの用語は(存在する場合)、類似した物どうしを区別するよう意図されるが、必ずしも特定の順序又は順番を示すものではない。そのようにして呼ばれたデータは、ここで記載されている実施形態がここで例示又は記載されている順序とは別の順序で実施され得るように、適切な状況で入れ替えることができる。更に、「含む」や「包含する」という用語及び任意の他の変形は、非排他的な包含を網羅することを意味し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又はデバイスは、それらの明示的に挙げられているステップ又はユニットに必ずしも限られず、明示的に挙げられていないか、あるいは、そのようなプロセス、方法、製品、又はデバイスに内在している他のステップ又はユニットを含んでもよい。
最後に、上記の記載は単に本願の具体的な実施であるが、本願の保護範囲を制限する意図はないことが留意されるべきである。本願で開示されている技術的範囲内で当業者が容易に想到可能な如何なる変形又は置換も、本願の保護範囲に入るべきである。従って、本願の保護範囲は、特許請求の範囲の保護範囲に従うべきである。
可能な実施において、第1イベント表現方式は、光強度情報に基づきイベントを表現することである。ピクセルアレイ回路は複数のピクセルを含んでよく、各ピクセルは、光強度検出部、閾値比較部、読み出し制御部、及び光強度捕捉部を含んでよい。光強度検出部は、光強度検出部に照射された光信号に対応する電気信号を出力するよう構成され、電気信号は光強度を示す。閾値比較部は、電気信号に基づいて、光強度変化が所定の閾値を超えると決定する場合に、第1信号を出力するよう構成される。読み出し制御部は、第1信号の受信に応答して、第1信号の受信時に対応する電気信号を捕捉しバッファリングするように光強度捕捉部に指示するよう構成される。読み出し回路は、光強度捕捉部によってバッファリングされている電気信号を読み出すよう特に構成される。この実施において、第1イベント表現方式は、光強度情報に基づきイベントを表現することである。伝送データの量が帯域幅制限を超えない場合に、光強度情報は、イベントを表すために使用される。一般に、光強度情報は、複数のビット、例えば、8ビット乃至12ビットによって表される。極性情報と比較して、光強度情報はより多くの情報を運ぶことができ、これは、イベント処理及び解析を容易にし、例えば、画像再構築品質を改善する。
可能な実施において、第1復号化モードは、第1イベント表現方式に対応する第1ビットに基づいてデータ信号を復号することであり、第1イベント表現方式は、極性情報に基づいてイベントを表現することであり、極性情報は、光強度変化が強くなったか弱くなったかを示す。第2復号化モードは、第2イベント表現方式に対応する第2ビットに基づいてデータ信号を復号することであり、第2イベント表現方式は、光強度情報に基づいてイベントを表現することである。変更条件は、データ信号が第2復号化方法で復号される場合に、総データ量がプリセット帯域幅以下であることであるか、又は前もってセットされた変更条件は、データ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多くないことである。
可能な実施において、第1復号化モードは、第1イベント表現方式に対応する第1ビットに基づいてデータ信号を復号することであり、第1イベント表現方式は、極性情報に基づいてイベントを表現することであり、極性情報は、光強度変化が強くなったか弱くなったかを示す。第2復号化モードは、第2イベント表現方式に対応する第2ビットに基づいてデータ信号を復号することであり、第2イベント表現方式は、光強度情報に基づいてイベントを表現することである。変更条件は、データ信号が第2復号化方法で復号される場合に、総データ量がプリセット帯域幅以下であることであるか、又は前もってセットされた変更条件は、データ信号の数量が、データ信号のデータフォーマットの前もってセットされたビットである第1ビットに対するプリセット帯域幅の比よりも多くないことである。
可能な実施において、第3符号化部は、第1残余差分値が所定の閾値以上である場合に、第1プリセットビットに基づいて、第1残余差分値と所定の閾値との間の差である第2残余差分値を符号化し、第1プリセットビットに基づいて1回目に所定の閾値を符号化し、第1プリセットビットに基づいて2回目に所定の閾値を符号化するよう特に構成される。ビジョンセンサは特定の遅延を有することがあるので、光強度変化が所定の閾値よりも大きい場合が2回以上満足される場合にのみ、イベントは生成され得る。このようにして、差分値が所定の閾値以上であるという問題があり、光強度変化は所定の閾値に対して少なくとも2倍である。例えば、第1残余差分値は、所定の閾値よりも小さくないことがある。この場合に、第2残余差分値が符号化される。第2残余差分値が依然として所定の閾値よりも小さくない場合に、第3残余差分値が符号化されてもよく、第3残余差分値は、第2残余差分値と所定の閾値との間の差であり、所定の閾値は3回目に符号化されてよい。上記のプロセスは、残余差分値が所定の閾値よりも小さくなるまで繰り返される。
第17の態様に従って、本願は、動き情報を取得することであり、動き情報は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含む、ことと、動き情報に基づいてイベント画像を生成することであり、イベント画像は、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、ことと、第1再構築画像を取得するよう、イベント画像内にある各ピクセルに対応するカラータイプを、イベント画像に含まれる少なくとも1フレームに基づいて決定することとを含み、第1ピクセルのカラータイプは少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルは第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルは、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる、ことを含む。
第18の態様に従って、本願は画像処理装置を提供する。画像処理装置は、第17の態様又は第17の態様の可能な実施のうちのいずれか1つの方法を実施する機能を備える。機能は、ハードウェアによって実施されてよく、あるいは、ハードウェアが対応するソフトウェアを実行することによって実施されてよい。ハードウェア又はソフトウェアは、機能に対応する1つ以上のモジュールを含む。
可能な実施において、第2画像を取得するよう再撮影することは、第1イベント画像を複数の領域に分割し、第3画像を複数の領域に分割することであり、第3画像は、複数の第1画像の中で露出値が最小である第1画像であり、第1イベント画像に含まれる複数の領域の位置は、第3画像に含まれる複数の領域の位置に対応し、露出値は、露出時間、露出量、又は露出レベル、のうちの少なくとも1つを含む、ことと、第1イベント画像内の各領域が第1テクスチャ情報を含むかどうか、及び第3画像内の各領域が第2テクスチャ情報を含むかどうかを計算することと、第1イベント画像内の第1領域が第1テクスチャ情報を含み、第1領域に対応する、第3画像内の領域が第2テクスチャ情報を含まない場合に、露出パラメータに基づいて撮影して第2画像を取得することであり、第1領域は第1イベント画像内のいずれかの領域である、こととを更に含む。
従って、本願のこの実施においては、第1イベント画像内の領域がテクスチャ情報を含み、その領域に対応する、最小露出値を有するRGB画像内にある領域がテクスチャ情報を含まない場合に、それは、RGB画像内の領域のぼけ度合いが比較的に高いことを示し、RGB画像は再撮影され得る。第1イベント画像内の各領域がテクスチャ情報を含まない場合に、RGB画像は再撮影される必要がない。
ディスプレイ194は、画像、ビデオなどを表示するよう構成される。ディスプレイ194は表示パネルを含む。表示パネルは液晶ディスプレイ(liquid crystal display,LCD)、有機発光ダイオード(OLED)、アクティブマトリクス有機発光ダイオード(AMOLED)、フレキシブル発光ダイオード(FLED)、ミニLED、マイクロLED、マイクロOLED、量子ドット発光ダイオード(QLED)、などであってよい。いくつかの実施形態で、電子デバイス100は、1つ又はN個のディスプレイ194を含んでよく、ここで、Nは、1よりも大きい正の整数である。
データ収集:データは、脳型カメラ、RGBカメラ、又はそれらの組み合わせを介して収集され得る。脳型カメラは、シミュレーションビジョンセンサを含んでよく、集積回路を使用することによって生物学的網膜を模倣する。各ピクセルは、生体ニューロンを模倣し、イベントの形で光の強さの変化を表現する。開発後、複数の異なるタイプのバイオニックビジョンセンサが登場しており、上記のモーションセンサDVS又はDAVISなどのセンサの一般的な機能は、ピクセルアレイが独立して非同期に光強度の変化をモニタし、変化をイベント信号として出力することである。RGBカメラは、アナログ信号をデジタル信号に変更し、デジタル信号を記憶媒体に記憶する。代替的に、データは、脳型カメラとRGBカメラとの組み合わせにより収集されてもよい。例えば、脳型カメラ及びRGBカメラによって収集されたデータは、同じキャンバスに投影される。各ピクセルの値は、脳型カメラ及び/又はRGBカメラによってフィードバックされた値に基づいて決定されてよい。代替的に、各ピクセルの値は、独立したチャネルとして別々に使用される脳型カメラ及びRGBカメラの値を含んでもよい。光信号は、イベントの単位でイベントストリームを又はフレームの単位でデータストリームを取得するよう、脳型カメラ、RGBカメラ、又はそれらの組み合わせにより電気信号に変更されてよい。本願では、RGBカメラによって収集された画像はRGB画像と呼ばれ、脳型カメラによって収集されたデータはイベント画像と呼ばれる。
読み出し回路220は、制御回路230から受信されたモード切替信号に基づいて、第1読み出しモードから第2読み出しモードに切り替わる。更に、読み出し回路220は、第2読み出しモードで、ピクセルアレイ回路210によって生成された少なくとも1つのデータ信号を読み出す。制御回路230は、次いで、ピクセルアレイ回路220によって生成された光強度変化イベントの過去の統計値を引き続き収集し、切り替え条件が満足されると、モード切替信号を送信して、読み出し回路220が第2読み出しモードから第1読み出しモードに切り替わることができるようにし得る。
本願の可能な実施形態で提供される方法に従って、制御回路は、読み出し及びパーシングプロセス全体で、ピクセルアレイ回路で生成された光強度変化イベントに対する過去の統計値の収集及び実時間の解析を連続的に実行し、切り替え条件が満足されるとモード切替信号を送信して、読み出し回路が現在の読み出しモードからより適切な代替の読み出しモードへ切り替わるようにする。適応的な切り替えプロセスは、全てのデータ信号が読み出されるまで繰り返される。
上記の実施形態の代替の実施で、パーシング回路704は、上記の式(2)に従って、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量Bev・Nev以上であるかどうかを決定してもよい。同様に、第1読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fが、第2読み出しモードでの光強度変化イベントの総データ量Bev・Nev以上である場合に、パーシング回路704は、読み出し回路720がイベントストリームに基づいた読み出しモードに切り替わっていると決定し、それに応じて、フレームスキャンに基づいたパーシングモードからイベントストリームに基づいたパーシングモードへ切り替わる。
いくつかの実施形態で、第1読み出しモードはイベントストリームに基づいた読み出しモードであり、第2読み出しモードはフレームスキャンに基づいた読み出しモードである。この実施形態で、パーシング回路704は最初に、第1読み出しモードに対応する、イベントストリームに基づいているパーシングモードで、読み出し回路720から取得されたデータ信号をパースする。上述されたように、パーシング回路704は、読み出し回路720によって供給された第1データ信号の数に基づいて、ピクセルアレイ回路710によって生成された光強度変化イベントの数Nevを直接決定することができる。パーシング回路704は、イベントストリームに基づいた読み出しモードに関連した数Nev及びイベントデータ量Bevに基づいて、第1読み出しモードで読み出し回路720によって読み出されるイベントのデータの総量Bev・Nevを決定し得る。同様に、パーシング回路704は更に、ピクセルアレイ回路のピクセルの数M、フレームレートf、及びピクセルデータ量Bpに基づいて、第2読み出しモードで読み出し回路720によって読み出される、光強度変化イベントのデータの総量M・Bp・fを決定し得る。次いで、パーシング回路704は、例えば、上記の式(3)に従って、第1読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上であるかどうかを決定してもよい。同様に、第1読み出しモードで読み出される、光強度変化イベントのデータの総量Bev・Nevが、第2読み出しモードでの光強度変化イベントの総データ量M・Bp・f以上であると決定する場合に、パーシング回路704は、読み出し回路720がフレームスキャンに基づいた読み出しモードに切り替わっていると決定し、それに応じて、イベントストリームに基づいたパーシングモードからフレームスキャンに基づいたパーシングモードへ切り替わる。
制御回路906は、読み出し回路905へ結合され、ピクセル回路900によって生成されたデータ信号を特定のイベント表現方式で読み出すように読み出し回路905を制御するよう構成される。いくつかの可能な実施形態で、制御回路906は、少なくとも1つのデータ信号を読み出し回路905から取得し、少なくとも1つのデータ信号に基づいて、現在のイベント表現方式及び代替のイベント表現方式のうちのどちらの一方が現在の適用シナリオ及び動き状態により適しているかを決定してよい。更に、いくつかの実施形態で、制御回路906は、その決定に基づいて、現在のイベント表現方式から他のイベント表現方式へ切り替わることを読み出し回路905に指示してもよい。
いくつかの実施において、現在の制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すように読み出し回路905を制御すると、つまり、イベントは光強度情報に基づいて表されるとすれば、読み出し回路905は、光強度変化イベントの数Nev及びデータフォーマットのビット幅Hに基づいて、光強度変化イベントの総データ量Nev×Hを決定し得る。イベントストリームに基づいた読み出しモードが使用される場合に、データフォーマットのビット幅は、H=bx+by+bt+baであり、ba個のビットは、データ信号によって指示される光強度情報を示し、通常は複数のビット、例えば8ビットから12ビットである。いくつかの実施形態で、あるイベント表現方式でのデータ量と帯域幅Kとの間の関係は、変更パラメータを使用することによって調整されてもよい。次の式(13)に示されるように、光強度情報に基づいて表されるイベントの総データ量Nev×Hは、帯域幅よりも多い。この場合に、読み出し回路905は、閾値比較部902によって出力されたデータを読み出す必要があり、つまり、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。
Nev×H>β×K (13)
Nev×H>β×K (13)
βは、調整のための変更パラメータである。上記の式(13)からは、光強度変化イベントの総データ量Nev×Hが閾データ量β×Kよりも多い場合に、それは、光強度情報に基づいて表される光強度変化イベントの総データ量が帯域幅以上であることを示し、制御回路906は、光強度変化イベントの統計データが所定の変更条件を満足すると決定し得ることが分かる。いくつかの可能な適用シナリオは、多数のイベントがある期間にピクセル収集回路によって生成される場合、又はイベントがある期間に比較的に高いレートでピクセル収集回路によって生成される場合を含む。これらの場合に、イベントが引き続き光強度情報に基づいて表される場合に、イベント喪失が起こる可能性がある。従って、イベントは極性情報に表現され得、これにより、データ伝送に対する負担は軽減され、データ損失は低減される。
いくつかの実施において、読み出し回路905によって制御回路906に供給されるデータは、単位時間にピクセルアレイ回路によって測定されたイベントの数Nevである。いくつかの可能な実施形態で、現在の制御回路906は、閾値比較部902によって出力されたデータを読み出すよう読み出し回路905を制御すると、つまり、イベントが極性情報に基づいて表されるとすれば、制御回路は、光強度変化イベントの数NevとαK/Hとの間の関係を決定し、所定の変更条件が満足されるかどうかを決定し得る。NevがαK/H以下である場合に、読み出し回路905は、光強度捕捉部904にバッファリングされている電気信号を読み出す必要があり、つまり、イベント表現方式は、光強度情報に基づいてイベントを表すことに変更される。このようにして、極性情報に基づいたイベントの目下の表現は、光強度情報に基づいたイベントの表現に変更される。例えば、上記の実施形態で、次の式(14)が、式(12)に基づいて更に取得されてもよい:
Nev≦αK/H (14)
Nev≦αK/H (14)
いくつかの実施において、現在の制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すよう読み出し回路905を制御すると、つまり、イベントが光強度情報に基づいて表されるとすれば、制御回路906は、光強度変化イベントの数NevとβK/Hとの間の関係に基づいて、所定の変更条件が満足されるかどうかを決定し得る。NevがβK/Hよりも多い場合に、読み出し回路905は、閾値比較部902から出力された信号を読み出す必要があり、つまり、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。このようにして、光強度情報に基づいたイベントの目下の表現は、極性情報に基づいたイベントの表現に変更される。例えば、上記の実施形態で、次の式(15)が、式(13)に基づいて更に取得されてもよい:
Nev>βK/H (15)
Nev>βK/H (15)
いくつかの実施において、現在の制御回路906は、光強度捕捉部904によってバッファリングされた電気信号を読み出すように読み出し回路905を制御すると、つまり、イベントは光強度情報に基づいて表されるとすれば、読み出し回路905は、光強度変化イベントの数Nev及びデータフォーマットのビット幅Hに基づいて、光強度変化イベントの総データ量M×Hを決定し得る。いくつかの実施形態で、あるイベント表現方式でのデータ量と帯域幅Kとの間の関係は、変更パラメータを使用することによって調整されてもよい。次の式(17)に示されるように、光強度情報に基づいて表されるイベントの総データ量M×Hは、帯域幅よりも多い。この場合に、読み出し回路905は、閾値比較部902によって出力されたデータを読み出す必要があり、つまり、イベント表現方式は、極性情報に基づいてイベントを表すことに変更される。
M×H>β×K (17)
M×H>β×K (17)
いくつかの可能な実施形態で、制御回路は、1つ以上の事前設定された統計モデル111を使用することによって、ピクセルアレイ回路によってある期間に生成されて読み出し回路905によって供給された光強度変化イベントに対して過去の統計値の収集を実行してよい。統計モデル111は次いで、統計データをポリシーモジュール112へ伝送してよい。上述されたように、統計データは、光強度変化イベントの数を示してよく、あるいは、光強度変化イベントの総データ量を示してよい。任意の適切な統計モデル又は統計アルゴリズムが、本願の可能な実施形態に適用されてよく、本願の範囲は、この点に関して制限されない。ことが理解されるべきである。
いくつかの実施形態で、ユーザは更に、イベント表現方式の選択をカスタマイズすることを許可され得る。図17は、本願の実施形態に係る他の制御回路のブロック図1500のブロック図である。固定信号は、固定されたイベント表現方式でデータ信号を読み出すことを読み出し回路に指示し、例えば、閾値比較部によって出力された信号(極性情報に基づいて表されるイベント)を読み出すこと、又は光強度捕捉部によってバッファリングされた信号(光強度情報に基づいて表されるイベント)を読み出すことを読み出し回路に指示する。セレクタ1503は、固定信号と、コンパレータ1502によって出力された信号とを受信するよう構成される。固定信号を受信する場合に、セレクタ1503は、固定信号の指示に基づいて読み出し回路を制御する。セレクタ1503が固定信号を受信しない場合に、セレクタ1503は、コンパレータ1502によって出力された変更信号に基づいて読み出し回路を制御する。カウンタ1501については、理解のために、図16のカウンタ1401を参照されたい。コンパレータ1502については、理解のために、図16のコンパレータ1402を参照されたい。読み出し回路1503については、理解のために、図16の読み出し回路1403を参照されたい。
閾値比較部1902は、第1電気信号が第1目標閾値よりも大きいかどうか、又は第1電気信号が第2目標閾値よりも小さいかどうかを決定するよう構成される。第1電気信号が第1目標閾値よりも大きいか、又は第1電気信号が第2目標閾値よりも小さい場合に、閾値比較部1902は第1データ信号を出力し、第1データ信号は、ピクセルに光強度変更イベントがあることを示す。閾値比較部1902は、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が所定の閾値を超えるかどうかを比較するよう構成され、これは式1-1を参照して理解され得る。第1目標閾値は、第1所定閾値と第2電気信号との和として理解することができ、第2目標閾値は、第2所定閾値と第2電気信号との和として理解することができる。第2電気信号は、前のイベントが起きたときに光強度検出部1901によって出力された電気信号である。本願の実施形態の閾値比較部は、ハードウェアによって実施されてよく、又はソフトウェアによって実施されてよい。これは本願の実施形態で制限されない。
読み出し回路1905は、対応するピクセルで生成されたデータ信号を読み出すために所定の順序でピクセルアレイ回路内のピクセルをスキャンするよう構成されてよい。いくつかの可能な実施形態で、読み出し回路1905については、理解のために、読み出し回路220、読み出し回路320、及び読み出し回路720を参照されたい。具体的に言えば、読み出し回路1905は、ピクセル回路によって出力されたデータ信号を1つよりも多い信号読み出しモードで読み出すことができるよう構成される。例えば、読み出し回路1905は、第1読み出しモード及び第2読み出しモードのうちの一方で読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは、他方のモードに対応する。いくつかの可能な実施形態で、読み出し回路1905はまた、ただ1つの信号読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出してもよい。例えば、読み出し回路1905は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路1905は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。
読み出し回路1905は、ある期間に読み出されたデータ信号を制御回路1906に供給してよく、それにより、制御回路1906は推論を実行し、ビット幅を使用することによってイベントを符号化することを第1符号化部1907に指示する。いくつかの可能な実施形態で、制御回路1906は、読み出し回路1905から少なくとも1つのデータ信号を取得し、少なくとも1つのデータ信号に基づいて、第1符号化部1907によって現在使用されている符号化スキームが現在の適用シナリオ及び動き状態に適しているかどうかを決定し、次いで、第1符号化部1907の符号化スキームを調整してよい。いくつかの可能な実施において、第1符号化部1907は、読み出し回路を介した相互作用を実行するのではなく、制御回路1906と直接相互作用してもよい。例えば、第1符号化部は、符号化されたデータ信号を制御回路1906へ送信し、制御回路1906は、受信した符号化されたデータ信号に基づいて、第1符号化部1907によって現在使用されている符号化スキームが現在の適用シナリオ及び動き状態に適しているかどうかを決定し、第1符号化部1907の符号化スキームを更に調整する。
3秒目:現在のビット幅に基づいて最初に計算されるイベント発生率、つまり、9ビットに基づいて計算されるイベント発生率は400×9pbsであり、3000ビットよりも多く、帯域幅制限を超える。8ビットに基づいて計算されるイベント発生率は400×8pbsであり、3000ビットよりも多く、依然として帯域幅制限を超える。7ビットに基づいて計算されるイベント発生率は400×7=2800pbsである。従って、最適なビット幅は7ビットであると決定される。この場合に、制御回路は、7ビットを使用することによってイベントを符号化するよう第1符号化部を制御する。更に、イベントの数400(32ビット)及びビット幅のサイズ7(4ビット)も伝送されるべきである。その場合に、400個のイベントが伝送され、各イベントは7ビットに基づいて符号化され、32+4+400×7=2836ビットが全部で伝送される必要があり、言い換えると、イベント発生率は2836bpsである。
いくつかの可能な実施形態で、異なる符号化スキームがピクセルアレイ回路の異なる領域で使用される場合に、領域ごとに、データ信号は、領域に対応し光強度の特徴情報を表すビット幅を使用することによって、パースされる。例は上記の図24でのたられており、以下は、引き続きその例を参照して記載する。領域Aについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が50であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが2であることを知る。次いで、パーシング回路は、順次、イベントごとに2ビットに基づいて、パーシングを通じて50個のイベントを取得する。領域Bについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が80であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが3であることを知る。次いで、パーシング回路は、順次、イベントごとに3ビットに基づいて、パーシングを通じて80個のイベントを取得する。領域Cについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が60であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが1であることを知る。次いで、パーシング回路は、順次、イベントごとに1ビットに基づいて、パーシングを通じて60個のイベントを取得する。領域Dについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が90であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが6であることを知る。次いで、パーシング回路は、順次、イベントごとに6ビットに基づいて、パーシングを通じて90個のイベントを取得する。領域Eについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が100であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが11であることを知る。次いで、パーシング回路は、順次、イベントごとに11ビットに基づいて、パーシングを通じて100個のイベントを取得する。領域Fについては、パーシング回路は、32ビットを読み出して、パーシングを通じて、イベントの数が80であることを知り、次いで4ビットを読み出して、パーシングを通じて、ビット幅のサイズが6であることを知る。次いで、パーシング回路は、順次、イベントごとに6ビットに基づいて、パーシングを通じて80個のイベントを取得する。
可能な実施において、パーシング回路2402は、ビジョンセンサチップ2400の制御ポリシーと同じ制御ポリシーを使用することによって、読み出し回路の現在のイベント表現方式に適応したパーシングモードを決定し得る。一例では、イベントがビジョンセンサチップ2400の初期状態でR個のビットによって表される場合に、パーシング回路は、それに応じて、当該表現方式に関連するビットの数(例えば、初期状態でR)に基づいてイベントをパースする。ビジョンセンサが、伝送される必要があるデータの量と、ビジョンセンサの前もってセットされた最大帯域幅とに基づいて、イベント表現方式を調整する場合には、パーシング回路2402は、ビジョンセンサの調整ポリシーと同じ調整ポリシーに従って、関連するビットの数に基づいてイベントをパースすると決定する。
いくつかの可能な実施形態で、ビジョンセンサは制御回路を更に含んでもよい。図29-cは、本願の実施形態に係る他のビジョンセンサのブロック図である。図29-cに示されるように、ビジョンセンサ2900は制御回路2704を更に含む。制御回路2704は、データ信号を読み出すよう読み出し回路2702を制御するモードにあるよう構成されてよい。例えば、読み出し回路2702は、第1読み出しモード及び第2読み出しモードの一方で読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードの一方に対応し、第2読み出しモードは他方のモードに対応する。制御回路2704はビジョンセンサ内に配置されなくてもよいことが留意されるべきである。更に、いくつかの他の実施形態で、読み出し回路2702は、代替的に、ただ1つの信号読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出してもよい。例えば、読み出し回路2702は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路2702は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。
読み出し回路3005は、対応するピクセルで生成されたデータ信号を読み出すよう所定の順序でピクセルアレイ回路内のピクセルをスキャンするよう構成されてよい。いくつかの可能な実施形態で、読み出し回路3005については、理解のために、読み出し回路220、読み出し回路320、及び読み出し回路720を参照されたい。具体的に言えば、読み出し回路3005は、1よりも多い信号読み出しモードで、ピクセル回路によって出力されたデータ信号を読み出すことができるよう構成される。例えば、読み出し回路3005は、第1読み出しモード及び第2読み出しモードのうちの1つで読み出しを実行してよく、第1読み出しモードは、フレームスキャンに基づいた読み出しモード及びイベントストリームに基づいた読み出しモードのうちの一方に対応し、第2読み出しモードは他方のモードに対応する。いくつかの可能な実施形態で、読み出し回路3005は、フレームスキャンに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。代替的に、読み出し回路3005は、イベントストリームに基づいた読み出しモードのみで、ピクセル回路によって出力されたデータ信号を読み出すよう構成される。
モーションセンサがDVSであることが一例として使用される。イベント生成方法が図35に示され得る。DVSは、動きの変化に応答して、イベントを生成する。イベントは静的な領域では励起されないので、ほとんどのイベントは、動いているオブジェクトが存在している領域で生成される。一般に、現在の光強度と、前のイベントが生成されたときに使用されていた光強度との間の差が閾値を超える場合に、DVSは、図35に示されるイベントN1、N2、又はN3などのイベントを生成し、イベントの生成は、光強度の相対変化にのみ関係がある。各イベントは<x,y,y,f>として表されてよく、(x,y)は、イベントが生成されるピクセル位置を表し、tは、イベントが生成される時間を表し、fは、光強度の特徴情報を表す。いくつかのDVSセンサ(DAVISセンサ及びATISセンサなど)では、fは、光強度の変化の傾向を表し、極性とも呼ばれることがあり、一般に1ビットに基づいて表される。値はON/OFFであってよく、ONは、光強度が増強されることを示し、offsetは、光強度が低減されることを示す。CeleXセンサなどのいくつかのDVSセンサが動いているオブジェクトをモニタするシナリオでは、fは絶対光強度を示し、通常は複数のビットによって表される。例えば、9ビットが、0から511の範囲内の光強度値を示す。
イベント画像の反復的な更新が完了していない場合には、各更新が完了した後、更新されたイベント画像は、最適化モデルの入力として使用されてもよく、最適化モデルの最適値は、前もってセットされた反復存続期間最適化アルゴリズムを使用することによって計算され、動きパラメータは最適値に基づいて更新される。
可能な実施において、取得モジュール11301は、慣性計測装置IMUセンサによって収集されたデータを取得し、IMUセンサによって収集されたデータに基づいて計算により動きパラメータを取得するよう特に構成される。
イベント画像は、上記の画像の少なくとも1フレームの中の画像の任意のフレームであってよく、又は画像の少なくとも1フレームから選択された画像の1フレームであってよい。例えば、ある期間にDVSによって収集された情報は、イベント画像の複数のフレームに変換されてよい。イベント画像の1フレームは、再構築された画像の1フレームを取得するために、カラー再構築を実行するようイベント画像の複数のフレームからランダムに選択されてよい。代替的に、1つのフレーム(例えば、最初のフレーム、5番目のフレーム、又は最後のフレーム)が、再構築された画像の1フレームを取得するために、カラー再構築を実行するようイベント画像の複数のフレームから選択されてよい。代替的に、イベント画像又は全てのイベント画像の複数のフレームは、再構築された画像の複数のフレームを取得するために、カラー再構築を実行するようイベント画像の複数のフレームから選択されてよい。
本願は、画像処理装置を更に提供する。図114を参照されたい。画像処理装置は、図45から図51に対応する上記の方法プロシージャのステップを実行するよう構成されてよい。画像処理装置は:
動き情報を取得するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含まれる、取得モジュール11401と、
動き情報に基づいてイベント画像を生成するよう構成され、イベント画像が、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、処理モジュール11402と
を含んでよく、
処理モジュール11402は、第1再構築画像を取得するよう、イベント画像内にある各ピクセルに対応するカラータイプを、イベント画像に含まれる少なくとも1つのイベントに基づいて決定するよう更に構成され、
第1ピクセルのカラータイプは少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルは第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルは、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる。
動き情報を取得するよう構成され、動き情報には、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡に関する情報を含まれる、取得モジュール11401と、
動き情報に基づいてイベント画像を生成するよう構成され、イベント画像が、ターゲットオブジェクトが検出範囲内で動くときに生成されるターゲットオブジェクトの運動軌跡を表す画像である、処理モジュール11402と
を含んでよく、
処理モジュール11402は、第1再構築画像を取得するよう、イベント画像内にある各ピクセルに対応するカラータイプを、イベント画像に含まれる少なくとも1つのイベントに基づいて決定するよう更に構成され、
第1ピクセルのカラータイプは少なくとも1つの第2ピクセルのそれとは異なり、第1ピクセルは第1再構築画像内の少なくとも1つのイベントのいずれか1つに対応するピクセルであり、少なくとも1つの第2ピクセルは、第1再構築画像内にありかつ第1ピクセルに隣接する複数のピクセルの中に含まれる。
本願で提供される画像処理方法は、より鮮明な画像を撮影したり、又は撮影した画像をより鮮明にしたりするために、撮影シナリオ及び監視シナリオなどの様々なシナリオに適用されてよい。例えば、あるシナリオでは、ユーザは、端末を使用して1つ以上のより鮮明な画像を取得したり、又は複数の画像を撮影した後に、複数の画像を1つのより鮮明な画像に結合したりすることによって、撮影を行うことがある。本願で提供される画像処理方法は、複数の実施を含む。例えば、実施1では、1つ以上の画像が撮影プロセスで撮影されてよく、例えば、動いているオブジェクトが、モーションセンサによって収集された情報を参照して撮影される。実施2では、複数の画像が撮影され、それから、複数の画像は、より高精細な画像を生成するよう結合される。実施2では、複数の画像を撮影するプロセスについて、実施1の画像撮影方法を参照されたい。具体的に言えば、本願で提供される実施1及び実施2は別々に実施されてよく、又は一緒に実施されてもよい。これは、実際の適用シナリオに基づいて特に調整されてよい。本願は、実施1及び実施2が別々に実施される場合について記載する。制限は課されない。
例えば、図69Aに示されるように、カメラによって撮影されたターゲットオブジェクトが不完全である場合に、ターゲットオブジェクトの予測領域の面積は小さくなり、つまり、焦点領域6901は小さく、車両の面積よりも小さい。その結果、後に撮影される車両の画像は不鮮明になる。しかし、図69Bに示されるように、車両本体が撮影範囲に完全に入る場合に、面積が要件を満足する予測領域、つまり、焦点領域6902が取得され得、それにより、車両の完全かつ鮮明な画像が、図69Cに示されるように、焦点領域6902に基づき撮影される。
例えば、図70に示されるように、ターゲットオブジェクトは、低速で動いている歩行者であってよい。この場合に、ターゲットオブジェクトの運動速度は遅く、ターゲットオブジェクトの現在の領域は、焦点領域7001として直接使用されてもよく、次いで、焦点領域7001は、より鮮明な画像を取得するよう、焦点を合わせられる。
可能な実施において、RGB画像が再撮影される必要があるかどうかを決定する方法は、第1イベント画像を複数の領域に分割し、相応して、複数のRGB画像の中で露出値が最も小さいRGB画像(又は第3画像と呼ばれる)を複数の領域に分割することを更に含んでもよい。第1イベント画像内の複数の領域の形状及び位置は、RGB画像内の複数の領域の形状及び位置に対応する。例えば、第1イベント画像が16個の長方形領域に分割される場合に、露出値が最も小さいRGB画像は、形状、サイズ及び位置が第1イベント画像内の領域のそれらと同じである16個の長方形領域に分割されてよい。露出値は、露光時間、露出量、又は露出レベルのうちの1つ以上を含んでよい。次いで、第1イベント画像内の各領域がテクスチャ情報(又は第1テクスチャ情報と呼ばれる)を含むかどうかが計算され、露出値が最も小さいRGB画像内の各領域がテクスチャ情報を含むかどうかが計算される。次いで、第1イベント画像内の各領域は、露出値が最も小さいRGB画像内の各領域と比較される。第1イベント画像内のある領域がテクスチャ情報を含み、露出値が最も小さいRGB内にあり、当該領域と同じである領域がテクスチャ情報を含まない場合に、それは、RGB画像内のこの領域が非常にぼやけており、RGB画像は再撮影される可能性があることを示す。第1イベント画像内の各領域がテクスチャ情報を含まない場合に、RGB画像は再撮影される必要がない。
他の例として、ここで露出パラメータを計算する方法については、上記の実施で露出パラメータを調整する方法、例えば、ステップ5604、ステップ6304、図60、又は図62に対応する上記の実施形態で述べられた露出調整方法を参照されたい。
可能な実施において、取得モジュール11601は具体的に、第1イベント画像を複数の領域に分割し、第3画像を複数の領域に分割し、第3画像は、複数の第1画像の中で露出値が最も小さい第1画像であり、第1イベント画像に含まれる複数の領域の位置は、第3画像に含まれる複数の領域の位置に対応し、露出値は、露光時間、露出量、又は露出レベルのうちの少なくとも1つを含み、
第1イベント画像内の各領域が第1テクスチャ情報を含むかどうかと、第3画像内の各領域が第2テクスチャ情報を含むかどうかとを計算し、
第1イベント画像内の第1領域が第1テクスチャ情報を含み、第1領域に対応する第3画像内の領域が第2テクスチャ情報を含まない場合に、露出パラメータに基づいて撮影を実行して第2画像を取得し、第1領域は第1イベント画像内の任意の領域である、
よう構成される。
第1イベント画像内の各領域が第1テクスチャ情報を含むかどうかと、第3画像内の各領域が第2テクスチャ情報を含むかどうかとを計算し、
第1イベント画像内の第1領域が第1テクスチャ情報を含み、第1領域に対応する第3画像内の領域が第2テクスチャ情報を含まない場合に、露出パラメータに基づいて撮影を実行して第2画像を取得し、第1領域は第1イベント画像内の任意の領域である、
よう構成される。
更に、イベントを生成する原理は、対応するピクセル位置での光強度の変化の対数値がcの値に達すること、つまり、次の式(26)に示されるようなものである:
2つの画像の場合から、n個の画像が撮影される場合に、動いているオブジェクトを含まない画像I’の表現は、次の式(28)に示されるように、取得されることが分かる:
図103は、本願の実施形態に係るキーフレーム選択方法1030の略フローチャートである。図103に示されるように、キーフレーム選択方法1030は次のステップを含む。
この実施形態で、キーフレーム選択方法1030は、ビデオ解析、ビデオ符号化及び復号化、又はセキュリティ監視などのシナリオに適用されてよい。キーフレーム選択方法1030は、端末又はサーバ、例えば、ビデオ解析用のサーバ、ビデオ符号化及び復号化を実行する端末若しくはサーバ、又は監視用の端末によって実行されてよい。記載を簡単にするために、以下は、端末が実行本体である例を使用することによって、本願のこの実施形態で提供されるキーフレーム選択方法1030について記載する。
可能な実施形態で、イベント画像は対応するRGB画像を更に有してもよく、RGB画像は、時系列においてイベント画像とアライメントされている。すなわち、端末は、時系列においてアライメントされているイベント画像及びRGB画像を取得し得る。この場合に、端末は、RGB画像に対応する特徴の数及び/又は特徴有効領域の数を取得してもよい。RGB画像が特定の条件を満足するかどうかは、RGB画像に対応する特徴の数が特定の閾値よりも多いかどうか、及び/又はRGB画像に対応する特徴有効領域の数が特定の閾値よりも大きいかどうかを決定することによって、決定される。このようにして、端末は、RGB画像が特定の条件を満足するかどうか、及び/又はイベント画像が第1条件を満足するかどうかを決定することによって、RGB画像及びイベント画像をキーフレームとして決定すべきかどうかを決定し得る。RGB画像の特徴の数に対応する特定の閾値及びRGB画像の特徴有効領域の数に対応する特定の閾値は異なる閾値であってよいことが留意されるべきである。
例えば、端末が、RGB画像に対応する特徴の数が特定の閾値よりも多いこと、又はRGB画像に対応する特徴有効領域の数が特定の閾値よりも大きいことを決定する場合に、端末は、RGB画像及び対応するイベント画像がキーフレームであると決定してよい。イベント画像が第1条件を満足すると端末が決定するとき、端末は、代替的に、イベント画像及び対応するRGB画像がキーフレームであると決定してもよい。
図105は、本願の実施形態に係るキーフレーム選択方法1050の略フローチャートである。図105に示されるように、キーフレーム選択方法1050は次のステップを含む。
この実施形態で、キーフレーム選択方法1050はVSLAMシナリオに適用されてよく、キーフレーム選択方法1050は端末、例えば、ロボット端末、無人車両端末、又は無人航空機端末によって実行されてよい。
図108aは、本願の実施形態に従って、画像の動き領域に基づいてポーズ推定を行う略フローチャートである。図108aに示されるように端末は、イベント画像とデプス画像又はRGB画像とに基づいて画像の静止領域を検出してよい。具体的に、デプス画像又はRGB画像内にある静止領域を決定した後、端末は、デプス画像又はRGB画像内にある静止領域に対応するピクセルを除去し、残りの領域は、デプス画像又はRGB画像内にある動き領域である。次いで、端末は、静的なシナリオでVSLAM方法に従ってデプス画像又はRGB画像内の動き領域に対してポーズ推定を実行してよい。
他の視線追跡シナリオでは、DVSセンサは、遠隔視線追跡のために更に使用されてもよい。例えば、図110に示されるように、DVSセンサは、携帯電話機及びタブレット端末デバイスにより視線追跡を実施するために使用されてよい。このようなデバイスの場合に、目とセンサとの間の距離は比較的に広く、その距離は可変であるから、図109でのシナリオのそれと類似した方法が、複数のセンサにより三次元座標系において角膜中心及び眼球運動中心を決定し、更には、スクリーンと相互作用するために使用されてよい。
例えば、DVSセンサを使用することによって動いているオブジェクトを検出するシナリオで、プロシージャは、動いているオブジェクトが画像に現れるか又は光がシナリオ内で変化する場合に、イベントがDVSに対応する領域で生成されることを含んでよい。イベントがある期間(例えば、1秒間)に起こるピクセルの位置は1にセットされ、イベントが起こらないピクセルの位置は0にセットされて、マスク画像が得られる。より鮮明なイベント画像を取得するよう、本願で提供される方法に従って、マスク画像に対して動き補償が実行される。イベント画像上の接続された長方形ボックス領域がフィルタリングにより取得される。次いで、長方形ボックスのサイズが決定される。長方形ボックスの面積が閾値1よりも大きい場合に、DVSによって検出された動き領域は大きすぎ、検出及び認識は実行されない。これは、DVSによって検出された変化がシナリオ光変化であるものとして理解され得る。閾値2が長方形ボックス領域の面積よりも大きい場合に、長方形ボックスは、ノイズにより生成された動き領域、例えば、風が葉に吹いて、葉が揺れる場合に生成される動き領域、として理解され得る。閾値1>長方形ボックスの面積>閾値2である場合には、更なる検出及び認識が実行される必要があるかどうかを決定するために、オブジェクトが動いているオブジェクトであるかどうかが、動きの連続性に基づいて更に決定されてよい。
例えば、DVSセンサ及びRGBカメラを使用することによって動いているオブジェクトを検出及び認識する他のシナリオでは、プロシージャは、動いているオブジェクトが画像に現れるか又は光がシナリオ内で変化する場合に、イベントがDVSに対応する領域で生成されることを含んでよい。より鮮明なイベント画像が、本願で提供される方法に従って取得される。更に、動いているオブジェクトを表す長方形ボックスがイベント画像内で決定される。長方形ボックス領域を係数(h×w×0.1)によって広げることによって、RGBカメラに対応するフレーム上の対応する長方形領域が、動作オブジェクト領域として見つけられる。既存のRGB画像ディープラーニングネットワークが、動作オブジェクト領域内のオブジェクトのカテゴリを認識するために使用される。
本願の実施形態は、コンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は、画像処理方法を実施するために使用されるプログラムを記憶している。プログラムがコンピュータで実行されると、コンピュータは、図3-aから図108-bに示されている実施形態で記載される方法のステップを実行することができる。
Claims (51)
- 第1イベント画像及び第1ターゲット画像を取得することであり、前記第1イベント画像は時系列において前記第1ターゲット画像とアライメントされ、前記第1ターゲット画像は赤緑青(RGB)画像及びデプス画像を有し、前記第1イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成される前記ターゲットオブジェクトの運動軌跡を示す画像を有する、前記取得することと、
前記第1イベント画像の積分時間を決定することと、
前記積分時間が第1閾値に満たない場合に、前記第1ターゲット画像がポーズ推定を実行するためのものではないことを決定することと、
前記第1イベント画像に基づいてポーズ推定を実行することと
を有するポーズ推定方法。 - 前記方法は、
前記第1イベント画像の取得時間及び前記第1ターゲット画像の取得時間を決定することと、
前記第1イベント画像の前記取得時間と前記第1ターゲット画像の前記取得時間との間の時間差が第2閾値に満たない場合に、前記第1イベント画像が時系列において前記第1ターゲット画像とアライメントされていることを決定することと
を更に有する、
請求項1に記載のポーズ推定方法。 - 前記第1イベント画像を取得することは、
前記モーションセンサによって検出されたN個の連続したダイナミックビジョンセンサ(DVS)イベントを取得することと、
前記N個の連続したDVSイベントを前記第1イベント画像に統合することと
を有し、
前記方法は、
前記N個の連続したDVSイベントの取得時間に基づき前記第1イベント画像の前記取得時間を決定することを更に有する、
請求項2に記載のポーズ推定方法。 - 前記第1イベント画像の積分時間を決定することは、
前記第1イベント画像に統合される前記N個の連続したDVSイベントを決定することと、
前記N個の連続したDVSイベントの中の最初のDVSイベントの取得時間及び最後のDVSイベントの取得時間に基づいて前記第1イベント画像の前記積分時間を決定することと
を有する、
請求項1乃至3のうちいずれか一項に記載のポーズ推定方法。 - 前記方法は、
第2イベント画像を取得することであり、前記第2イベント画像は、前記ターゲットオブジェクトが前記モーションセンサの前記検出範囲内で動くときに生成される前記ターゲットオブジェクトの運動軌跡を示す画像を有する、ことと、
ターゲット画像が時系列において前記第2イベント画像とアライメントされない場合に、前記第2イベント画像がポーズ推定を一緒に行うためのターゲット画像を有さないことを決定することと、
前記第2イベント画像に基づいてポーズ推定を実行することと
を更に有する、
請求項1乃至4のうちいずれか一項に記載のポーズ推定方法。 - 前記第2イベント画像に基づいてポーズ推定を実行することの前に、前記方法は、
時系列において前記第2イベント画像とアライメントされる慣性計測装置IMUデータがあると決定する場合に、前記第2イベント画像及び前記第2イベント画像に対応する前記IMUデータに基づきポーズを決定すること、又は
慣性計測装置IMUデータが時系列において前記第2イベント画像とアライメントされないと決定する場合に、前記第2イベント画像にのみ基づいてポーズを決定すること
を更に有する、
請求項5に記載のポーズ推定方法。 - 前記方法は、
第2ターゲット画像を取得することであり、前記第2ターゲット画像はRGB画像又はデプス画像を有する、ことと、
イベント画像が時系列において前記第2ターゲット画像とアライメントされない場合に、前記第2ターゲット画像がポーズ推定を一緒に実行するためのイベント画像を有さないことを決定することと、
前記第2ターゲット画像に基づいて前記ポーズを決定することと
を更に有する、
請求項1乃至6のうちいずれか一項に記載のポーズ推定方法。 - 前記方法は、前記第1イベント画像及びディクショナリに基づいてループバック検出を実行することを更に有し、
前記ディクショナリは、イベント画像に基づいて構成されたディクショナリである、
請求項1乃至7のうちいずれか一項に記載のポーズ推定方法。 - 前記方法は、
複数のイベント画像を取得することであり、前記複数のイベント画像は訓練用のイベント画像である、ことと、
前記複数のイベント画像の視覚的特徴を取得することと、
クラスタ化された視覚的特徴を取得するようクラスタ化アルゴリズムに基づいて前記視覚的特徴をクラスタ化することと、前記クラスタ化された視覚的特徴は対応する記述子を有する、ことと、
前記クラスタ化された視覚的特徴に基づいて前記ディクショナリを構成することと
を更に有する、
請求項8に記載のポーズ推定方法。 - 前記第1イベント画像及びディクショナリに基づいてループバック検出を実行することは、
前記第1イベント画像の記述子を決定することと、
前記ディクショナリの中で、前記第1イベント画像の前記記述子に対応する視覚的特徴を決定することと、
前記視覚的特徴に基づいて、前記第1イベント画像に対応するバグ・オブ・ワードベクトルを決定することと、
前記第1イベント画像に一致するイベント画像を決定するよう、前記第1イベント画像に対応する前記バグ・オブ・ワードベクトルと他のイベント画像のバグ・オブ・ワードベクトルとの間の類似度を決定することと
を有する、
請求項9に記載のポーズ推定方法。 - 前記方法は、
前記第1イベント画像の第1情報を決定することであり、前記第1情報は前記イベント画像内のイベント及び/又は特徴を含む、ことと、
前記第1情報に基づいて、前記第1イベント画像が少なくとも第1条件を満足すると決定する場合に、前記第1イベント画像がキーフレームであることを決定することであり、前記第1条件はイベントの数及び/又は特徴の数に関する、ことと
を更に有する、
請求項1乃至10のうちいずれか一項に記載のポーズ推定方法。 - 前記第1条件は、
前記第1イベント画像内のイベントの数が第1閾値よりも多いこと、
前記第1イベント画像内のイベント有効領域の数が第2閾値よりも多いこと、
前記第1イベント画像内の特徴の数が第3閾値よりも多いこと、又は
前記第1イベント画像内の特徴有効領域が第4閾値よりも多いこと
のうちの1つ以上を含む、
請求項11に記載の方法。 - 前記方法は、
時系列において前記第1イベント画像とアライメントされた前記デプス画像を取得することと、
前記第1情報に基づいて、前記第1イベント画像が少なくとも前記第1条件を満足すると決定する場合に、前記第1イベント画像及び前記デプス画像がキーフレームであることを決定することと
を更に有する、
請求項11又は12に記載の方法。 - 前記方法は、
時系列において前記第1イベント画像とアライメントされたRGB画像を取得することと、
前記RGB画像の特徴の数及び/又は特徴有効領域の数を取得することと、
前記第1情報に基づいて、前記第1イベント画像が少なくとも前記第1条件を満足すると決定し、かつ、前記RGB画像の前記特徴の数が第5閾値よりも多く、及び/又は前記RGB画像の前記特徴有効領域の数が第6閾値よりも多い場合に、前記第1イベント画像及び前記RGB画像がキーフレームであることを決定することと
を更に有する、
請求項11又は12に記載の方法。 - 前記第1情報に基づいて、前記第1イベント画像が少なくとも第1条件を満足すると決定する場合に、前記第1イベント画像がキーフレームであることを決定することは、
前記第1情報に基づいて、前記第1イベント画像が少なくとも前記第1条件を満足すると決定する場合に、前記第1イベント画像の第2情報を決定することであり、前記第2情報は、前記第1イベント画像内の動き特徴及び/又はポーズ特徴を含む、ことと、
前記第2情報に基づいて、前記第1イベント画像が少なくとも第2条件を満足すると決定する場合に、前記第1イベント画像がキーフレームであることを決定することであり、前記第2条件は動き変化及び/又はポーズ変化に関する、ことと
を有する、
請求項11乃至14のうちいずれか一項に記載の方法。 - 前記方法は、
前記第1イベント画像の鮮明度及び/又は輝度一貫性インジケータを決定することと、
前記第2情報に基づいて、前記第1イベント画像が少なくとも前記第2条件を満足すると決定し、かつ、前記第1イベント画像の前記鮮明度が鮮明度閾値よりも大きく、及び/又は前記第1イベント画像の前記輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、前記第1イベント画像がキーフレームであることを決定することと
を更に有する、
請求項15に記載の方法。 - 前記第1イベント画像の輝度一貫性インジケータを決定することは、
前記第1イベント画像内のピクセルが光強度変化極性を表す場合に、前記第1イベント画像内の前記イベントの数と隣接キーフレーム内のイベントの数との間の差の絶対値を計算し、前記第1イベント画像内のピクセルの数で前記絶対値を除して、前記第1イベント画像の前記輝度一貫性インジケータを取得すること、又は
前記第1イベント画像内のピクセルが光強度を表す場合に、前記第1イベント画像のピクセルの各グループと隣接キーフレームとの間の輝度減算を実行し、差の絶対値を計算し、ピクセルの各グループに対応する前記絶対値に対して和演算を実行し、取得された和結果をピクセルの数で除して、前記第1イベント画像の前記輝度一貫性インジケータを取得すること
を有する、
請求項16に記載の方法。 - 前記方法は、
時系列において前記第1イベント画像とアライメントされた前記RGB画像を取得することと、
前記RGB画像の鮮明度及び/又は輝度一貫性インジケータを決定することと、
前記第2情報に基づいて、前記第1イベント画像が少なくとも前記第2条件を満足すると決定し、前記RGB画像の前記鮮明度が鮮明度閾値よりも大きく、及び/又は前記RGB画像の前記輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、前記第1イベント画像及び前記RGB画像がキーフレームであることを決定することと
を更に有する、
請求項15に記載の方法。 - 前記第2条件は、
前記第1イベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を越えること、
前記第1イベント画像と前のキーフレームとの間の回転角度が前もってセットされた角度値を越えること、及び
前記第1イベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を越え、前記第1イベント画像と前記前のキーフレームとの間の回転角度が前もってセットされた角度値を越えること
のうちの1つ以上を含む、
請求項15乃至18のうちいずれか一項に記載の方法。 - 前記方法は、
前記第1イベント画像内にある第1動き領域を決定することと、
前記第1動き領域に基づいて、前記第1ターゲット画像内にある対応する第2動き領域を決定することと、
前記第1ターゲット画像内にある前記第2動き領域に基づいてポーズ推定を実行することと
を更に有する、
請求項1乃至19のうちいずれか一項に記載の方法。 - 前記第1イベント画像内にある第1動き領域を決定することは、
前記第1イベント画像を捕捉するDVSが静止している場合に、イベント応答が存在する、前記第1イベント画像内にあるピクセルを取得することと、
前記イベント応答が存在する前記ピクセルに基づいて前記第1動き領域を決定することと
を有する、
請求項20に記載の方法。 - 前記イベント応答が存在する前記ピクセルに基づいて前記第1動き領域を決定することは、
前記イベント応答が存在する、前記第1イベント画像内にある前記ピクセルによって形成される輪郭を決定することと、
前記輪郭によって囲まれた面積が第1閾値よりも大きい場合に、前記輪郭によって囲まれている前記領域が前記第1動き領域であることを決定することと
を有する、
請求項21に記載の方法。 - 前記第1イベント画像内にある第1動き領域を決定することは、
前記第1イベント画像を捕捉するDVSが動いている場合に、前記第2イベント画像を取得することであり、前記第2イベント画像は、前記第1イベント画像のイベント画像の前のフレームである、ことと、
前記第2イベント画像に対する前記第1イベント画像内のピクセルの変位の大きさ及び変位方向を計算することと、
前記第1イベント画像内の前記ピクセルの前記変位方向が周囲ピクセルの変位方向と異なるか、又は前記第1イベント画像内の前記ピクセルの前記変位の大きさと周囲ピクセルの変位の大きさとの間の差が第2閾値よりも大きい場合に、前記ピクセルが前記第1動き領域に属することを決定することと
を有する、
請求項20に記載の方法。 - 前記方法は、
前記第1動き領域に基づいて、前記画像内にある対応する静止領域を決定することと、
前記第1ターゲット画像にある前記静止領域に基づいて前記ポーズを決定することと
を更に有する、
請求項20乃至23のうちいずれか一項に記載の方法。 - 取得モジュール及び処理モジュールを有するデータ処理装置であって、
前記取得モジュールは、第1イベント画像及び第1ターゲット画像を取得するよう構成され、前記第1イベント画像は時系列において前記第1ターゲット画像とアライメントされ、前記第1ターゲット画像はRGB画像及びデプス画像を有し、前記第1イベント画像は、ターゲットオブジェクトがモーションセンサの検出範囲内で動くときに生成される前記ターゲットオブジェクトの運動軌跡を示す画像を有し、
前記処理モジュールは、前記第1イベント画像の積分時間を決定するよう構成され、
前記処理モジュールは、前記積分時間が第1閾値に満たない場合に、前記第1ターゲット画像がポーズ推定を実行するためのものではないことを決定するよう更に構成され、
前記処理モジュールは、前記第1イベント画像に基づいてポーズ推定を実行するよう更に構成される、
装置。 - 前記処理モジュールは、前記第1イベント画像の取得時間及び前記第1ターゲット画像の取得時間を決定するよう更に構成され、
前記処理モジュールは、前記第1イベント画像の前記取得時間と前記第1ターゲット画像の前記取得時間との間の時間差が第2閾値に満たない場合に、前記第1イベント画像が時系列において前記第1ターゲット画像とアライメントされていることを決定するよう更に構成される、
請求項25に記載の装置。 - 前記取得モジュールは、前記モーションセンサによって検出されたN個の連続したDVSイベントを取得するよう更に構成され、
前記処理モジュールは、前記N個の連続したDVSイベントを前記第1イベント画像に統合するよう更に構成され、
前記処理モジュールは、前記N個の連続したDVSイベントの取得時間に基づき前記第1イベント画像の前記取得時間を決定するよう更に構成される、
請求項26に記載の装置。 - 前記第1イベント画像の積分時間を決定することは、
前記処理モジュールが、前記第1イベント画像に統合される前記N個の連続したDVSイベントを決定するよう更に構成されることと、
前記処理モジュールが、前記N個の連続したDVSイベントの中の最初のDVSイベントの取得時間及び最後のDVSイベントの取得時間に基づいて前記第1イベント画像の前記積分時間を決定するよう更に構成されることと
を有する、
請求項25乃至27のうちいずれか一項に記載の装置。 - 前記取得モジュールは、第2イベント画像を取得するよう更に構成され、前記第2イベント画像は、前記ターゲットオブジェクトが前記モーションセンサの前記検出範囲内で動くときに生成される前記ターゲットオブジェクトの運動軌跡を示す画像を有し、
前記処理モジュールは、ターゲット画像が時系列において前記第2イベント画像とアライメントされない場合に、前記第2イベント画像がポーズ推定を一緒に行うためのターゲット画像を有さないことを決定するよう更に構成され、
前記処理モジュールは、前記第2イベント画像に基づいてポーズ推定を実行するよう更に構成される、
請求項25乃至28のうちいずれか一項に記載の装置。 - 前記処理モジュールは、時系列において前記第2イベント画像とアライメントされる慣性計測装置IMUデータがあると決定する場合に、第2DVS画像及び前記第2イベント画像に対応する前記IMUデータに基づきポーズを決定するよう更に構成されるか、又は
前記処理モジュールは、慣性計測装置IMUデータが時系列において前記第2イベント画像とアライメントされないと決定する場合に、前記第2イベント画像にのみ基づいてポーズを決定するよう更に構成される、
請求項29に記載の装置。 - 前記取得モジュールは、第2ターゲット画像を取得するよう更に構成され、前記第2ターゲット画像はRGB画像又はデプス画像を有し、
前記処理モジュールは、イベント画像が時系列において前記第2ターゲット画像とアライメントされない場合に、前記第2ターゲット画像がポーズ推定を一緒に実行するためのイベント画像を有さないことを決定するよう更に構成され、
前記処理モジュールは、前記第2ターゲット画像に基づいて前記ポーズを決定するよう更に構成される、
請求項25乃至30のうちいずれか一項に記載の装置。 - 前記処理モジュールは、前記第1イベント画像及びディクショナリに基づいてループバック検出を実行するよう更に構成され、
前記ディクショナリは、イベント画像に基づいて構成されたディクショナリである、
請求項25乃至31のうちいずれか一項に記載の装置。 - 前記取得モジュールは、複数のイベント画像を取得するよう更に構成され、前記複数のイベント画像は訓練用のイベント画像であり、
前記取得モジュールは、前記複数のイベント画像の視覚的特徴を取得するよう更に構成され、
前記処理モジュールは、クラスタ化された視覚的特徴を取得するようにクラスタ化アルゴリズムに基づいて前記視覚的特徴をクラスタ化するよう更に構成され、前記クラスタ化された視覚的特徴は対応する記述子を有し、
前記処理モジュールは、前記クラスタ化された視覚的特徴に基づいて前記ディクショナリを構成するよう更に構成される、
請求項32に記載の装置。 - 前記処理モジュールは、前記第1イベント画像の記述子を決定するよう更に構成され、
前記処理モジュールは、前記ディクショナリの中で、前記第1イベント画像の前記記述子に対応する視覚的特徴を決定するよう更に構成され、
前記処理モジュールは、前記視覚的特徴に基づいて、前記第1イベント画像に対応するワードベクトルのバグを決定するよう更に構成され、
前記処理モジュールは、前記第1イベント画像に一致するイベント画像を決定するように、前記第1イベント画像に対応する前記ワードベクトルのバグと他のイベント画像のワードベクトルのバグとの間の類似度を決定するよう更に構成される、
請求項33に記載の装置。 - 前記処理モジュールは、前記第1イベント画像の第1情報を決定するよう更に構成され、前記第1情報は前記イベント画像内のイベント及び/又は特徴を含み、
前記処理モジュールは、前記第1情報に基づいて、前記第1イベント画像が少なくとも第1条件を満足すると決定する場合に、前記第1イベント画像がキーフレームであることを決定するよう更に構成され、前記第1条件はイベントの数及び/又は特徴の数に関する、
請求項25乃至34のうちいずれか一項に記載の装置。 - 前記第1条件は、
前記第1イベント画像内のイベントの数が第1閾値よりも多いこと、
前記第1イベント画像内のイベント有効領域の数が第2閾値よりも多いこと、
前記第1イベント画像内の特徴の数が第3閾値よりも多いこと、及び
前記第1イベント画像内の特徴有効領域が第4閾値よりも多いこと
のうちの1つ以上を含む、
請求項35に記載の装置。 - 前記取得モジュールは、時系列において前記第1イベント画像とアライメントされた前記デプス画像を取得するよう更に構成され、
前記処理モジュールは、前記第1情報に基づいて、前記第1イベント画像が少なくとも前記第1条件を満足すると決定する場合に、前記第1イベント画像及び前記デプス画像がキーフレームであることを決定するよう更に構成される、
請求項35又は36に記載の装置。 - 前記取得モジュールは、時系列において前記第1イベント画像とアライメントされた前記RGB画像を取得するよう更に構成され、
前記取得モジュールは、前記RGB画像の特徴の数及び/又は特徴有効領域の数を取得するよう更に構成され、
前記処理モジュールは、前記第1情報に基づいて、前記第1イベント画像が少なくとも前記第1条件を満足すると決定し、かつ、前記RGB画像の前記特徴の数が第5閾値よりも多く、及び/又は前記RGB画像の前記特徴有効領域の数が第6閾値よりも多い場合に、前記第1イベント画像及び前記RGB画像がキーフレームであることを決定するよう更に構成される、
請求項35又は36に記載の装置。 - 前記処理モジュールは、前記第1情報に基づいて、前記第1イベント画像が少なくとも前記第1条件を満足すると決定する場合に、前記第1イベント画像の第2情報を決定するよう更に構成され、前記第2情報は、前記第1イベント画像内の動き特徴及び/又はポーズ特徴を含み、
前記処理モジュールは、前記第2情報に基づいて、前記第1イベント画像が少なくとも第2条件を満足すると決定する場合に、前記第1イベント画像がキーフレームであることを決定するよう更に構成され、前記第2条件は動き変化及び/又はポーズ変化に関する、
請求項35乃至38のうちいずれか一項に記載の装置。 - 前記処理モジュールは、前記第1イベント画像の鮮明度及び/又は輝度一貫性インジケータを決定するよう更に構成され、
前記処理モジュールは、前記第2情報に基づいて、前記第1イベント画像が少なくとも前記第2条件を満足すると決定し、かつ、前記第1イベント画像の前記鮮明度が鮮明度閾値よりも大きく、及び/又は前記第1イベント画像の前記輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、前記第1イベント画像がキーフレームであることを決定するよう更に構成される、
請求項39に記載の装置。 - 前記処理モジュールは、前記第1イベント画像内のピクセルが光強度変化極性を表す場合に、前記第1イベント画像内の前記イベントの数と隣接キーフレーム内のイベントの数との間の差の絶対値を計算し、前記第1イベント画像内のピクセルの数で前記絶対値を除して、前記第1イベント画像の前記輝度一貫性インジケータを取得するよう更に構成されるか、又は
前記処理モジュールは、前記第1イベント画像内のピクセルが光強度を表す場合に、前記第1イベント画像と隣接キーフレームとの間のピクセルごとの減算を実行し、差の絶対値を計算し、ピクセルの各グループに対応する前記絶対値に対して和演算を実行し、取得された和結果をピクセルの数で除して、前記第1イベント画像の前記輝度一貫性インジケータを取得するよう更に構成される、
請求項40に記載の装置。 - 前記取得モジュールは、時系列において前記第1イベント画像とアライメントされた前記RGB画像を取得するよう更に構成され、
前記処理モジュールは、前記RGB画像の鮮明度及び/又は輝度一貫性インジケータを決定するよう更に構成され、
前記処理モジュールは、前記第2情報に基づいて、前記第1イベント画像が少なくとも前記第2条件を満足すると決定し、前記RGB画像の前記鮮明度が鮮明度閾値よりも大きく、及び/又は前記RGB画像の前記輝度一貫性インジケータが前もってセットされたインジケータ閾値よりも大きい場合に、前記第1イベント画像及び前記RGB画像がキーフレームであることを決定するよう更に構成される、
請求項39に記載の装置。 - 前記第2条件は、
前記第1イベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を越えること、
前記第1イベント画像と前のキーフレームとの間の回転角度が前もってセットされた角度値を越えること、及び
前記第1イベント画像と前のキーフレームとの間の距離が前もってセットされた距離値を越え、前記第1イベント画像と前記前のキーフレームとの間の回転角度が前もってセットされた角度値を越えること
のうちの1つ以上を含む、
請求項39乃至42のうちいずれか一項に記載の装置。 - 前記処理モジュールは、前記第1イベント画像内にある第1動き領域を決定するよう更に構成され、
前記処理モジュールは、前記第1動き領域に基づいて、前記第1ターゲット画像内にある対応する第2動き領域を決定するよう更に構成され、
前記処理モジュールは、前記第1ターゲット画像内の前記第2動き領域に基づいてポーズ推定を実行するよう更に構成される、
請求項25乃至43のうちいずれか一項に記載の装置。 - 前記処理モジュールは、前記第1イベント画像を捕捉するDVSが静止している場合に、前記イベント応答が存在する、前記第1イベント画像内にあるピクセルを取得するよう更に構成され、
前記処理モジュールは、前記イベント応答が存在する前記ピクセルに基づいて前記第1動き領域を決定するよう更に構成される、
請求項44に記載の装置。 - 前記処理モジュールは、前記イベント応答が存在する、前記第1イベント画像内にある前記ピクセルによって形成される輪郭を決定するよう更に構成され、
前記処理モジュールは、前記輪郭によって囲まれた面積が第1閾値よりも大きい場合に、前記輪郭によって囲まれている前記領域が前記第1動き領域であることを決定するよう更に構成される、
請求項45に記載の装置。 - 前記処理モジュールは、前記第1イベント画像を捕捉するDVSが動いている場合に、前記第2イベント画像を取得するよう更に構成され、前記第2イベント画像は、前記第1イベント画像のイベント画像の前のフレームであり、
前記処理モジュールは、前記第2イベント画像に対する前記第1イベント画像内のピクセルの変位の大きさ及び変位方向を計算するよう更に構成され、
前記処理モジュールは、前記第1イベント画像内の前記ピクセルの前記変位方向が周囲ピクセルの変位方向と異なるか、又は前記第1イベント画像内の前記ピクセルの前記変位の大きさと周囲ピクセルの変位の大きさとの間の差が第2閾値よりも大きい場合に、前記ピクセルが前記第1動き領域に属することを決定するよう更に構成される、
請求項44に記載の装置。 - 前記処理モジュールは、前記第1動き領域に基づいて、前記画像内にある対応する静止領域を決定するよう更に構成され、
前記処理モジュールは、前記第1ターゲット画像にある前記静止領域に基づいて前記ポーズを決定するよう更に構成される、
請求項44乃至47のうちいずれか一項に記載の装置。 - プロセッサ及びメモリを有するデータ処理装置であって、
前記プロセッサは前記メモリへ結合され、
前記メモリは、プログラムを記憶するよう構成され、
前記プロセッサは、前記メモリ内にある前記プログラムを実行して、前記データ処理装置が請求項1乃至24のうちいずれか一項に記載の方法を実行できるようにするよう構成される、
データ処理装置。 - プログラムを有し、前記プログラムがコンピュータで実行される場合に、前記コンピュータは、請求項1乃至24のうちいずれか一項に記載の方法を実行することができる、
コンピュータ可読記憶媒体。 - 命令を有するコンピュータプログラム製品であって、
前記コンピュータプログラム製品がコンピュータで実行される場合に、前記コンピュータは、請求項1乃至24のうちいずれか一項に記載の方法を実行することができる、
コンピュータプログラム製品。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/142050 WO2022141376A1 (zh) | 2020-12-31 | 2020-12-31 | 一种位姿估计方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024504027A true JP2024504027A (ja) | 2024-01-30 |
Family
ID=82258851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023539998A Pending JP2024504027A (ja) | 2020-12-31 | 2020-12-31 | ポーズ推定方法及び関連する装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230360254A1 (ja) |
EP (1) | EP4261778A4 (ja) |
JP (1) | JP2024504027A (ja) |
KR (1) | KR20230127287A (ja) |
CN (1) | CN115997234A (ja) |
WO (1) | WO2022141376A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913500B (zh) * | 2022-07-12 | 2022-11-01 | 福思(杭州)智能科技有限公司 | 位姿确定方法、装置、计算机设备和存储介质 |
CN115937011B (zh) * | 2022-09-08 | 2023-08-04 | 安徽工程大学 | 一种基于时滞特征回归的关键帧位姿优化视觉slam方法、存储介质及设备 |
CN116681755B (zh) * | 2022-12-29 | 2024-02-09 | 广东美的白色家电技术创新中心有限公司 | 位姿预测方法和装置 |
CN115883764B (zh) * | 2023-02-08 | 2023-05-23 | 吉林大学 | 一种基于数据协同的水下高速视频插帧方法及其系统 |
CN116189336B (zh) * | 2023-02-24 | 2023-09-08 | 广州奔智电子科技有限公司 | 一种智能门锁安防系统 |
CN116664620A (zh) * | 2023-07-12 | 2023-08-29 | 深圳优立全息科技有限公司 | 一种基于追踪系统的画面动态捕捉方法及相关装置 |
CN116644616B (zh) * | 2023-07-25 | 2023-09-22 | 北京赛目科技股份有限公司 | 点云畸变效果还原方法、装置、电子设备及存储介质 |
CN117237199B (zh) * | 2023-11-15 | 2024-01-26 | 中国科学院长春光学精密机械与物理研究所 | 基于无人机航拍生成模拟gmti雷达图像的方法 |
CN117708764B (zh) * | 2024-02-06 | 2024-05-03 | 青岛天高智慧科技有限公司 | 基于校园一卡通的学生消费数据智能分析方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104363380B (zh) * | 2014-10-15 | 2017-10-27 | 北京智谷睿拓技术服务有限公司 | 图像采集控制方法和装置 |
CN109040521B (zh) * | 2017-06-08 | 2020-11-13 | 株式会社理光 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
US10839547B2 (en) * | 2017-09-28 | 2020-11-17 | Samsung Electronics Co., Ltd. | Camera pose determination and tracking |
CN111770290A (zh) * | 2020-07-29 | 2020-10-13 | 中国科学院长春光学精密机械与物理研究所 | 一种动态视觉传感器输出事件流降噪方法 |
-
2020
- 2020-12-31 EP EP20967715.2A patent/EP4261778A4/en active Pending
- 2020-12-31 KR KR1020237025769A patent/KR20230127287A/ko active Search and Examination
- 2020-12-31 JP JP2023539998A patent/JP2024504027A/ja active Pending
- 2020-12-31 WO PCT/CN2020/142050 patent/WO2022141376A1/zh active Application Filing
- 2020-12-31 CN CN202080103758.1A patent/CN115997234A/zh active Pending
-
2023
- 2023-06-29 US US18/344,208 patent/US20230360254A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4261778A4 (en) | 2024-02-21 |
US20230360254A1 (en) | 2023-11-09 |
CN115997234A (zh) | 2023-04-21 |
EP4261778A1 (en) | 2023-10-18 |
WO2022141376A1 (zh) | 2022-07-07 |
KR20230127287A (ko) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2024504027A (ja) | ポーズ推定方法及び関連する装置 | |
WO2022141418A1 (zh) | 一种图像处理方法以及装置 | |
WO2022141477A1 (zh) | 一种图像处理方法以及装置 | |
WO2022141445A1 (zh) | 一种图像处理方法以及装置 | |
US11860511B2 (en) | Image pickup device and method of tracking subject thereof | |
WO2021258321A1 (zh) | 一种图像获取方法以及装置 | |
WO2022141333A1 (zh) | 一种图像处理方法以及装置 | |
WO2022141351A1 (zh) | 一种视觉传感器芯片、操作视觉传感器芯片的方法以及设备 | |
US11526704B2 (en) | Method and system of neural network object recognition for image processing | |
WO2022001806A1 (zh) | 图像变换方法和装置 | |
CN115226406A (zh) | 图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质 | |
CN112207821B (zh) | 视觉机器人的目标搜寻方法及机器人 | |
CN112700368A (zh) | 图像处理方法、装置及电子设备 | |
CN116055874B (zh) | 一种对焦方法和电子设备 | |
CN113572956A (zh) | 一种对焦的方法及相关设备 | |
CN113920010A (zh) | 图像帧的超分辨率实现方法和装置 | |
CN113052056A (zh) | 一种视频处理的方法以及装置 | |
CN114449151B (zh) | 一种图像处理方法及相关装置 | |
CN113850709A (zh) | 图像变换方法和装置 | |
CN113468929A (zh) | 运动状态识别方法、装置、电子设备和存储介质 | |
CN111385481A (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN115484383A (zh) | 拍摄方法及相关装置 | |
CN112348738A (zh) | 图像优化方法、图像优化装置、存储介质与电子设备 | |
CN116109828B (zh) | 图像处理方法和电子设备 | |
CN114693511A (zh) | 一种图片补全方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230815 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240611 |