JP7272625B2 - 動画像処理方法及び動画像処理装置 - Google Patents

動画像処理方法及び動画像処理装置 Download PDF

Info

Publication number
JP7272625B2
JP7272625B2 JP2019001491A JP2019001491A JP7272625B2 JP 7272625 B2 JP7272625 B2 JP 7272625B2 JP 2019001491 A JP2019001491 A JP 2019001491A JP 2019001491 A JP2019001491 A JP 2019001491A JP 7272625 B2 JP7272625 B2 JP 7272625B2
Authority
JP
Japan
Prior art keywords
moving image
machine learning
exposure
pattern
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019001491A
Other languages
English (en)
Other versions
JP2020113829A (ja
Inventor
一 長原
忠 大河原
道隆 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka University NUC
Original Assignee
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka University NUC filed Critical Osaka University NUC
Priority to JP2019001491A priority Critical patent/JP7272625B2/ja
Publication of JP2020113829A publication Critical patent/JP2020113829A/ja
Application granted granted Critical
Publication of JP7272625B2 publication Critical patent/JP7272625B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Transforming Light Signals Into Electric Signals (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

特許法第30条第2項適用 平成30年7月29日にMIRU2018第21回画像の認識・理解シンポジウムのウェブサイト(https://sites.google.com/view/miru2018sapporo/extended-abstracts)に掲載 平成30年8月8日にMIRU2018第21回画像の認識・理解シンポジウムにて発表 平成30年9月8日にECCV 2018 European Conference on Computer Visionのウェブサイト(http://openaccess.thecvf.com/content_ECCV_2018/papers/Michitaka_Yoshida_Joint_optimization_for_ECCV_2018_paper.pdf)に掲載 平成30年9月12日にECCV 2018 European Conference on Computer Visionにて発表
本開示は、動画像の処理方法及び当該方法を実行する装置に関する。
近年、監視カメラ及び車載カメラ等のIoT(Internet of Things)デバイスで撮影された映像の解析が盛んに行われている。これらのカメラで撮影された映像(つまり、動画像)は、データセンタに集約され、解析などに用いられる。このとき、通信路の容量を削減するために、映像の空間解像度、及び、時間解像度(以下、フレームレートともいう。)を下げるなどの圧縮処理を行う必要がある。しかしながら、空間解像度を下げると、映像が不鮮明になり、フレームレートを下げると、映像における動きの情報が失われてしまう。この空間解像度と時間解像度とのトレードオフを解決する手段として、符号化露光画像を用いた圧縮ビデオセンシング手法が提案されている。
例えば、特許文献1は、カメラのセンサの個々のピクセルで取得された光場を、対応する変調関数に従って変調し、各露出時間中に積分されたフレームを生成し、生成したフレームを凸最適化方法で再構成する手法を開示している。
特許第5726057号公報
T. Sonoda, H. Nagahara, K. Endo, Y. Sugiyama, R. Taniguchi, "High-speed imaging using CMOS image sensor with quasi pixel-wise exposure", International Conference on Computational Photography (ICCP), pp.1-11, 2016. M. Iliadis, L. Spinoulas, A. K. Katsaggelos, "Deep fully-connected networks for video compressive sensing", Digital Signal Proessing 72: 9-18, 2018. Y. Hitomi, J. Gu, M. Gupta, T. Mitsuniga, S. K. Nayar, "Video from a single coded exposure photograph using a learned over-complete dictionary", International Conference on Computer Vision (ICCV), pp.287-294, 2011. J. Yang, X. Yuan, X. Liao, P. Llull, D. J. Brady, G. Sapiro, L. Carin, "Video compressive sensing using Gaussian mixture models", IEEE Transactions on Image Processing, pp.4863-4878, 2014. M. Iliadis, L. Spinoulas, A. K. Katsaggelos, "DeepBinaryMask: Learning a Binary Mask for Video Compressive Sensing", arXiv preprint arXiv: 1607.03343 2016. M. Courbariaux, I. Hubara, D. Soudry, R. El-Yaniv, Y. Bengio, "Binarized neural networks: Training neural networks with weights and activations constrained to +1 or -1", arXiv preprint arXiv: 1602.02830 2016. M. Gygli, H. Grabner, H. Riemenschneider, L. V. Gool, "Creating Summaries from User Videos", ECCV,2014, https://people.ee.ethz.ch/gyglim/vsum/ Rty. T. D.: Survey on Contemporary Remote Surveillance Systems for Public Safety, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), Vol. 40, No.5, pp. 93-515, 2010. Li, Y., Ai, H., Yamashita, T., Lao, S. and Kawade,, M.: Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Ovservers of Different Life Spans, Vol. 30, No. 10, pp. 1728-1740, 2008. Yoshida, M., Torii, A., Okutomi, M., Endo, K., Sugiyama, Y., Tanigushi, R.-i. and Nagahara, H.: Joint optimization for compressive video sensing and reconstruction under hardware constraints, Proceedings of European Conference on Conmputer Vision (ECCV), 2018. Bobick, A. F. and Davis, J. W.: The recognition of human movement using temporal templates, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp. 257-267, 2001. Blank, M., Gorelick, L., Shechtman, E., Irani, M. and Basri, R.: Actions as Space-Time Shapes, Proceedings of International Conference on Computer Vision (ICCV), pp. 1395-1402, 2005. Laptev, I.: On Space-Time Interest Points, International Journal of Comnputer Vision, Vol. 64, No. 2, pp. 107-123, 2005. Dalal, N. and Triggs, B.: Histograms of oriented gradients for human detection, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vol. 1, pp. 886-893, 2005. Klaser, A., Marszalek, M. and Schmid, C.: A Spatio-Temporal Descriptor Based on 3D-Gradients, Proceedings of British Machine Vision Conference (BMVC) (Everningham, M., Needham, C. and Fraile, R., eds.), Leeds, United Kingdom, British Machine Vision Association, pp. 275:1-10, 2008. Csurka, G., Dance, C. R., Fan, L., Willamowski, J. and Bray, C.: Visual categorization with bags of keypoints, Proceedings of European Conference on Conputer Vision (ECCV), pp. 1-22, 2004. Lptev, I., Marszalek, M., Schmid, C. and Rozenfeld, B.: Learning realistic human actions from movies, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1-8, 2008. Simonyan, K. and Zisserman, A.: Two-Stream Convolutional Networks for Action Recognition in Videos, Advances in Neural Information Processing System (NIPS) (Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N. D. and Weinberger, K. Q., eds.), Curran Associates, Inc., pp. 568-576, 2014. Tran, D., Bourdev, L., Fergus, R., Torresani, L. and Paluri, M.: Learning SpatiotemporalFeatures with 3D Convolutional Networks, Proceedings of International Conference on Computer Vision (ICCV), pp. 4489-4497, 2015. Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., Suleyman, M. and Zisserman, A.: The Kinetics Human Action Video Dataset, CoRR, Vol. abs/1705.06950, 2017. Carreira, J. and Zisserman, A.: Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4724-4733, 2017. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. and Rabinovich, A.: Going deeper with convolutions, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1-9, 2015. Schldt, C., Laptev, I. and Caputo, B.: Recognizing Human Actions: A Local SVM Approach, Proceedings of International Conference on Pattern Recognition (ICPR), Washington, DC, USA, IEEE Computer Society, pp. 32-36, 2004.
特許文献1に記載の従来技術では、変調関数に基づいて各ピクセルの露光の状態を変調させているが、カメラが撮影する映像の各フレームにおける最適な露光パターンを、イメージセンサの種類に応じて適切に決定できていると言い難い。
そこで、本開示は、イメージセンサの種類に応じて適切な露光パターンを決定することができる動画像処理方法及び動画像処理装置を提供する。
本開示の一態様に係る動画像処理方法は、2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、前記圧縮ステップに先立ち、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習ステップと、を含み、前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られた露光パターンを用いて前記圧縮動画像を生成する。
また、本開示の一態様に係る動画像処理装置は、2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成するカメラに用いられる動画像処理装置であって、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習部と、前記第1機械学習部による最適化によって得られた露光パターンを出力する出力部と、を備える。
なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータで読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
本開示の一態様に係る動画像処理方法及び動画像処理装置によれば、イメージセンサの種類に応じて適切な露光パターンを決定することができる。
図1は、一般的な動画像の圧縮センシングのフローの一例を示す図である。 図2は、ハードウェアへの実装上の制約を満たす露光パターンの例を示す図である。 図3は、SBE(Single Bump Exposure)センサの構造の一例を示す図である。 図4は、SBEセンサにおける1フレーム間の露光回数を示す図である。 図5は、RCE(Row Column wise Exposure)センサの構造の一例を示す図である。 図6は、RCEセンサにおける1フレーム間の露光回数を示す図である。 図7は、全体を考慮する動きの表現の一例を示す図である。 図8は、全体を考慮する動きの表現の他の例を示す図である。 図9は、人間の行動認識を行う手法の概要を説明するための図である。 図10は、実施の形態における動画像処理システムの機能構成の一例を示すブロック図である。 図11は、実施の形態における機械学習部の構成の一例を示す図である。 図12は、実施の形態に係る動画像処理方法の一例を示すフローチャートである。 図13は、実施の形態で使用される人工知能の一例を示す図である。 図14は、実施の形態における機械学習ステップの構成の一例を示す図である。 図15は、2値化された露光パターンを更新する一例を示す図である。 図16は、実験例2の結果を示す図である。 図17は、実験例3の結果を示す図である。 図18は、カラー動画像の圧縮センシングのフローの一例を示す図である。 図19は、カラーフィルタパターンの一例を示す図である。 図20は、実験例で使用した露光パターン及びカラーフィルタパターンの一例を示す図である。 図21は、実験例4の結果を示す図である。 図22は、変形例2に係る動画像処理方法の一例を示すフローチャートである。 図23は、変形例2における機械学習ステップの高齢の一例を示す図である。 図24は、KTH Actionデータセットにおける各行動クラスの1シーンを示す図である。 図25は、実験例5における比較手法の一例を示す図である。 図26は、ニューラルネットワークに入力される画像のあるピクセルにおける露光の一例を示す図である。 図27は、各比較手法の混同行列を示す図である。 図28は、実験例6の結果を示す図である。
(本開示の基礎となった知見)
高空間解像度で高フレームレートな動画像は、実際に何が起きているのかを分析するために有用である。通常、このような動画像は、ハイスピードカメラで撮像される。ハイスピードカメラは、センサからの読み出しを高速に行うため、画素毎にバッファを設ける他、アナログデジタル(AD)変換の時間を短縮するために並列のAD変換器を搭載している。このような特殊なセンサは非常に高価であり、回路が複雑になることからフォトトランジスタの面積が減少するため感度が悪くなる問題もある。そこで、高空間解像度で高フレームレートな動画像を取得する手段の一つとして圧縮センシングを用いた手法が提案されてきた(非特許文献1~4)。
通常、動画像の撮影は、全ての画素が同時に露光するグローバルシャッタを有するセンサを用いて複数の静止画像を連続して撮影することで実現される。これに対して、圧縮ビデオセンシングは、圧縮ステップと再構成ステップとを有し、動画像を撮影しながら動画像の圧縮を行い、圧縮された動画像から元の動画像に再構成する。より具体的には、圧縮ステップでは、撮像センサは、隣接画素毎に露光タイミングをランダムにずらして単一画像を撮影する。これにより、時間情報を単一画像にサンプリングした符号化露光画像を得ることができる。次いで、再構成ステップでは、圧縮ステップで得られた符号化露光画像に含まれる異なる時間情報を用いて単一画像から複数フレームの動画像を再構成する。図1は、一般的な動画像の圧縮センシングのフローの一例を示す図である。図1に示すように、圧縮ビデオセンシングでは、センシング部は、一連のシーンを含む動画像を、露光パターンを用いて画素毎の露光タイミングをずらして撮影することにより、時間情報を単一画像に集約した符号化露光画像を作成する。次いで、再構成部は、符号化露光画像に含まれる異なる時間情報を用いて、一連のシーンを含む動画像を再構成する。この圧縮センシングのモデルは、以下の式(1)で表される。
Figure 0007272625000001
式中、xは未知の動的シーン(未知の動画像)、yは符号化露光画像、φは符号化露光パターンである。
一般に、圧縮センシングでは、符号化露光画像yから符号化露光パターンφを用いて未知の動画像xを再構成する。式(1)から、符号化露光画像yから符号化露光パターンφを用いて再構成される未知の動画像xの品質は、符号化露光パターンφの圧縮性能に依存することが分かる。
圧縮ビデオセンシングでは、各画素でランダムなタイミングで露光された画像を撮影する必要がある。そのため、符号化露光パターンは、様々なものが提案されている。しかしながら、一般的なCCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)センサは、全ての画素が同時に露光するグローバルシャッタ又は画素の読み出し順に露光を行うローリングシャッタが一般的であり、圧縮ビデオセンシングにおいて理想的なセンサは一般には存在しない。そのため、理想的なランダムな露光を想定した符号化露光パターン、又は、ハードウェアへの実装上の制約を考慮した符号化露光パターンが用いられている。
例えば、非特許文献5では、画素毎にランダムな露光が制御可能な理想的なセンサ(以下、完全ランダムセンサ)を想定し、露光パターンの最適化を行う手法を開示している。具体的には、非特許文献5では、各画素の露光時間を16分割し、4画素×4画素×16のランダムなパターンを繰り返した8画素×8画素×16の符号化露光パターンとしたシミュレーション実験を行っている。非特許文献1では、画素毎に露光を制御可能なプロトタイプのCMOSセンサを用いて、疑似ランダム露光な符号化露光を実現した。ハードウェアの制約から縦列、横列で同時に露光する8×8の符号化露光パターンを用いた実証実験を行った。
以下、ハードウェアへの実装上の制約の例として、画素毎に露光を制御できる現実的なセンサとして想定されているCMOSセンサ(非特許文献3参照)と、画素毎に露光を制御できるプロトタイプのCMOSセンサ(非特許文献1参照)について図面を参照しながら説明する。なお、非特許文献3で想定しているCMOSセンサをSBE(Single Bump Exposure)センサと呼び、非特許文献1で想定しているプロトタイプのCMOSセンサをRCE(Row Column wise Exposure)センサと呼ぶ。
図2は、ハードウェアへの実装上の制約を満たす露光パターンの例を示す図である。図2の(a)は、上述の完全ランダムセンサに実装可能な露光パターンを示し、図2の(b)は、SBEセンサに実装可能な露光パターンを示し、図2の(c)は、RCEセンサに実装可能な露光パターンを示している。
図3は、SBEセンサの構造の一例を示す図である。図3に示すように、SBEセンサは、画素毎に露光を制御するために、通常のCMOSセンサにアドレス線を追加したものであり、実現可能なセンサである。通常のCMOSセンサは、行毎にアドレスを制御することで1行ずつ読み出すローリングシャッタを搭載していることが多い。また、通常のCMOSセンサは、画素毎のバッファを持たないため、非破壊読出しは不可能である。一方、SBEセンサでは、通常のCMOSセンサに列毎のアドレスを決める回路を組み込むことで、画素毎の読み出しを可能としている。図4は、SBEセンサにおける1フレーム間の露光回数の一例を示す図である。図4に示すように、SBEセンサでは、1フレームの間に各画素は1回露光される。なお、露光の開始及び終了のタイミングは、一例であり、各フレームにおいてランダムである。図2の(b)に示すように、非特許文献3では、SBEセンサに実装可能な露光パターン(以下、符号化露光パターンともいう。)として、1回の露光で開始及び終了を任意とする単一露光の符号化露光パターンを開示している。また、非特許文献3では、7×7の符号化露光パターンを用いて、シミュレーション実験と、反射光学系及びLiquid Crystal on Silicon(LCoS)を用いた疑似実装による実験と、を行っている。
図5は、RCEセンサの構造の一例を示す図である。図5に示すようにRCEセンサは、露光を制御するために信号線を追加した試作(プロトタイプ)のCMOSセンサである。図5は、RCEセンサの左上を示している。RCEセンサは、8×8のブロック構造を備える。RCEセンサは、露光を制御するための追加の信号線として8本のReset信号線と8本のTransfer信号線とを備え、各Reset信号線は、8列おきに共有されており、各Transfer信号線は、8行おきに共有されている。そのため、符号化露光パターンはブロック毎に同じものとなる。また、RCEセンサは、非破壊読み出しが可能である。図6は、RCEセンサにおける1フレーム間の露光回数を示す図である。図6に示すように、RCEセンサでは、1フレームの間に各画素は複数回露光され得る。しかしながら、RCEセンサは、Reset信号線とTransfer信号線とをそれぞれ8本しか備えておらず、かつ、1本のReset信号線と1本のTransfer信号線とがそれぞれ1つのブロック内の列及び列の画素間で共有されている。そのため、非特許文献1では、RCEセンサに実装可能な符号化露光パターンとして、列及び行で同時に露光する8×8の符号化露光パターンを用いた実証実験を行っている。
このように実際の圧縮センシングに用いられるカメラには様々な制約があるため、ハードウェアへの実装上の制約を考慮しながら符号化露光パターンの最適化を行う必要がある。
そこで、本願発明者らは、DNN(Deep Neural Network)を用いてハードウェアへの実装上の制約を満たした最適な符号化露光パターンを決定することにより、従来手法により決定された符号化露光パターンを用いて圧縮された画像(以下、圧縮画像)を再構成した映像よりも画質の良い映像を再構成できることを見出した。また、本願発明者らは、符号化露光パターンの最適化を行うと同時に、圧縮画像から映像(動画像)を再構成するデコーダを最適化することにより、従来手法よりもさらに再構成品質を向上させることができることを見出した。
続いて、行動認識に関する従来技術について説明する。かつては、行動認識に3Dモデルを利用していた。しかし、映像から正確な3Dモデルを構築することは難しいため、多くの場合、代わりに全体的又は局所的な動きの表現を利用する手法が取られている。全体を考慮する動きの表現では、人体の構造又は形状、もしくは、動きのグローバルな表現を用いている。図7は、全体を考慮する動きの表現の一例を示す図であり、図8は、全体を考慮する動きの表現の他の例を示す図である。例えば、図7に示すように、非特許文献11では、動きに関する情報を単一の画像にエンコードする2値画像を蓄積したMotion Energy Image(MEI)、又は、輝度で時間を表すMotion History Image(MHI)が開示されている。また、図8に示すように、非特許文献12では、オブジェクトの輪郭を時間軸に沿って積み重ねたSpace-Time Volume(STV)が開示されている。全体を考慮したこれらのアプローチは、視点及び外観の変化を捕捉するのが難しく、STVでは細部を捉えることができない問題点がある。一方、局所領域を考慮する動きの表現では、一般的な画像認識と同時に、関心点の検出、局所記述子の抽出、及び、局所記述子の集約という手順に従い、行動認識のための局所特徴を作成する。非特許文献13では、時空間領域における関心点の検出として、2次元のHarrisコーナー検出器を3次元に拡張するSpace-Time Interest Points(STIP)が開示されている。非特許文献15では、時空間の局所記述子として、非特許文献14に記載のHistograms of Orienter Gradients(HOG)をモーション記述子として利用することが開示され、また、ビデオクリップ内のピクセルレベルの動きをエンコードするHistograms of Optical Flow(HOF)が開示されている。記述子の集約では、画像認識と同様にBag-of-Features(BoF)(非特許文献16)が用いられた。特に、カテゴリー分類では、テキスト分類で高い評価を受けていたSupport Vector Machine(STM)がBoFベクトルに対しても用いられるようになっている(非特許文献17)。
画像認識の分野で、畳み込みニューラルネットワーク(CNN)が注目されるようになると、映像認識の分野でもCNNが用いられるようになっている。CNNは、関心点の検出、局所記述子の抽出、局所記述子の集約のいずれの段階でも使用でき、画像フレームを特徴化するだけでなく、オプティカルフロー又はHOGなどと組み合わせても使用されている。非特許文献18では、RGBの画像フレームとオプティカルフローとを蓄積したものをそれぞれ外観とモーション情報として用いることを開示し、また、2つのストリームを結合することで更なる精度向上を開示している。UCF101又はHMDB51などのデータセットにおいてDeep Learningを使用しないかつての認識精度を大幅に改善し、2ストリームネットワークに基づく数多くの研究がなされている。一方、非特許文献19は、3次元で畳み込むことで外観とモーションとを同時にモデルするネットワーク(C3D:Convolution 3D)を開示している。これは、2ストリーム2D CNNに劣るものの大規模動画データセットであるSports-1Mを用いて良い精度を達成している。非特許文献20は、行動認識の大規模化かつ校正されたデータセットであるKineticsを開示している。これは、比較的小規模な3D CNNにおいて、事前学習なしのモデルでありながら、構成されたデータで学習することにより、ImageNetで事前学習した2D CNNに迫る精度を達成することを示している。非特許文献21では、22層の2D CNNであるGoogLeNet(Inception v1)(非特許文献22)を3Dに拡張したI3Dを開示し、Kineticsデータセットを用いて学習し最先端の精度を達成している。
以上のように、行動認識に関する様々な技術が開示されているが、ビデオ監視システムにおける人間の行動認識、つまり、映像解析におけるデータ圧縮のトレードオフな問題に対し、圧縮センシングによる解決を考える。単に圧縮ビデオセンシングの適用を考えた場合、符号化露光画像から動画像の再構成を行うことで、通常の動画像と同様に映像解析を行うことが可能である。
符号化露光画像の情報量は、符号化露光画像のサイズW×Hであり、露光時間をTとすると、未知の動画像の情報量は、W×H×Tとなる。これは、観測した情報よりも多くの情報を復元することとなるため、一意に定めることはできない。そこで、非特許文献3及び非特許文献1では、動画像は、基底となる動画像及びそのスパースな係数で表現できると仮定するスパース最適化による再構成手法を用いて、観測した情報よりも十分少ない数の係数を求めることで、動画像の再構成を行っている。非特許文献3では、スパース最適化手法として、Lノムル正則化を行うOrthogonal Matching Pursuit(OMP)アルゴリズムを用いている。一般に、スパース最適化は、NP困難な問題であることが知られている。したがって、スパース最適化を用いた再構成手段は、膨大な時間を要するものであり、実用的な手法であるとは言えない。非特許文献4は、動画像は、Gaussian Mixture Model(GMM)で表現可能であると仮定し、符号化露光画像が与えられた事後確率の期待値から動画像を再構成する、より高速な手段を開示している。また、非特許文献2は、Deep Learningを利用し、符号化露光をエンコーダとするAutoEncoderを学習することで、符号化露光画像から動画像を再構成するデコーダを作成し、より高速な再構成手段を開示している。
なお、自動監視システムでは、カメラの視野内の人間の不審な行動を検出又は予測し、オペレータに警告する必要がある。そのため、本願発明者らは、映像解析として人間の行動認識に焦点を当てる。図9は、人間の行動認識を行う手法の概要を説明するための図である。例えば、図9の(b)に示すように、人間の行動認識に圧縮ビデオセンシングの適用を考えた場合、符号化露光画像から動画像の再構成という高次元化を行った後、動画像から行動ラベルの推定という低次元化を行っており、非効率である。符号化露光画像には、時間情報が含まれているため、図9の(a)に示すように、動画像の再構成を介さなくても直接、行動認識を行うことができると考えられる。そこで、本願発明者らは、符号化露光カメラにより撮影される単一の符号化露光画像からDeep Learningを用いて、直接、人間の行動認識を行う手法を見出した。
本開示の一態様の概要は以下の通りである。
本開示の一態様に係る動画像処理方法は、2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、前記圧縮ステップに先立ち、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習ステップと、を含み、前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られた露光パターンを用いて前記圧縮動画像を生成する。
これにより、機械学習によって露光パターンが最適化されるため、イメージセンサの種類に応じて適切な露光パターンを決定することができる。
例えば、本開示の一態様に係る動画像処理方法では、前記露光パターンは、前記圧縮動画像を構成するフレーム毎に前記イメージセンサを構成するピクセルのうち露光に用いるピクセルを指定した情報であってもよい。
これにより、当該露光パターンを用いて撮影された圧縮動画像は、各ピクセルが複数のフレームのうちのどのフレームにおいて露光されたかを示す時間的情報と、圧縮動画像における各ピクセルの位置を示す空間的情報とを有する。そのため、従来手法のように、時間的情報のみ又は空間的情報のみを犠牲にして圧縮動画像を生成した場合に比べて、高い圧縮効率が得られる。
例えば、本開示の一態様に係る動画像処理方法は、さらに、前記圧縮ステップで生成された前記圧縮動画像に対して、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する再構成ステップを含んでもよい。
これにより、圧縮動画像から、時間的及び空間的に間引かない露光パターンによる撮影によって得られる未知動画像に近い出力画像が再構成される。
例えば、本開示の一態様に係る動画像処理方法は、さらに、前記再構成ステップに先立ち、前記圧縮動画像を入力とし、前記出力動画像を出力するための人工知能を機械学習しておく第2機械学習ステップを含み、前記再構成ステップでは、前記第2機械学習ステップで機械学習された前記人工知能を用いて前記出力動画像を生成してもよい。
これにより、機械学習が用いられることで、圧縮動画像から高い品質で再構成された出力画像が得られる。
例えば、本開示の一態様に係る動画像処理方法では、前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像を再構成することによって前記出力動画像を生成する再構成層と、を含み、前記第1機械学習ステップと前記第2機械学習ステップとは、前記センシング層と前記再構成層とを含む前記人工知能に対する教師あり学習によって行われてもよい。
これにより、未知動画像を圧縮する処理と、圧縮動画像から未知動画像を再構成する処理とを一つの人工知能を用いて行うことができる。さらに、当該人工知能は、未知動画像の圧縮のための露光パターンの最適化と、圧縮動画像から未知動画像を再構成するための再構成アルゴリズムの最適化とを、教師あり学習により行うため、入力と正解データとを基に効率よく学習することができる。
例えば、本開示の一態様に係る動画像処理方法は、さらに、前記圧縮ステップで生成された前記圧縮動画像から、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した前記動きの種類を示す動き情報を生成する動き検出ステップを含んでもよい。
これにより、圧縮動画像が有する時間的及び空間的情報から動画像を再構成することなく、直接、動画像が示す動きの種類を示す動き情報を生成することができる。そのため、従来よりもデータ量が低減されるため、迅速に、かつ、精度良く動画像が示す動きの種類を識別することができる。
例えば、本開示の一態様に係る動画像処理方法は、さらに、前記動き検出ステップに先立ち、前記圧縮動画像を入力とし、前記動き情報を出力するための人工知能を機械学習しておく第3機械学習ステップを含み、前記動き検出ステップでは、前記第3機械学習ステップで機械学習された前記人工知能を用いて前記動き情報を生成してもよい。
これにより、機械学習が用いられることで、圧縮動画像から高い品質で動きが検出される。
例えば、本開示の一態様に係る動画像処理方法では、前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像から前記動き情報を生成する動き検出層とを含み、前記第1機械学習ステップと前記第3機械学習ステップとは、前記センシング層と前記動き検出層とを含む前記人工知能に対する教師あり学習によって行われてもよい。
これにより、未知動画像を圧縮する処理と、圧縮動画像から未知動画像の動きの種類を示す動き情報を生成する処理とを一つの人工知能を用いて行うことができる。さらに、当該人工知能は、未知動画像の圧縮のための露光パターンの最適化と、圧縮動画像から未知動画像動きの種類を示す動き情報を生成するための動き情報生成アルゴリズムの最適化とを、教師あり学習により行うため、入力と正解データとを基に効率よく学習することができる。
例えば、本開示の一態様に係る動画像処理方法では、前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、前記圧縮ステップでは、前記カラーフィルタのパターンを時間的及び空間的に変化させた繰り返し露光による撮影を行うことで、前記圧縮動画像を生成し、前記第1機械学習ステップでは、さらに、前記圧縮ステップに先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて前記圧縮動画像を生成してもよい。
これにより、未知のカラー動画像を構成する各フレームに最適なカラーフィルタパターンを選択して適用することができるため、動画像の再構成のために十分な情報を残しつつ、圧縮動画像のデータ量を低減することができる。そのため、未知のカラー動画像の圧縮性能が向上される。機械学習によって露光パターンだけでなくカラーフィルタパターンも最適化されるため、カラー撮像に対応したイメージセンサの種類に応じて適切な露光パターン及びカラーフィルタパターンを決定することができる。
また、本開示の一態様に係る動画像処理装置は、2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成するカメラに用いられる動画像処理装置であって、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習部と、前記第1機械学習部による最適化によって得られた露光パターンを出力する出力部と、を備える。
これにより、機械学習によって露光パターンが最適化されるため、イメージセンサの種類に応じて適切な露光パターンを決定することができる。
さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータで読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、以下の説明において、第1、第2、及び、第3等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
(実施の形態)
まず、本実施の形態における動画像処理システムについて図10を参照しながら説明する。図10は、実施の形態における動画像処理システム300の機能構成の一例を示すブロック図である。
図10に示すように、動画像処理システム300は、動画像処理装置100と、カメラ200と、を備える。カメラ200は、2次元状にピクセルが配置されたイメージセンサを備え、動画像処理装置100から出力された露光パターンを用いて、時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する。カメラ200は、動画像処理装置100により最適化された露光パターンを取得して保持する露光パターン保持部90と、露光パターン保持部90に保持された複数の露光パターンからイメージセンサの種類に応じて適切な露光パターンを選択してイメージセンサに適用させることで圧縮動画像を生成する圧縮動画像生成部80とを備える。
動画像処理装置100は、通信部10と、制御部20と、表示部60と、入力部70と、を備える。制御部20は、機械学習部30と、再構成部40と、動き情報生成部50と、を備える。
機械学習部30は、例えば、ニューラルネットワークなどの人工知能(不図示)に学習を行わせる。機械学習部30は、人工知能に学習させる学習内容の違いにより、第1、第2及び第3など複数の機能部に分けて構成されてもよい。例えば、第1機械学習部(不図示)は、露光の態様を特定する露光パターンを最適化するための人工知能に学習させる。第2機械学習部(不図示)は、圧縮動画像を入力とし、出力動画像を出力するための人工知能に学習させる。第3機械学習部(不図示)は、圧縮動画像を入力とし、動き情報を出力するための人工知能に学習させる。機械学習部30は、例えば教師データを用いて人工知能に学習させる。なお、露光パターンは、圧縮動画像を構成するフレーム毎にイメージセンサを構成するピクセルのうち露光に用いるピクセルを指定した情報である。また、露光パターンを最適化するとは、複数の露光パターンの中から、ハードウェアへの実装上の制約を満たし、かつ、動画像を構成する各フレームに最適な露光パターンを選択することをいう。
再構成部40は、カメラ200が生成した圧縮動画像に対して、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する。
再動き情報生成部50は、カメラ200が生成した圧縮動画像から、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した動きの種類を示す動き情報を生成する。
通信部10は、第1機械学習部(不図示)による最適化によって得られた露光パターンをカメラ200に出力する出力部(不図示)と、カメラ200が生成した圧縮動画像を取得する取得部(不図示)と、を備える。通信部10は、Wi-Fi(登録商標)をはじめとする無線通信、又は、Ethernet(登録商標)をはじめとする有線通信を利用した通信であってもよく、Bluetooth(登録商標)、特定小電力無線、又は、可視光通信を利用した通信をであってもよい。
表示部60は、例えば、ディスプレイであり、例えば再構成部40で再構成された動画像を、入力部70に入力されたユーザの指示に基づいて表示する。入力部70は、例えば、キーボード、マウス、タッチパネル、又は、マイクなどであり、ユーザの指示の入力を受け付ける。なお、動画像処理装置100は、表示部60及び入力部70を備えていなくてもよい。表示部60及び入力部70は、例えば、動画像処理装置100以外の他の装置が備えてもよい。また、動画像処理装置100は、カメラ200に実装されてもよく、コンピュータに実装されてもよく、インターネットなどの通信ネットワークを介して接続されるサーバ上に設けられてもよい。
続いて、実施の形態に係る動画像処理方法について説明する。図11は、実施の形態に係る動画像処理方法の一例を示すフローチャートである。
図11に示すように、カメラ200は、圧縮動画像を生成する(圧縮ステップS10)。より具体的には、カメラ200は、2次元にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行い、圧縮動画像を生成する。なお、圧縮ステップでは、後述する第1機械学習ステップによる最適化によって得られた露光パターンを用いて圧縮動画像を生成する。ここで、時間的及び空間的に間引いた繰り返し露光による撮影とは、イメージセンサのピクセル毎に露光の態様を特定する複数の露光パターンの中から、動画像を構成する複数のフレームのそれぞれに対して最適な露光パターンを選択して各フレームに適用した撮影である。
次いで、動画像処理装置100は、カメラ200が生成した圧縮動画像を動画像に再構成する(再構成ステップS20)。より具体的には、動画像処理装置100は、圧縮ステップS10でカメラ200が生成した圧縮動画像に対して、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する。なお、再構成ステップS20では、後述する第2機械学習ステップで機械学習された人工知能を用いて出力動画像を生成する。
なお、これらの2つのステップのそれぞれに先立ち、機械学習部30は、各ステップで使用される人工知能に学習させてもよい。以下、機械学習部30が人工知能に学習させる学習ステップ、及び、人工知能のそれぞれについて説明する。
図12は、圧縮及び再構成ステップで使用される人工知能の学習ステップの一例を示す図である。図12に示すように、機械学習ステップは、上記の圧縮ステップS10に先立ち、露光パターンを最適化するための人工知能に学習させる第1機械学習ステップS1と、上記の再構成ステップS20に先立ち、圧縮動画像を入力させ、出力動画像を出力するための人工知能に学習させて再構成アルゴリズムを最適化する第2機械学習ステップS2と、を含む。なお、これらのステップは、同時に実施されてもよく、個別に実施されてもよい。また、これらのステップは、順番を問わずに実施されてもよい。また、これらのステップの両方とも実施されてもよく、一方のみ実施されてもよい。つまり、必要に応じて適宜実施されるとよい。
続いて、動画像の圧縮及び再構成に使用される人工知能の一例について、図13を参照しながら説明する。図13は、実施の形態において動画像の圧縮及び再構成に使用される人工知能の一例を示す図である。
人工知能は、ニューラルネットワーク(NN)で構成される。ニューラルネットワークは、例えば、Deep Neural Network(DNN)である。当該人工知能は、未知動画像から露光パターンに対応する重み係数を用いた演算により圧縮動画像を生成するセンシング層(以下、圧縮センシング層ともいう。)と、センシング層が生成した圧縮動画像を再構成することによって出力動画像を生成する再構成層と、を含む。
図13に示すように、センシング層は、2値化された複数の露光パターンの中から、カメラ200が撮影する動画像(Wp×Hp×T)を構成する各フレームに最適な露光パターンをそれぞれ選択して各フレームに適用することにより圧縮動画像、つまり、符号化動画像(Wp×Hp)を生成する。
ここで、上記の2値化された複数の露光パターンは、例えば、図2の(a)に示すように、全画素において完全にランダムな露光が可能なセンサに実装可能な複数の露光パターンと、図2の(b)及び(c)に示すように、ハードウェアへの実装上の制約を考慮して準備された複数の露光パターンと、を含む。なお、全画素において完全にランダムな露光とは、動画像を構成するフレーム毎に、全画素のうちのランダムに選択された画素に露光させることである。例えば、実装を考えられ得るあらゆるハードウェアに関して、これらのハードウェアへの実装上の制約を満たす全ての種類の露光パターンを予め準備し、当該複数の露光パターンをメモリ(不図示)に格納する。人工知能は、メモリ(不図示)に格納された複数の露光パターンの中からカメラ200が撮影する動画像の各フレームに最適な露光パターンを選択して、動画像処理装置100からカメラ200へ出力させることで、最適な動画像の符号化、つまり、圧縮を行う。
ハードウェアへの実装上の制約のある露光パターンは、ハードウェアの構造から簡単に導出することができる。例えば、ハードウェアがSBEセンサ(図3参照)である場合、SBEセンサのダイナミックレンジを考慮すると、全画素において露光時間が同じであることが望ましい。そのため、圧縮性能を高めるためにSBEセンサで制御可能なことは、露光開始のタイミングを制御することである。したがって、SBEセンサにおいては、考えられ得る全ての露光開始のタイミング(開始時間(秒)t=0,1,2、・・・、T-d)を求めることで全ての種類の露光パターンが導出される(図2の(b)参照)。ここで、dは露光時間である。
また、例えば、ハードウェアがRCEセンサ(図5参照)である場合、RCEセンサにおいては、まず、全てのReset信号(8bit)とTransfer信号(8bit)の組を生成する。次に、生成した全ての信号の組から生成される露光パターンをシミュレートすることで、全ての種類の露光パターンが導出される(図2の(c)参照)。
図13に示すように、再構成層は、センシング層で作成された圧縮動画像を入力層に入力し、出力層から出力動画像を出力する。より具体的には、再構成層は、圧縮センシング層において、動画像を構成する各フレームに最適な露光パターンを用いて圧縮された単一の画像(圧縮動画像)から、複数フレームで構成される動画像を再構成する。再構成層は、入力される単一の画像から複数フレームで構成される動画像への非線形写像をDNNを用いて学習する。図13に示すように、このDNNは4層の隠れ層を持ち、伝達係数にはReLU(Rectified Linear Unit)を用いる。DNNは、訓練動画像と再構成動画像との誤差を小さくするように学習する。再構成動画像の評価にピーク信号対雑音比(PSNR)を用いる。そのため、損失関数は、PSNRと関係の深い平均二乗誤差(MSE)を用いる。
以上のように、動画像の圧縮及び再構成を行う人工知能(ここでは、DNN)は、センシング層と再構成層とを含み、当該人工知能に対する機械学習である第1機械学習ステップ及び第2機械学習ステップで、訓練動画像を用いた教師あり学習によって行われる。これにより、本実施の形態における人工知能は、圧縮センシングのための露光パターンの最適化と、デコーダの再構成アルゴリズムの最適化とを同時に学習することができる。
続いて、動画像の圧縮及び再構成を行うために用いられる人工知能(ここでは、DNN)の機械学習の手順についてより具体的に説明する。図14は、実施の形態における機械学習ステップの構成の一例を示す図である。
上述のように、DNNは、ハードウェアへの実装上の制約を満たしながら露光パターンの最適化を行うセンシング層と、圧縮動画像である観測画像から動画像を再構成する再構成層と、の二つの層から構成されている。図14に示すように、DNNの訓練(つまり、機械学習)は、例えば、以下の手順で行う。ここでは、第1学習ステップ及び第2学習ステップを同時に実施する機械学習の一例を説明する。
(1)センシング層から再構成層に向かう処理を行うForward時には、センシング層では2値化された重みである2値化露光パターンを用い、再構成層では連続値重みを用いる。
(2)誤差逆伝播により勾配を求める。
(3)求めた勾配を用いてネットワーク全体の連続値重みを更新する。
(4)更新された連続値重みを、ハードウェアへの実装上の制約を考慮しながら2値化する。これにより、センシング層で使用する2値化重みを更新する。
実際の圧縮センシングでは2値化された露光パターンが用いられるため、ニューラルネットワークの訓練におけるForward時には2値化重みを用いるが、Backward時には微分可能とするため連続値に緩和する(非特許文献6)。図15は、2値化された露光パターンを更新する一例を示す図である。次のForward時に用いる重みは事前に生成した2値化された複数の露光パターンの中からBackward時に導出された連続値重みと最も近いものを内積を用いて選出し、2値化された露光パターンを更新する。
[実験例]
[実験例1]DNNの機械学習
以下の手順により、DNNの機械学習を行った。ネットワーク(DNN)のサイズは、再構成を行うパッチのサイズを基に決定された。本実験例では、非特許文献1に記載の露光を制御できるプロトタイプのセンサを用いた。そのため、パッチのサイズをWp=Hp=8、T=16(図13のWp×Hp×T)とした。また、再構成層の隠れ層は、4層とした。訓練データ(訓練動画像)は、以下の実験例における全ての手法で同様のものを用いた(非特許文献7)。この訓練データは、映像要約のベンチマーク用のデータセットで、この中の20本の動画像から16フレームをランダムに4シーンずつ取り出し、それぞれに回転(90°、180°、270°)と反転を行ったものを用いた。このようにして用意した829,440パッチを用いて、上記の露光パターンと再構成のためのデコーダとを同時に最適化するネットワーク(DNN)の機械学習をend-to-endで行った。当該機械学習は、ミニパッチサイズ200で250epoch行った。
[実験例2]シミュレーション実験
SBEセンサとRCEセンサとを実装対象と仮定して、動画像の圧縮及び再構成のシミュレーション実験を行った。実験に供した動画像は、空間解像度256×256の16フレームから構成される動画像14本であった。再構成した動画像の再構成品質は、ピーク信号対雑音比(PSNR)により評価した。図16は、実験例2の結果を示す図である。
SBEセンサを実装対象としたシミュレーション実験では、動画像を構成する各フレームに、図2の(b)に例示したSBEセンサに実装可能な複数の露光パターンの中からランダムに選択された露光パターンをそれぞれ使用して撮影した圧縮動画像をシミュレートした。次いで、シミュレートして得られた圧縮動画像を再構成ネットワークへ入力し、16フレームから構成される動画像を再構成した(図16のHandcraft SBE)。このとき、DNNの機械学習は、デコーダのみ、つまり、再構成層における再構成アルゴリズムの最適化を行うための学習のみ行った。
一方、上記の実施の形態で開示したように、第1学習ステップ及び第2学習ステップによりDNNの機械学習を行い、動画像を構成する各フレームに最適な露光パターンをそれぞれ選択して撮影した圧縮動画像をシミュレートし、動画像を再構成した(図16のOptimized SBE)。
RCEセンサを実装対象としたシミュレーション実験では、図2の(c)に例示したRCEセンサに実装可能な複数の露光パターンを用いたこと以外は、SBEセンサを実装対象としたシミュレーション実験と同様に行った(図16のHandcraft RCE及びOptimized RCE)。
図16には、14本の動画像を用いた結果のうちの3例の評価結果のみを示した。図16の左端の一列は、試験に供した動画像の1シーンを示している。図16の上段は、郵便配達車を撮影した動画像であり、郵便配達車の側面には手紙のマークが記載されている。図16の中段は、複数の車両が走行している様子を撮影した動画像である。図16の下段は、演者がチェロを伴奏している様子を撮影した動画像である。
図16に示すように、SBEセンサ及びRCEセンサを実装対象としたシミュレーション実験では、それぞれのセンサにおいて以下の評価結果が得られた。
図16の上段(Car)の動画像を比較すると、本実施の形態で開示したDNNを用いて動画像を圧縮して再構成した動画像(Optimized SBE及びOptimized RCE)の方が、ランダムに露光パターンを選択した場合(Handcraft SBE及びHandcraft RCE)よりも手紙のマークがより鮮明に再現された。HandcraftとOptimizedとでPSNRの値を比較しても、Optimizedの方がHandcraftよりも高いため、再構成した動画像は、ノイズが少なく高品質であることが確認できた。
また、図16の中段(Traffic)の動画像及び下段(Cello)の動画像においても、本実施の形態で開示したDNNを用いて動画像を圧縮して再構成された動画像(Optimized SBE及びOptimized RCE)の方が被写体の輪郭がより鮮明であり、各パッチにおける画素値の差が小さく、パッチの境界における画素値の変化がより滑らかで連続した値であった。
また、図示していないが、Handcraft及びOptimizedそれぞれの再構成品質を14本の再構成動画像におけるPSNRの平均値で評価した。14本の動画像の再構成動画像におけるSPNRの平均値は、Handcraft SBEが28.37dBであり、Optimized SBEが29.32dBであり、Handcraft RCEが27.58dBであり、Optimized RCEが27.82dBであった。この結果からも、本実施の形態で開示したDNNを用いて動画像を圧縮する際に最適な露光パターン使用し、再構成アルゴリズムを最適化して得られた再構成動画像の方が再構成品質が良いことが確認できた。
以上の結果により、動画像を圧縮して再構成して得られた動画像の品質(以下、再構成品質)は、SBEセンサ及びRCEセンサのどちらを実装対象とした場合でも、全てのシーンで最適化した露光パターンを適用して圧縮動画像を生成した方が再構成品質が良かった。よって、本実施の形態で開示したDNNは、ハードウェアの実装上の制約下においても、動画像の各フレームにより適した露光パターンを発見することができ、かつ、それ同時に再構成層において再構成アルゴリズムも最適化できるため、圧縮性能だけでなく再構成性能までも向上されていることが確認できた。
[実験例3]実実験
続いて、本実施の形態で開示したDNNを実機に適用して、動画像の圧縮及び再構成を行った。使用したセンサは、実際に画素毎に露光を制御できるセンサ(特許文献2:特開2015-216594号公報)である。動画像の撮影は、15フレーム毎秒(fps:Frames per second)で行い、16サブフレームを再構成するため、再構成動画像は240fps相当である。圧縮センシング層において最適化した露光パターンを用いて動画像を撮影し、再構成アルゴリズムを最適化した再構成層を用いて圧縮動画像から動画像を再構成した。当該センサは、ローリングシャッタ方式であるため、センサ上のピクセルの位置により(ここでは、行毎に)露光パターンを適用する順番が異なる。当該センサのセンササイズは、672×512画素である。当該センサで撮影された動画像を、16サブフレームに分割するため、512÷16=32行毎に各フレームに適用する露光パターンの順番が異なる。そのため、行毎にそれぞれ別のデコーダを用いる必要がある。図17は、実験例3の結果を示す図である。図17の左端の画像は、実際に撮影した動画像であり、左から2番目の画像は、圧縮動画像であり、右側の2つの画像は、再構成した動画像を構成する16つのサブフレームのうちの3つのサブフレームの画像である。当該センサを搭載したカメラで、メトロノームの重りが左右に揺れている様子を撮影した。図17に示すように、再構成動画像を構成する16サブフレームのうち3つのサブフレームの画像から、メトロノームの重りが左右に揺れている様子が確認できた。
(まとめ)
本実施の形態では、圧縮ビデオセンシングにおける露光パターンのハードウェアへの実装上の制約を考慮し、人工知能の一例としてDNNを用いて動画像を構成する各フレームに適した露光パターンの選出と、圧縮動画像から動画像を再構成するためのデコーダの再構成アルゴリズムとを同時に最適化する動画像処理方法を開示した。上記の実験例では、SBEセンサ及びRCEセンサの2つセンサへの実装上の制約について本開示の動画像処理方法を用いて動画像の圧縮及び再構成を行った。上記の実験例の結果から、本開示の動画像処理方法を用いると、実装されるハードウェアの制約に関わらず、撮影される動画像の各フレームに最適な露光パターンを選出することができ、さらに、圧縮動画像から再構成された未知の動画像の品質もより向上されることが確認できた。
(変形例1)
実施の形態では、モノクロの動画像を圧縮及び再構成する手法について説明したが、変形例1に係る動画像処理方法は、カラーの動画像に対して適用可能である。以下、実施の形態と異なる点を中心に説明する。
変形例1における動画像処理システムでは、カメラがピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含むイメージセンサを備える点で実施の形態と異なる。
また、変形例1に係る動画像処理方法は、圧縮ステップでは、カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、圧縮動画像を生成し、第1機械学習ステップでは、さらに、圧縮ステップに先立ち、カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、圧縮ステップでは、第1機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて圧縮動画像を生成する。つまり、変形例1に係る動画像処理方法は、第1学習ステップにおいて、露光パターンの最適化に加えて、カラーフィルタパターンを最適化するステップを有する点、及び、圧縮ステップにおいて、動画像を構成する各フレームに適用された最適なカラーフィルタパターンに応じて露光パターンをそれぞれ選択する点で、実施の形態と異なる。
図18は、カラー動画像の圧縮センシングのフローの一例を示す図である。図18に示すように、変形例1に係る動画像処理方法では、最適化された複数のカラーフィルタパターンの中から動画像を構成する各フレームに適したカラーフィルタパターンをそれぞれ選択すること以外は、実施の形態に係る動画像処理方法のフローと同様である。
図19は、カラーフィルタパターンの一例を示す図である。図19の(a)は、ベイヤーパターンのカラーフィルタの一例であり、図19の(b)は、変形例1における動画像処理方法により最適化されたカラーフィルタの一例を示す。
図20は、カラーフィルタの違いにより適用される露光パターンの例を示す図である。図20の左端の図は、モノクロ動画像を撮像する場合に使用される露光パターンの一例である。図20の中央の図は、ベイヤーパターンのカラーフィルタでカラー動画像を撮像する場合に使用される露光パターンの一例である。図20の右端の図は、最適化されたカラーフィルタパターンでカラー動画像を撮像する場合に使用される露光パターンの一例である。変形例1では、撮影される動画像を構成する各フレームに適したカラーフィルタパターンを選択することにより、カラー動画像の圧縮及び再構成の性能が向上される。
[実験例4]
本実験例では、RCEセンサを実装対象と仮定して、カラー動画像の圧縮及び再構成のシミュレーション実験を行った。実験に供した動画像は、空間解像度256×256の16フレームから構成される動画像25本であった。再構成した動画像の再構成品質は、ピーク信号対雑音比(PSNR)により評価した。図21は、実験例4の結果の一例を示す図である。図21の左端の図(Original Video)は、実験に供したカラー動画像の一例である。ここでは、図21の左端に示すOriginal Videoをシミュレーション実験に供した結果を例に挙げて、シミュレーション実験の内容及び結果について説明する。
まず、シミュレーション実験では、カラー動画像を構成する各フレームに、ベイヤーパターンのカラーフィルタと図2の(c)に例示したRCEセンサに実装可能な複数の露光パターンの中からランダムに選択された露光パターンとをそれぞれ使用して撮影した圧縮動画像をシミュレートした。次いで、シミュレートして得られた圧縮動画像を再構成ネットワークへ入力し、16フレームから構成される動画像を再構成した(図21の左から2番目の図)。このとき、DNNの機械学習は、デコーダのみ、つまり、再構成層における再構成アルゴリズムの最適化を行うための学習のみ行った。このように、デコーダのみ最適化されたDNNを用いて得られた再構成動画像を「デコーダのみ」と称する。
次いで、カラー動画像を構成する各フレームにベイヤーパターンのカラーフィルタと、カラー動画像を構成する各フレームに最適な露光パターンをそれぞれ選択して撮影した圧縮動画像をシミュレートし、動画像を再構成した(図21の左から3番目の図)。このとき、DNNの機械学習は、第1機械学習ステップ及び第2機械学習ステップにより、露光パターンの最適化と再構成層における再構成アルゴリズムの最適化を行うための学習を行った。このように、露光パターンとデコーダとが最適化されたDNNを用いて得られた再構成動画像を、「露光パターン+デコーダ」と称する。
次いで、カラー動画像を構成する各フレームに最適なカラーフィルタパターンと、カラー動画像を構成する各フレームに最適な露光パターンと、をそれぞれ選択して撮影した圧縮動画像をシミュレートし、動画像を再構成した(図21の右端の図)。このとき、DNNの機械学習は、第1機械学習ステップにより、カラーフィルタパターン及び露光パターンの最適化を行うための学習を行い、第2機械学習ステップにより再構成層における再構成アルゴリズムの最適化を行うための学習を行った。このように、カラーフィルタパターンと露光パターンとデコーダとが最適化されたDNNを用いて得られた再構成動画像を、「カラーフィルタ+露光パターン+デコーダ」と称する。
図21に示すように、デコーダのみ、露光パターン+デコーダ、及び、カラーフィルタ+露光パターン+デコーダのそれぞれの再構成動画像を比較すると、デコーダのみの再構成動画像のPSNR値は24.18dBであり、露光パターン+デコーダの再構成動画像のPSNR値は23.92dBであり、カラーフィルタ+露光パターン+デコーダの再構成動画像のPSNR値は23.34dBであった。したがって、これらの再構成動画像のうち、カラーフィルタ+露光パターン+デコーダの再構成動画像は、ノイズが最も少なく、再構成品質が高いことが確認できた。
また、これらの再構成動画像のうち、変形例1で開示したように、カラーフィルタ+露光パターン+デコーダの全てを最適化する学習を行ったDNNを用いて得られた再構成動画像は、被写体の色彩及び輪郭が鮮明であり、パッチの境界における画素値の変化がより滑らかで連続した値であった。
また、図示していないが、デコーダのみ最適化した場合(以下、デコーダのみ)、露光パターン及びデコーダを最適化した場合(以下、露光パターン)、カラーフィルタパターン、及び、露光パターン及びデコーダを最適化した場合(以下、カラーフィルタ+露光パターン)のそれぞれの再構成品質を25本の再構成動画像におけるPSNRの平均値で評価した。25本の動画像の再構成動画像におけるSPNRの平均値は、デコーダのみが26.56dBであり、露光パターンが26.43dBであり、カラーフィルタ+露光パターンが26.76dBであった。この結果からも、変形例1に係る動画像処理方法によりカラー動画像を圧縮する際に最適なカラーフィルタパターン及び露光パターン使用し、再構成アルゴリズムを最適化して得られた再構成動画像は、再構成品質が良いことが確認できた。
(変形例2)
実施の形態及び変形例1では、動画像の圧縮及び再構成の手法について説明したが、変形例2では、圧縮動画像から被写体の動きを検出するための手法について説明する。以下、実施の形態及び変形例1と異なる点を中心に説明する。図22は、変形例2に係る動画像処理方法の一例を示すフローチャートである。図23は、変形例2における機械学習ステップの構成の一例を示す図である。
図22に示すように、変形例2に係る動画像処理方法は、カメラ200(図10参照)は、圧縮動画像を生成する(圧縮ステップS10)。次いで、動き情報生成部50(図10参照)は、圧縮ステップS10で生成された圧縮動画像から、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した動きの種類を示す動き情報を生成する(検出ステップS30)。
図23に示すように、さらに、変形例2に係る動画像処理方法は、動き検出ステップS30に先立ち、圧縮動画像を入力とし、動き情報を出力するための人工知能を機械学習しておく第3機械学習ステップS3を含み、動き検出ステップS30では、第3機械学習ステップS3で機械学習された人工知能を用いて動き情報を生成する。
また、図示していないが、人工知能は、ニューラルネットワークであり、未知動画像から露光パターンに対応する重み係数を用いた演算により圧縮動画像を生成するセンシング層と、センシング層が生成した圧縮動画像から動き情報を生成する動き検出層とを含み、第1機械学習ステップS1と第3機械学習ステップS3とは、センシング層と動き検出層とを含む人工知能に対する教師あり学習によって行われる。
なお、変形例に係る動画像処理方法においても、実施の形態及び変形例1に係る動画像処理方法と同様に、以下の効果が期待される。
変形例2で開示する動画像処理方法においても、実施の形態及び変形例1で上述した通り、イメージセンサの各ピクセルをランダムに露光可能なセンサを用いて符号化露光画像(いわゆる、圧縮動画像)を撮影する。この符号化露光の長さ分だけ、つまり、露光パターンを適用して撮影したフレームの数だけ、データ量を圧縮することが可能である。例えば、16フレームから構成される動画像について、全てのフレームについてそれぞれ最適な露光パターンを適用して圧縮動画像を生成した場合、圧縮動画像のデータ量は、元の動画像のデータ量の1/16倍になる。そのため、通信量の削減及び伝送にかかる消費電力の削減が期待される。
通常の圧縮手法では、カメラで動画像を撮影した後に、動画像を圧縮する。一方、変形例2で開示する動画像処理方法においても、実施の形態及び変形例1で上述した通り、イメージセンサの各ピクセルをランダムに露光して符号化露光画像を撮影することにより、動画像の再構成に十分な情報を単一のフレームに圧縮して取得することができるため、非常に効率的である。そのため、従来の手法に比べて、動画像の圧縮処理にかかる電力などのコスト削減が期待される。
また、変形例2で開示する動画像処理方法においても、上述の通り、動画像の再構成に十分な情報を単一のフレームに圧縮して取得することができるため、従来手法に比べてデータ量を大幅に削減できる。例えば、従来手法として、近年、動画像における被写体の動き等の認識手法がある。当該認識手法では、カメラで撮影された動画像が持つ時間的及び空間的情報を、3次元畳み込みによる時空間情報の特徴化で認識精度を向上させている。しかしながら、3次元畳み込みにより得られる動画像の時空間情報は、パラメータ数及びデータ量が大きい。そのため、これらの時空間情報から動画像における被写体の動きなどを認識(識別)するためには、ニューラルネットワークは、通常のニューラルネットワークよりも多くの層を有する大規模なネットワークとなり、当該ネットワークのパラメータ数も多くなる。また、当該ネットワークを十分に学習させるために必要なデータ数が増えるため、データセットも大規模なものが必要となる。したがって、当該ネットワークでは、大規模GPUクラスタなどの演算資源が学習時に必要となり、学習にかかる時間は膨大なものとなる。一方、変形例2で開示する動画像処理方法では、実施の形態及び変形例1と同様にして生成された符号化露光画像を、動画像における被写体の動きなどを識別するためのニューラルネットワークの入力とすることで、従来手法のように3次元の畳み込みを必要とせず、2次元畳み込みにより時空間情報の特徴化が可能となる。そのため、従来手法の3次元畳み込みによるものに比べ、機械学習に必要となるパラメータ数が減少し、かつ、データ数も小さくなるため、機械学習の効率化が期待でき、少ない学習データでも精度が向上される。
変形例2に係る動画像処理方法におけるネットワークアーキテクチャとして、表1に示す2次元の畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を考える。
Figure 0007272625000002
表1に示すように、2次元のCNNは、例えば、3×3のストライド1の8層の2次元畳み込みと2×2の5層の最大値プーリングと2層の全結合層から構成される。計算の簡略化のため、bias項を無視するとある畳み込み層のパラメータ数Pは、その層の入力チャネル数Cinと出力チャネル数CoutとカーネルサイズKとを用いると、以下の式(2)で表される。
Figure 0007272625000003
したがって、非特許文献19が最も良いとする3次元畳み込みのカーネル3×3×3を用いた場合、本変形例で開示する手法は2次元畳み込みのカーネル3×3であり、畳み込み層のパラメータ数は、非特許文献19の手法のおよそ1/3となる。
本変形例で開示する手法のニューラルネットワークは、次のように学習及び評価を行う。K種類の行動C={C,C,・・・,C}についてのクラス分類を行うとする。ある行動a∈Cにおける長さNの動画像をI={I,I,・・・,I}とする。符号化露光パターンの長さをLとするとビデオクリップの長さはLであり、ビデオクリップは、以下の式(3)で表される。
Figure 0007272625000004
ビデオクリップに符号化露光パターンを適用し、
Figure 0007272625000005
とする。Iに対して、{(X,a)}のペアを用いてネットワークを学習する。各入力Xiに対する出力Yiを動画像全体で平均し、最大値を取ったものを動画像における行動ラベルとして評価を行う。すなわち、ある時点での入力Xiが行動Cjに属する確率p(C|X)は、以下の式(5)で表される。
Figure 0007272625000006
このとき、Iに対して推定される行動ラベルaは、以下の式(6)で表される。
Figure 0007272625000007
データセットの動画像の総数をMとして、認識精度(Accuracy)Sは、以下の式(7)を用いて算出される。
Figure 0007272625000008
[実験例5]評価実験
符号化露光画像から直接行動を認識するシミュレーション実験を行った。
[1]データセット
シミュレーション実験には、KTH Actionデータセット(非特許文献23)を用いた。図24は、KTH Actionデータセットにおける各行動クラスの1シーンを示す図である。図24に示すように、当該データセットは、 「walking」、「jogging」、「running」、「boxing」、「hand waving」、「hand clapping」の6種類の行動クラスに分類されている。各行動クラスは、撮影に使用するカメラの位置を固定し、25人の被験者が6種類の行動を4つのシナリオで実行している様子を撮影したものである。各行動クラスの動画像は、平均4秒であり、画像解像度が600dpiのグレースケールのビデオ(以下、動画像)である。これらの動画像は、25fpsで撮像され、160×120の空間解像度にダウンサンプリングされている。非特許文献23の分割手法に従い、被験者25人を、ニューラルネットワークの訓練で8人、検証で8人、実験で9人に分割した。
[2]比較手法
上記のデータセットの各動画像は、学習時に、前後のフレーム同士で重複するデータが存在しないように選択した16フレームのビデオクリップに分割し、112×112の空間解像度にランダムに切り抜きを行った。下記の(d)に示す手法は、このビデオクリップを入力として機械学習を行ったニューラルネットワーク(NN)を使用して上記の行動クラスの識別を行った手法である。下記の(a)~(c)に示す手法は、このビデオクリップに対してそれぞれ異なる圧縮処理を施して得られた圧縮動画像を入力として学習を行ったニューラルネットワークを使用して上記の行動クラスの識別を行った手法である。下記(a)~(d)において、ビデオクリップの圧縮処理は、それぞれ、ビデオクリップの情報量の1/16倍に圧縮されるように実施した。
図25は、実験例5における比較手法の一例を示す図である。図26は、NNに入力される画像のあるピクセルにおける露光の一例を示す図である。以下、図25及び図26を参照しながら、(a)~(d)に示す手法についてより具体的に説明する。
(a)符号化露光画像
本開示で開示する圧縮方法でビデオクリップを圧縮した。より具体的には、ビデオクリップを構成する各フレームに最適な符号化露光パターンを適用し、符号化露光画像を生成した。この符号化露光画像をCNNの入力とした。符号化露光パターンは、サイズが8×8であり、各ビデオクリップのピクセルを1/16で露光するランダムなパターンを使用した。動画像に対して16分の1のフレームレートで、各ピクセルの露光時間は符号化露光パターンによって変化する。例えば、図26の(a)に示すように、符号化露光画像では、単一のフレームの画像であり、当該単一のフレームのあるピクセルにおける露光は、例えば1フレーム中に数回行われている。この実験で用いた符号化露光パターンでは、露光時間は動画像の1フレームを撮影する露光時間と等しい。
(b)平均化画像
時間情報を1枚の画像に圧縮する単純な手法として、ビデオクリップを時間方向に平均化した平均化画像を用いた。この平均化画像をCNNの入力とした。図26の(b)に示すように、平均化画像のあるピクセルは、1フレームの間、露光されている。そのため、平均化画像は、16分の1のフレームレートで露光時間が16倍の動画像の1フレームと等しくなる。
(c)1フレーム画像
時間情報を持たない画像と比較するため、1フレームの画像と比較した。ビデオクリップを構成する16フレームのうち1フレームを選択し、これをCNNの入力とした。図26の(c)に示すように、1フレーム画像は、16分の1のフレームレートで露光時間が等しい動画像の1フレームと等しい。
(d)動画像
従来手法の3次元畳み込みネットワーク(C3D:Convolution 3D)に相当する手法として、ビデオクリップを入力とし、C3D(非特許文献19)で学習した。C3Dは、本来RGBの3チャネルであるが、グレースケールの1チャネルに変更し、事前学習なしで学習した。ビデオクリップは全てのフレームにおいて全ピクセルは露光されている。そのため、図26の(d)に示すように、全てのフレームにおいてあるピクセルは各フレームの間露光されている。
[3]実験結果
上記の(a)~(d)の比較手法を用いてデータセットの全行動クラスを識別したシミュレーション実験の結果を表2に示す。表2の識別精度は、データセットの各行動クラスの識別精度の平均を示している。
Figure 0007272625000009
表2に示すように、(a)符号化露光画像をCNNの入力として機械学習を行い、動画像における被写体の動きを識別した場合、(d)動画像の従来手法による識別精度に非常に近い識別精度が得られた。しかしながら、(b)平均化画像をCNNの入力として学習を行った動画像の識別手法と、(c)1フレーム画像をCNNの入力として学習を行った動画像の識別手法とは、動画像の空間的情報又は時間的情報から動画像の時空間情報を識別せざるを得ないため、(a)符号化露光画像をCNNの入力とした場合に比べて、動画像の識別精度が著しく低下した。
図27は、(a)~(d)の各比較手法の混同行列を示す図である。図27の混同行列から、平均化画像をCNNの入力とした手法(b)は、1フレーム画像をCNNの入力とした手法(c)と同様に、符号化露光画像をCNNの入力とした手法(a)に比べて、「hand waving」の認識精度が低下していた。さらに、手法(b)及び(c)は、手法(a)に比べて、「walking」、「jogging」、及び、「running」の識別精度が著しく低下していることから、これらの行動クラスの区別が難しいことが分かった。
一方、符号化露光画像をCNNの入力とした手法(a)は、上記の各行動クラスの識別において、動画像(ここでは、ビデオクリップ)をC3Dの入力した従来手法に相当する手法(d)と同様の傾向を示していた。さらに、手法(a)は、上記の各行動クラスの認識精度も手法(d)の認識精度に迫る高い精度を達成した。
[実験例6]
実験例5では、16フレームのビデオクリップを識別対象画像として用いたが、実験例6では、ビデオクリップの長さL(以下、フレーム数)を変化させ、動画像を構成するフレーム数が増えた場合に、行動クラスの認識精度がどのように変化するかを確認するシミュレーション実験を行った。図28は、実験例6の結果を示す図である。
手法(d)について、C3Dは16フレームのビデオクリップを入力とするため、16フレーム未満のビデオクリップを用いる場合、16/L回同じフレームを繰り返すことで16フレームの動画像に調整し、調整したビデオクリップをC3Dに入力した。また、16フレームより多いビデオクリップを用いる場合は、C3Dの入力フレーム数をLに変更した。そのため、C3Dを用いたものは、ネットワークの表現力の向上及びデータセットの不足により、公正な比較ができないことに留意されたい。
また、平均化画像を入力とする手法(b)については、ビデオクリップのフレーム数が4フレームから8フレームまでは若干の識別精度の改善が見られたが、ビデオクリップのフレーム数が8フレームよりも多くなると認識精度は低下した。1フレーム画像を入力とする手法(c)においても、手法(b)と同様の傾向が見られた。したがって、手法(b)の平均化画像のように識別対象の動画像を時間方向に平均すると、当該動画像の時間情報が失われていくため、所定のフレーム数を超えると、動きの識別に必要な時間情報が得られなくなると考えられる。
一方、符号化露光画像を入力とする手法(a)では、ビデオクリップのフレーム数Lが16フレームまでは認識精度が改善した。これは動画像(ビデオクリップ)を入力とする手法(d)と同様の傾向を示しているため、符号化露光画像が時間情報を十分に有していると考えられる。しかしながら、符号化露光画像を入力とした手法(a)は、ビデオクリップのフレーム数が16フレームより長くなると認識精度が低下した。これは特徴化しなければならない時間情報が増え、今回、手法(a)で用いた符号化露光パターンでは時間情報を表現しきれなくなったためであると考えられる。
(まとめ)
変形例2では、ビデオ監視システムにおける行動認識のトレードオフな問題に対し圧縮センシングを適用し、符号化露光カメラにより撮影される単一の画像(いわゆる、圧縮動画像)から2次元のCNNを用いて、圧縮動画像から再構成動画像を生成することなく、直接、人物の行動認識を行う動画像処理方法の一例を説明した。変形例2に係る動画像処理方法の有効性を評価するため、実験例5にてKTH Actionデータセットを用いたシミュレーション実験を行った。実験例5の結果から、変形例2に係る動画像処理方法は、ニューラルネットワークへの入力のデータ量を1/16倍に圧縮しているにもかかわらず、動画像を入力とした3次元のCNN(例えば、C3D)を用いて人物の行動識別を行った場合の識別精度に迫る高い識別精度を達成した。
(他の実施の形態)
以上、本開示の1つ又は複数の態様に係る動画像処理方法及び動画像処理装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構成される形態も、本開示の1つ又は複数の態様の範囲内に含まれてもよい。
例えば、上記実施の形態における動画像処理システムでは1台のカメラを備える場合を説明したが、2台以上の複数のカメラを備えてもよい。これにより、複数の撮像された動画像を取得できるため、得られる複数の動画像から異常な行動をより迅速に、かつ、精度良く検出することができる。
また、例えば、上記実施の形態における動画像処理装置が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。例えば、動画像処理装置は、通信部と、制御部と、を有するシステムLSIから構成されてもよい。
システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法は、LSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいは、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
また、本開示の一態様は、このような動画像処理装置だけではなく、動画像処理装置に含まれる特徴的な構成部をステップとする動画像処理方法であってもよい。また、本開示の一態様は、動画像処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の動画像処理装置などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、圧縮ステップに先立ち、露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習ステップと、を含み、圧縮ステップでは、第1機械学習ステップによる最適化によって得られた露光パターンを用いて圧縮動画像を生成する動画像処理方法を実行させる。
本開示は、実装されるハードウェアの制約に関わらず、ハードウェアの種類によって適切な露光パターンを、動画像を構成する各フレームにそれぞれ適用して動画像を撮影することができるため、例えば、動画像を撮影しながら圧縮品質の高い圧縮動画像を生成することができる。そのため、本開示の動画像処理装置は、例えば、観測カメラ、監視カメラなどに広く利用可能である。
10 通信部
20 制御部
30 機械学習部
40 再構成部
50 動き情報生成部
60 表示部
70 入力部
80 圧縮動画像生成部
90 露光パターン保持部
100 動画像処理装置
200 カメラ
300 動画像処理システム

Claims (12)

  1. 2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、撮影された動画像を構成する複数フレームのそれぞれに最適な露光パターンを用いて圧縮された単一の画像である圧縮動画像を生成する圧縮ステップと、
    前記圧縮ステップに先立ち、前記イメージセンサを構成するピクセル毎に前記露光の態様を特定する露光パターンを、前記イメージセンサの種類に応じて機械学習によって最適化しておく第1機械学習ステップと、
    前記第1機械学習ステップと同時に行われ、前記圧縮動画像から前記動画像を再構成するためのデコーダの再構成アルゴリズムを機械学習によって最適化しておく第2機械学習ステップと、
    を含み、
    前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られた、前記動画像の前記複数フレームのそれぞれに最適な前記露光パターンを用いて前記圧縮動画像を生成する、
    動画像処理方法。
  2. 前記露光パターンは、前記圧縮動画像を構成するフレーム毎に前記イメージセンサを構成するピクセルのうち露光に用いるピクセルを指定した情報である、
    請求項1に記載の動画像処理方法。
  3. さらに、前記圧縮ステップで生成された前記圧縮動画像に対して、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する再構成ステップを含む、
    請求項1又は2に記載の動画像処理方法。
  4. 前記第2機械学習ステップでは、前記圧縮動画像を入力とし、前記出力動画像を出力するための人工知能を機械学習し、
    前記再構成ステップでは、前記第2機械学習ステップで機械学習された前記人工知能を用いて前記出力動画像を生成する、
    請求項3に記載の動画像処理方法。
  5. 前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像を再構成することによって前記出力動画像を生成する再構成層と、を含み、
    前記第1機械学習ステップと前記第2機械学習ステップとは、前記センシング層と前記再構成層とを含む前記人工知能に対する教師あり学習によって行われる、
    請求項4に記載の動画像処理方法。
  6. さらに、前記圧縮ステップで生成された前記圧縮動画像が有する時間的及び空間的情報から前記動画像を再構成することなく、前記圧縮動画像から、直接、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した前記動きの種類を示す動き情報を生成する動き検出ステップを含
    前記未知動画像が示す前記動きの種類は、前記未知動画像の行動クラスの種類、又は、前記未知動画像における被写体の動きの種類である、
    請求項1又は2に記載の動画像処理方法。
  7. さらに、前記動き検出ステップに先立ち、前記圧縮動画像を入力とし、前記動き情報を出力するための人工知能を機械学習しておく第3機械学習ステップを含み、
    前記動き検出ステップでは、前記第3機械学習ステップで機械学習された前記人工知能を用いて前記動き情報を生成する、
    請求項6に記載の動画像処理方法。
  8. 前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像から前記動き情報を生成する動き検出層とを含み、
    前記第1機械学習ステップと前記第3機械学習ステップとは、前記センシング層と前記動き検出層とを含む前記人工知能に対する教師あり学習によって行われる、
    請求項7に記載の動画像処理方法。
  9. 前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、
    前記圧縮ステップでは、前記カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、前記圧縮動画像を生成し、
    前記第1機械学習ステップでは、さらに、前記圧縮ステップに先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、
    前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて前記圧縮動画像を生成する、
    請求項1~8のいずれか一項に記載の動画像処理方法。
  10. 2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、撮影された動画像を構成する複数フレームのそれぞれに最適な露光パターンを用いて圧縮された単一の画像である圧縮動画像を生成するカメラに用いられる動画像処理装置であって、
    前記イメージセンサを構成するピクセル毎に前記露光の態様を特定する露光パターンを、前記イメージセンサの種類に応じて機械学習によって最適化しておく第1機械学習部と、
    前記第1機械学習部と同時に、前記圧縮動画像から前記動画像を再構成するためのデコーダの再構成アルゴリズムを機械学習によって最適化しておく第2機械学習部と、
    前記第1機械学習部による最適化によって得られた、前記動画像の前記複数フレームのそれぞれに最適な露光パターンを前記カメラへ出力する出力部と、
    を備える、
    動画像処理装置。
  11. 2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、
    前記圧縮ステップに先立ち、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習ステップと、
    を含み、
    前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られた露光パターンを用いて前記圧縮動画像を生成し、
    前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、
    前記圧縮ステップでは、前記カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、前記圧縮動画像を生成し、
    前記第1機械学習ステップでは、さらに、前記圧縮ステップに先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、
    前記圧縮ステップでは、前記第1機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて前記圧縮動画像を生成する、
    動画像処理方法。
  12. 2次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成するカメラに用いられる動画像処理装置であって、
    前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第1機械学習部と、
    前記第1機械学習部による最適化によって得られた露光パターンを前記カメラへ出力する出力部と、
    を備え、
    前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、
    前記カメラは、前記カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、前記圧縮動画像を生成し、
    前記第1機械学習部は、さらに、前記圧縮動画像の生成に先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、
    前記出力部は、さらに、前記第1機械学習部による最適化によって得られたカラーフィルタパターンを前記カメラへ出力する、
    動画像処理装置。
JP2019001491A 2019-01-08 2019-01-08 動画像処理方法及び動画像処理装置 Active JP7272625B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019001491A JP7272625B2 (ja) 2019-01-08 2019-01-08 動画像処理方法及び動画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019001491A JP7272625B2 (ja) 2019-01-08 2019-01-08 動画像処理方法及び動画像処理装置

Publications (2)

Publication Number Publication Date
JP2020113829A JP2020113829A (ja) 2020-07-27
JP7272625B2 true JP7272625B2 (ja) 2023-05-12

Family

ID=71667767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019001491A Active JP7272625B2 (ja) 2019-01-08 2019-01-08 動画像処理方法及び動画像処理装置

Country Status (1)

Country Link
JP (1) JP7272625B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022145295A1 (ja) * 2020-12-28 2022-07-07 富士フイルム株式会社 撮像支援装置、撮像装置、撮像支援方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140029824A1 (en) 2012-07-26 2014-01-30 William Marsh Rice University Methods and systems for video compressive sensing for dynamic imaging
US20170188039A1 (en) 2015-12-23 2017-06-29 Sony Corporation Video encoding and decoding apparatus, system and method
WO2017173213A1 (en) 2016-03-31 2017-10-05 Zoll Medical Corporation Systems and methods of tracking patient movement
WO2017183448A1 (ja) 2016-04-19 2017-10-26 ソニー株式会社 データ処理装置、データ処理方法、プログラム
JP2018098787A (ja) 2016-12-08 2018-06-21 株式会社半導体エネルギー研究所 電子機器、及び該電子機器を有するシステム
JP2022020871A (ja) 2018-12-06 2022-02-02 パナソニックIpマネジメント株式会社 物体認識装置、物体認識方法、およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140029824A1 (en) 2012-07-26 2014-01-30 William Marsh Rice University Methods and systems for video compressive sensing for dynamic imaging
US20170188039A1 (en) 2015-12-23 2017-06-29 Sony Corporation Video encoding and decoding apparatus, system and method
WO2017173213A1 (en) 2016-03-31 2017-10-05 Zoll Medical Corporation Systems and methods of tracking patient movement
WO2017183448A1 (ja) 2016-04-19 2017-10-26 ソニー株式会社 データ処理装置、データ処理方法、プログラム
US20190132586A1 (en) 2016-04-19 2019-05-02 Sony Corporation Data processing apparatus, data processing method, and program
JP2018098787A (ja) 2016-12-08 2018-06-21 株式会社半導体エネルギー研究所 電子機器、及び該電子機器を有するシステム
JP2022020871A (ja) 2018-12-06 2022-02-02 パナソニックIpマネジメント株式会社 物体認識装置、物体認識方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吉田 道隆 MICHITAKA YOSHIDA,Deep Learningによる圧縮ビデオセンシングの再構成 Reconstruction of compressed video sensing by Deep Learning,電子情報通信学会技術研究報告 Vol.117 No.211 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2017年09月08日,第117巻,121-128

Also Published As

Publication number Publication date
JP2020113829A (ja) 2020-07-27

Similar Documents

Publication Publication Date Title
Iliadis et al. Deep fully-connected networks for video compressive sensing
Singh et al. Sniper: Efficient multi-scale training
Linardos et al. Simple vs complex temporal recurrences for video saliency prediction
Li et al. No-reference image quality assessment with deep convolutional neural networks
Villegas et al. Learning to generate long-term future via hierarchical prediction
US10388009B2 (en) Machine-learning measurements of quantitative feature attributes
Lau et al. Atfacegan: Single face image restoration and recognition from atmospheric turbulence
Xu et al. Compressed domain image classification using a dynamic-rate neural network
Ramirez et al. LADMM-Net: An unrolled deep network for spectral image fusion from compressive data
Tsagkatakis et al. Goal!! event detection in sports video
Okawara et al. Action recognition from a single coded image
Lohit et al. Rate-adaptive neural networks for spatial multiplexers
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
Karim et al. Spi-gan: Towards single-pixel imaging through generative adversarial network
Szankin et al. Influence of thermal imagery resolution on accuracy of deep learning based face recognition
JP7272625B2 (ja) 動画像処理方法及び動画像処理装置
Da Costa et al. Unsupervised domain adaptation for video transformers in action recognition
Chandrapala et al. Invariant feature extraction from event based stimuli
Kumawat et al. Action recognition from a single coded image
Hu et al. Cnn-based deghosting in high dynamic range imaging
Wang et al. Using deep learning to extract scenery information in real time spatiotemporal compressed sensing
CN114119428B (zh) 一种图像去模糊方法和装置
Juefei-Xu et al. DeepGender2: A generative approach toward occlusion and low-resolution robust facial gender classification via progressively trained attention shift convolutional neural networks (PTAS-CNN) and deep convolutional generative adversarial networks (DCGAN)
Khan et al. Crowd density estimation using imperfect labels
Bhattacharya HybridFaceMaskNet: A novel face-mask detection framework using hybrid approach

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230420

R150 Certificate of patent or registration of utility model

Ref document number: 7272625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150