JP7272625B2

JP7272625B2 - 動画像処理方法及び動画像処理装置

Info

Publication number: JP7272625B2
Application number: JP2019001491A
Authority: JP
Inventors: 一長原; 忠大河原; 道隆吉田
Original assignee: Osaka University NUC
Current assignee: Osaka University NUC
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2023-05-12
Anticipated expiration: 2039-01-08
Also published as: JP2020113829A

Description

特許法第３０条第２項適用平成３０年７月２９日にＭＩＲＵ２０１８第２１回画像の認識・理解シンポジウムのウェブサイト（ｈｔｔｐｓ：／／ｓｉｔｅｓ．ｇｏｏｇｌｅ．ｃｏｍ／ｖｉｅｗ／ｍｉｒｕ２０１８ｓａｐｐｏｒｏ／ｅｘｔｅｎｄｅｄ－ａｂｓｔｒａｃｔｓ）に掲載平成３０年８月８日にＭＩＲＵ２０１８第２１回画像の認識・理解シンポジウムにて発表平成３０年９月８日にＥＣＣＶ２０１８ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎのウェブサイト（ｈｔｔｐ：／／ｏｐｅｎａｃｃｅｓｓ．ｔｈｅｃｖｆ．ｃｏｍ／ｃｏｎｔｅｎｔ＿ＥＣＣＶ＿２０１８／ｐａｐｅｒｓ／Ｍｉｃｈｉｔａｋａ＿Ｙｏｓｈｉｄａ＿Ｊｏｉｎｔ＿ｏｐｔｉｍｉｚａｔｉｏｎ＿ｆｏｒ＿ＥＣＣＶ＿２０１８＿ｐａｐｅｒ．ｐｄｆ）に掲載平成３０年９月１２日にＥＣＣＶ２０１８ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎにて発表

本開示は、動画像の処理方法及び当該方法を実行する装置に関する。

近年、監視カメラ及び車載カメラ等のＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイスで撮影された映像の解析が盛んに行われている。これらのカメラで撮影された映像（つまり、動画像）は、データセンタに集約され、解析などに用いられる。このとき、通信路の容量を削減するために、映像の空間解像度、及び、時間解像度（以下、フレームレートともいう。）を下げるなどの圧縮処理を行う必要がある。しかしながら、空間解像度を下げると、映像が不鮮明になり、フレームレートを下げると、映像における動きの情報が失われてしまう。この空間解像度と時間解像度とのトレードオフを解決する手段として、符号化露光画像を用いた圧縮ビデオセンシング手法が提案されている。

例えば、特許文献１は、カメラのセンサの個々のピクセルで取得された光場を、対応する変調関数に従って変調し、各露出時間中に積分されたフレームを生成し、生成したフレームを凸最適化方法で再構成する手法を開示している。

特許第５７２６０５７号公報

T. Sonoda, H. Nagahara, K. Endo, Y. Sugiyama, R. Taniguchi, "High-speed imaging using CMOS image sensor with quasi pixel-wise exposure", International Conference on Computational Photography (ICCP), pp.1-11, 2016. M. Iliadis, L. Spinoulas, A. K. Katsaggelos, "Deep fully-connected networks for video compressive sensing", Digital Signal Proessing 72: 9-18, 2018. Y. Hitomi, J. Gu, M. Gupta, T. Mitsuniga, S. K. Nayar, "Video from a single coded exposure photograph using a learned over-complete dictionary", International Conference on Computer Vision (ICCV), pp.287-294, 2011. J. Yang, X. Yuan, X. Liao, P. Llull, D. J. Brady, G. Sapiro, L. Carin, "Video compressive sensing using Gaussian mixture models", IEEE Transactions on Image Processing, pp.4863-4878, 2014. M. Iliadis, L. Spinoulas, A. K. Katsaggelos, "DeepBinaryMask: Learning a Binary Mask for Video Compressive Sensing", arXiv preprint arXiv: 1607.03343 2016. M. Courbariaux, I. Hubara, D. Soudry, R. El-Yaniv, Y. Bengio, "Binarized neural networks: Training neural networks with weights and activations constrained to +1 or -1", arXiv preprint arXiv: 1602.02830 2016. M. Gygli, H. Grabner, H. Riemenschneider, L. V. Gool, "Creating Summaries from User Videos", ECCV,2014, https://people.ee.ethz.ch/gyglim/vsum/ Rty. T. D.: Survey on Contemporary Remote Surveillance Systems for Public Safety, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), Vol. 40, No.5, pp. 93-515, 2010. Li, Y., Ai, H., Yamashita, T., Lao, S. and Kawade,, M.: Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Ovservers of Different Life Spans, Vol. 30, No. 10, pp. 1728-1740, 2008. Yoshida, M., Torii, A., Okutomi, M., Endo, K., Sugiyama, Y., Tanigushi, R.-i. and Nagahara, H.: Joint optimization for compressive video sensing and reconstruction under hardware constraints, Proceedings of European Conference on Conmputer Vision (ECCV), 2018. Bobick, A. F. and Davis, J. W.: The recognition of human movement using temporal templates, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, No. 3, pp. 257-267, 2001. Blank, M., Gorelick, L., Shechtman, E., Irani, M. and Basri, R.: Actions as Space-Time Shapes, Proceedings of International Conference on Computer Vision (ICCV), pp. 1395-1402, 2005. Laptev, I.: On Space-Time Interest Points, International Journal of Comnputer Vision, Vol. 64, No. 2, pp. 107-123, 2005. Dalal, N. and Triggs, B.: Histograms of oriented gradients for human detection, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vol. 1, pp. 886-893, 2005. Klaser, A., Marszalek, M. and Schmid, C.: A Spatio-Temporal Descriptor Based on 3D-Gradients, Proceedings of British Machine Vision Conference (BMVC) (Everningham, M., Needham, C. and Fraile, R., eds.), Leeds, United Kingdom, British Machine Vision Association, pp. 275:1-10, 2008. Csurka, G., Dance, C. R., Fan, L., Willamowski, J. and Bray, C.: Visual categorization with bags of keypoints, Proceedings of European Conference on Conputer Vision (ECCV), pp. 1-22, 2004. Lptev, I., Marszalek, M., Schmid, C. and Rozenfeld, B.: Learning realistic human actions from movies, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1-8, 2008. Simonyan, K. and Zisserman, A.: Two-Stream Convolutional Networks for Action Recognition in Videos, Advances in Neural Information Processing System (NIPS) (Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N. D. and Weinberger, K. Q., eds.), Curran Associates, Inc., pp. 568-576, 2014. Tran, D., Bourdev, L., Fergus, R., Torresani, L. and Paluri, M.: Learning SpatiotemporalFeatures with 3D Convolutional Networks, Proceedings of International Conference on Computer Vision (ICCV), pp. 4489-4497, 2015. Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., Suleyman, M. and Zisserman, A.: The Kinetics Human Action Video Dataset, CoRR, Vol. abs/1705.06950, 2017. Carreira, J. and Zisserman, A.: Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4724-4733, 2017. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. and Rabinovich, A.: Going deeper with convolutions, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1-9, 2015. Schldt, C., Laptev, I. and Caputo, B.: Recognizing Human Actions: A Local SVM Approach, Proceedings of International Conference on Pattern Recognition (ICPR), Washington, DC, USA, IEEE Computer Society, pp. 32-36, 2004.

特許文献１に記載の従来技術では、変調関数に基づいて各ピクセルの露光の状態を変調させているが、カメラが撮影する映像の各フレームにおける最適な露光パターンを、イメージセンサの種類に応じて適切に決定できていると言い難い。

そこで、本開示は、イメージセンサの種類に応じて適切な露光パターンを決定することができる動画像処理方法及び動画像処理装置を提供する。

本開示の一態様に係る動画像処理方法は、２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、前記圧縮ステップに先立ち、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第１機械学習ステップと、を含み、前記圧縮ステップでは、前記第１機械学習ステップによる最適化によって得られた露光パターンを用いて前記圧縮動画像を生成する。

また、本開示の一態様に係る動画像処理装置は、２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成するカメラに用いられる動画像処理装置であって、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第１機械学習部と、前記第１機械学習部による最適化によって得られた露光パターンを出力する出力部と、を備える。

なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータで読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

本開示の一態様に係る動画像処理方法及び動画像処理装置によれば、イメージセンサの種類に応じて適切な露光パターンを決定することができる。

図１は、一般的な動画像の圧縮センシングのフローの一例を示す図である。図２は、ハードウェアへの実装上の制約を満たす露光パターンの例を示す図である。図３は、ＳＢＥ（ＳｉｎｇｌｅＢｕｍｐＥｘｐｏｓｕｒｅ）センサの構造の一例を示す図である。図４は、ＳＢＥセンサにおける１フレーム間の露光回数を示す図である。図５は、ＲＣＥ（ＲｏｗＣｏｌｕｍｎｗｉｓｅＥｘｐｏｓｕｒｅ）センサの構造の一例を示す図である。図６は、ＲＣＥセンサにおける１フレーム間の露光回数を示す図である。図７は、全体を考慮する動きの表現の一例を示す図である。図８は、全体を考慮する動きの表現の他の例を示す図である。図９は、人間の行動認識を行う手法の概要を説明するための図である。図１０は、実施の形態における動画像処理システムの機能構成の一例を示すブロック図である。図１１は、実施の形態における機械学習部の構成の一例を示す図である。図１２は、実施の形態に係る動画像処理方法の一例を示すフローチャートである。図１３は、実施の形態で使用される人工知能の一例を示す図である。図１４は、実施の形態における機械学習ステップの構成の一例を示す図である。図１５は、２値化された露光パターンを更新する一例を示す図である。図１６は、実験例２の結果を示す図である。図１７は、実験例３の結果を示す図である。図１８は、カラー動画像の圧縮センシングのフローの一例を示す図である。図１９は、カラーフィルタパターンの一例を示す図である。図２０は、実験例で使用した露光パターン及びカラーフィルタパターンの一例を示す図である。図２１は、実験例４の結果を示す図である。図２２は、変形例２に係る動画像処理方法の一例を示すフローチャートである。図２３は、変形例２における機械学習ステップの高齢の一例を示す図である。図２４は、ＫＴＨＡｃｔｉｏｎデータセットにおける各行動クラスの１シーンを示す図である。図２５は、実験例５における比較手法の一例を示す図である。図２６は、ニューラルネットワークに入力される画像のあるピクセルにおける露光の一例を示す図である。図２７は、各比較手法の混同行列を示す図である。図２８は、実験例６の結果を示す図である。

（本開示の基礎となった知見）
高空間解像度で高フレームレートな動画像は、実際に何が起きているのかを分析するために有用である。通常、このような動画像は、ハイスピードカメラで撮像される。ハイスピードカメラは、センサからの読み出しを高速に行うため、画素毎にバッファを設ける他、アナログデジタル（ＡＤ）変換の時間を短縮するために並列のＡＤ変換器を搭載している。このような特殊なセンサは非常に高価であり、回路が複雑になることからフォトトランジスタの面積が減少するため感度が悪くなる問題もある。そこで、高空間解像度で高フレームレートな動画像を取得する手段の一つとして圧縮センシングを用いた手法が提案されてきた（非特許文献１～４）。

通常、動画像の撮影は、全ての画素が同時に露光するグローバルシャッタを有するセンサを用いて複数の静止画像を連続して撮影することで実現される。これに対して、圧縮ビデオセンシングは、圧縮ステップと再構成ステップとを有し、動画像を撮影しながら動画像の圧縮を行い、圧縮された動画像から元の動画像に再構成する。より具体的には、圧縮ステップでは、撮像センサは、隣接画素毎に露光タイミングをランダムにずらして単一画像を撮影する。これにより、時間情報を単一画像にサンプリングした符号化露光画像を得ることができる。次いで、再構成ステップでは、圧縮ステップで得られた符号化露光画像に含まれる異なる時間情報を用いて単一画像から複数フレームの動画像を再構成する。図１は、一般的な動画像の圧縮センシングのフローの一例を示す図である。図１に示すように、圧縮ビデオセンシングでは、センシング部は、一連のシーンを含む動画像を、露光パターンを用いて画素毎の露光タイミングをずらして撮影することにより、時間情報を単一画像に集約した符号化露光画像を作成する。次いで、再構成部は、符号化露光画像に含まれる異なる時間情報を用いて、一連のシーンを含む動画像を再構成する。この圧縮センシングのモデルは、以下の式（１）で表される。

式中、ｘは未知の動的シーン（未知の動画像）、ｙは符号化露光画像、φは符号化露光パターンである。

一般に、圧縮センシングでは、符号化露光画像ｙから符号化露光パターンφを用いて未知の動画像ｘを再構成する。式（１）から、符号化露光画像ｙから符号化露光パターンφを用いて再構成される未知の動画像ｘの品質は、符号化露光パターンφの圧縮性能に依存することが分かる。

圧縮ビデオセンシングでは、各画素でランダムなタイミングで露光された画像を撮影する必要がある。そのため、符号化露光パターンは、様々なものが提案されている。しかしながら、一般的なＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサは、全ての画素が同時に露光するグローバルシャッタ又は画素の読み出し順に露光を行うローリングシャッタが一般的であり、圧縮ビデオセンシングにおいて理想的なセンサは一般には存在しない。そのため、理想的なランダムな露光を想定した符号化露光パターン、又は、ハードウェアへの実装上の制約を考慮した符号化露光パターンが用いられている。

例えば、非特許文献５では、画素毎にランダムな露光が制御可能な理想的なセンサ（以下、完全ランダムセンサ）を想定し、露光パターンの最適化を行う手法を開示している。具体的には、非特許文献５では、各画素の露光時間を１６分割し、４画素×４画素×１６のランダムなパターンを繰り返した８画素×８画素×１６の符号化露光パターンとしたシミュレーション実験を行っている。非特許文献１では、画素毎に露光を制御可能なプロトタイプのＣＭＯＳセンサを用いて、疑似ランダム露光な符号化露光を実現した。ハードウェアの制約から縦列、横列で同時に露光する８×８の符号化露光パターンを用いた実証実験を行った。

以下、ハードウェアへの実装上の制約の例として、画素毎に露光を制御できる現実的なセンサとして想定されているＣＭＯＳセンサ（非特許文献３参照）と、画素毎に露光を制御できるプロトタイプのＣＭＯＳセンサ（非特許文献１参照）について図面を参照しながら説明する。なお、非特許文献３で想定しているＣＭＯＳセンサをＳＢＥ（ＳｉｎｇｌｅＢｕｍｐＥｘｐｏｓｕｒｅ）センサと呼び、非特許文献１で想定しているプロトタイプのＣＭＯＳセンサをＲＣＥ（ＲｏｗＣｏｌｕｍｎｗｉｓｅＥｘｐｏｓｕｒｅ）センサと呼ぶ。

図２は、ハードウェアへの実装上の制約を満たす露光パターンの例を示す図である。図２の（ａ）は、上述の完全ランダムセンサに実装可能な露光パターンを示し、図２の（ｂ）は、ＳＢＥセンサに実装可能な露光パターンを示し、図２の（ｃ）は、ＲＣＥセンサに実装可能な露光パターンを示している。

図３は、ＳＢＥセンサの構造の一例を示す図である。図３に示すように、ＳＢＥセンサは、画素毎に露光を制御するために、通常のＣＭＯＳセンサにアドレス線を追加したものであり、実現可能なセンサである。通常のＣＭＯＳセンサは、行毎にアドレスを制御することで１行ずつ読み出すローリングシャッタを搭載していることが多い。また、通常のＣＭＯＳセンサは、画素毎のバッファを持たないため、非破壊読出しは不可能である。一方、ＳＢＥセンサでは、通常のＣＭＯＳセンサに列毎のアドレスを決める回路を組み込むことで、画素毎の読み出しを可能としている。図４は、ＳＢＥセンサにおける１フレーム間の露光回数の一例を示す図である。図４に示すように、ＳＢＥセンサでは、１フレームの間に各画素は１回露光される。なお、露光の開始及び終了のタイミングは、一例であり、各フレームにおいてランダムである。図２の（ｂ）に示すように、非特許文献３では、ＳＢＥセンサに実装可能な露光パターン（以下、符号化露光パターンともいう。）として、１回の露光で開始及び終了を任意とする単一露光の符号化露光パターンを開示している。また、非特許文献３では、７×７の符号化露光パターンを用いて、シミュレーション実験と、反射光学系及びＬｉｑｕｉｄＣｒｙｓｔａｌｏｎＳｉｌｉｃｏｎ（ＬＣｏＳ）を用いた疑似実装による実験と、を行っている。

図５は、ＲＣＥセンサの構造の一例を示す図である。図５に示すようにＲＣＥセンサは、露光を制御するために信号線を追加した試作（プロトタイプ）のＣＭＯＳセンサである。図５は、ＲＣＥセンサの左上を示している。ＲＣＥセンサは、８×８のブロック構造を備える。ＲＣＥセンサは、露光を制御するための追加の信号線として８本のＲｅｓｅｔ信号線と８本のＴｒａｎｓｆｅｒ信号線とを備え、各Ｒｅｓｅｔ信号線は、８列おきに共有されており、各Ｔｒａｎｓｆｅｒ信号線は、８行おきに共有されている。そのため、符号化露光パターンはブロック毎に同じものとなる。また、ＲＣＥセンサは、非破壊読み出しが可能である。図６は、ＲＣＥセンサにおける１フレーム間の露光回数を示す図である。図６に示すように、ＲＣＥセンサでは、１フレームの間に各画素は複数回露光され得る。しかしながら、ＲＣＥセンサは、Ｒｅｓｅｔ信号線とＴｒａｎｓｆｅｒ信号線とをそれぞれ８本しか備えておらず、かつ、１本のＲｅｓｅｔ信号線と１本のＴｒａｎｓｆｅｒ信号線とがそれぞれ１つのブロック内の列及び列の画素間で共有されている。そのため、非特許文献１では、ＲＣＥセンサに実装可能な符号化露光パターンとして、列及び行で同時に露光する８×８の符号化露光パターンを用いた実証実験を行っている。

このように実際の圧縮センシングに用いられるカメラには様々な制約があるため、ハードウェアへの実装上の制約を考慮しながら符号化露光パターンの最適化を行う必要がある。

そこで、本願発明者らは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてハードウェアへの実装上の制約を満たした最適な符号化露光パターンを決定することにより、従来手法により決定された符号化露光パターンを用いて圧縮された画像（以下、圧縮画像）を再構成した映像よりも画質の良い映像を再構成できることを見出した。また、本願発明者らは、符号化露光パターンの最適化を行うと同時に、圧縮画像から映像（動画像）を再構成するデコーダを最適化することにより、従来手法よりもさらに再構成品質を向上させることができることを見出した。

続いて、行動認識に関する従来技術について説明する。かつては、行動認識に３Ｄモデルを利用していた。しかし、映像から正確な３Ｄモデルを構築することは難しいため、多くの場合、代わりに全体的又は局所的な動きの表現を利用する手法が取られている。全体を考慮する動きの表現では、人体の構造又は形状、もしくは、動きのグローバルな表現を用いている。図７は、全体を考慮する動きの表現の一例を示す図であり、図８は、全体を考慮する動きの表現の他の例を示す図である。例えば、図７に示すように、非特許文献１１では、動きに関する情報を単一の画像にエンコードする２値画像を蓄積したＭｏｔｉｏｎＥｎｅｒｇｙＩｍａｇｅ（ＭＥＩ）、又は、輝度で時間を表すＭｏｔｉｏｎＨｉｓｔｏｒｙＩｍａｇｅ（ＭＨＩ）が開示されている。また、図８に示すように、非特許文献１２では、オブジェクトの輪郭を時間軸に沿って積み重ねたＳｐａｃｅ－ＴｉｍｅＶｏｌｕｍｅ（ＳＴＶ）が開示されている。全体を考慮したこれらのアプローチは、視点及び外観の変化を捕捉するのが難しく、ＳＴＶでは細部を捉えることができない問題点がある。一方、局所領域を考慮する動きの表現では、一般的な画像認識と同時に、関心点の検出、局所記述子の抽出、及び、局所記述子の集約という手順に従い、行動認識のための局所特徴を作成する。非特許文献１３では、時空間領域における関心点の検出として、２次元のＨａｒｒｉｓコーナー検出器を３次元に拡張するＳｐａｃｅ－ＴｉｍｅＩｎｔｅｒｅｓｔＰｏｉｎｔｓ（ＳＴＩＰ）が開示されている。非特許文献１５では、時空間の局所記述子として、非特許文献１４に記載のＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｒＧｒａｄｉｅｎｔｓ（ＨＯＧ）をモーション記述子として利用することが開示され、また、ビデオクリップ内のピクセルレベルの動きをエンコードするＨｉｓｔｏｇｒａｍｓｏｆＯｐｔｉｃａｌＦｌｏｗ（ＨＯＦ）が開示されている。記述子の集約では、画像認識と同様にＢａｇ－ｏｆ－Ｆｅａｔｕｒｅｓ（ＢｏＦ）（非特許文献１６）が用いられた。特に、カテゴリー分類では、テキスト分類で高い評価を受けていたＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＴＭ）がＢｏＦベクトルに対しても用いられるようになっている（非特許文献１７）。

画像認識の分野で、畳み込みニューラルネットワーク（ＣＮＮ）が注目されるようになると、映像認識の分野でもＣＮＮが用いられるようになっている。ＣＮＮは、関心点の検出、局所記述子の抽出、局所記述子の集約のいずれの段階でも使用でき、画像フレームを特徴化するだけでなく、オプティカルフロー又はＨＯＧなどと組み合わせても使用されている。非特許文献１８では、ＲＧＢの画像フレームとオプティカルフローとを蓄積したものをそれぞれ外観とモーション情報として用いることを開示し、また、２つのストリームを結合することで更なる精度向上を開示している。ＵＣＦ１０１又はＨＭＤＢ５１などのデータセットにおいてＤｅｅｐＬｅａｒｎｉｎｇを使用しないかつての認識精度を大幅に改善し、２ストリームネットワークに基づく数多くの研究がなされている。一方、非特許文献１９は、３次元で畳み込むことで外観とモーションとを同時にモデル化するネットワーク（Ｃ３Ｄ：Ｃｏｎｖｏｌｕｔｉｏｎ３Ｄ）を開示している。これは、２ストリーム２ＤＣＮＮに劣るものの大規模動画データセットであるＳｐｏｒｔｓ－１Ｍを用いて良い精度を達成している。非特許文献２０は、行動認識の大規模化かつ校正されたデータセットであるＫｉｎｅｔｉｃｓを開示している。これは、比較的小規模な３ＤＣＮＮにおいて、事前学習なしのモデルでありながら、構成されたデータで学習することにより、ＩｍａｇｅＮｅｔで事前学習した２ＤＣＮＮに迫る精度を達成することを示している。非特許文献２１では、２２層の２ＤＣＮＮであるＧｏｏｇＬｅＮｅｔ（Ｉｎｃｅｐｔｉｏｎｖ１）（非特許文献２２）を３Ｄに拡張したＩ３Ｄを開示し、Ｋｉｎｅｔｉｃｓデータセットを用いて学習し最先端の精度を達成している。

以上のように、行動認識に関する様々な技術が開示されているが、ビデオ監視システムにおける人間の行動認識、つまり、映像解析におけるデータ圧縮のトレードオフな問題に対し、圧縮センシングによる解決を考える。単に圧縮ビデオセンシングの適用を考えた場合、符号化露光画像から動画像の再構成を行うことで、通常の動画像と同様に映像解析を行うことが可能である。

符号化露光画像の情報量は、符号化露光画像のサイズＷ×Ｈであり、露光時間をＴとすると、未知の動画像の情報量は、Ｗ×Ｈ×Ｔとなる。これは、観測した情報よりも多くの情報を復元することとなるため、一意に定めることはできない。そこで、非特許文献３及び非特許文献１では、動画像は、基底となる動画像及びそのスパースな係数で表現できると仮定するスパース最適化による再構成手法を用いて、観測した情報よりも十分少ない数の係数を求めることで、動画像の再構成を行っている。非特許文献３では、スパース最適化手法として、Ｌ_０ノムル正則化を行うＯｒｔｈｏｇｏｎａｌＭａｔｃｈｉｎｇＰｕｒｓｕｉｔ（ＯＭＰ）アルゴリズムを用いている。一般に、スパース最適化は、ＮＰ困難な問題であることが知られている。したがって、スパース最適化を用いた再構成手段は、膨大な時間を要するものであり、実用的な手法であるとは言えない。非特許文献４は、動画像は、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（ＧＭＭ）で表現可能であると仮定し、符号化露光画像が与えられた事後確率の期待値から動画像を再構成する、より高速な手段を開示している。また、非特許文献２は、ＤｅｅｐＬｅａｒｎｉｎｇを利用し、符号化露光をエンコーダとするＡｕｔｏＥｎｃｏｄｅｒを学習することで、符号化露光画像から動画像を再構成するデコーダを作成し、より高速な再構成手段を開示している。

なお、自動監視システムでは、カメラの視野内の人間の不審な行動を検出又は予測し、オペレータに警告する必要がある。そのため、本願発明者らは、映像解析として人間の行動認識に焦点を当てる。図９は、人間の行動認識を行う手法の概要を説明するための図である。例えば、図９の（ｂ）に示すように、人間の行動認識に圧縮ビデオセンシングの適用を考えた場合、符号化露光画像から動画像の再構成という高次元化を行った後、動画像から行動ラベルの推定という低次元化を行っており、非効率である。符号化露光画像には、時間情報が含まれているため、図９の（ａ）に示すように、動画像の再構成を介さなくても直接、行動認識を行うことができると考えられる。そこで、本願発明者らは、符号化露光カメラにより撮影される単一の符号化露光画像からＤｅｅｐＬｅａｒｎｉｎｇを用いて、直接、人間の行動認識を行う手法を見出した。

本開示の一態様の概要は以下の通りである。

これにより、機械学習によって露光パターンが最適化されるため、イメージセンサの種類に応じて適切な露光パターンを決定することができる。

例えば、本開示の一態様に係る動画像処理方法では、前記露光パターンは、前記圧縮動画像を構成するフレーム毎に前記イメージセンサを構成するピクセルのうち露光に用いるピクセルを指定した情報であってもよい。

これにより、当該露光パターンを用いて撮影された圧縮動画像は、各ピクセルが複数のフレームのうちのどのフレームにおいて露光されたかを示す時間的情報と、圧縮動画像における各ピクセルの位置を示す空間的情報とを有する。そのため、従来手法のように、時間的情報のみ又は空間的情報のみを犠牲にして圧縮動画像を生成した場合に比べて、高い圧縮効率が得られる。

例えば、本開示の一態様に係る動画像処理方法は、さらに、前記圧縮ステップで生成された前記圧縮動画像に対して、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する再構成ステップを含んでもよい。

これにより、圧縮動画像から、時間的及び空間的に間引かない露光パターンによる撮影によって得られる未知動画像に近い出力画像が再構成される。

例えば、本開示の一態様に係る動画像処理方法は、さらに、前記再構成ステップに先立ち、前記圧縮動画像を入力とし、前記出力動画像を出力するための人工知能を機械学習しておく第２機械学習ステップを含み、前記再構成ステップでは、前記第２機械学習ステップで機械学習された前記人工知能を用いて前記出力動画像を生成してもよい。

これにより、機械学習が用いられることで、圧縮動画像から高い品質で再構成された出力画像が得られる。

例えば、本開示の一態様に係る動画像処理方法では、前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像を再構成することによって前記出力動画像を生成する再構成層と、を含み、前記第１機械学習ステップと前記第２機械学習ステップとは、前記センシング層と前記再構成層とを含む前記人工知能に対する教師あり学習によって行われてもよい。

これにより、未知動画像を圧縮する処理と、圧縮動画像から未知動画像を再構成する処理とを一つの人工知能を用いて行うことができる。さらに、当該人工知能は、未知動画像の圧縮のための露光パターンの最適化と、圧縮動画像から未知動画像を再構成するための再構成アルゴリズムの最適化とを、教師あり学習により行うため、入力と正解データとを基に効率よく学習することができる。

例えば、本開示の一態様に係る動画像処理方法は、さらに、前記圧縮ステップで生成された前記圧縮動画像から、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した前記動きの種類を示す動き情報を生成する動き検出ステップを含んでもよい。

これにより、圧縮動画像が有する時間的及び空間的情報から動画像を再構成することなく、直接、動画像が示す動きの種類を示す動き情報を生成することができる。そのため、従来よりもデータ量が低減されるため、迅速に、かつ、精度良く動画像が示す動きの種類を識別することができる。

例えば、本開示の一態様に係る動画像処理方法は、さらに、前記動き検出ステップに先立ち、前記圧縮動画像を入力とし、前記動き情報を出力するための人工知能を機械学習しておく第３機械学習ステップを含み、前記動き検出ステップでは、前記第３機械学習ステップで機械学習された前記人工知能を用いて前記動き情報を生成してもよい。

これにより、機械学習が用いられることで、圧縮動画像から高い品質で動きが検出される。

例えば、本開示の一態様に係る動画像処理方法では、前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像から前記動き情報を生成する動き検出層とを含み、前記第１機械学習ステップと前記第３機械学習ステップとは、前記センシング層と前記動き検出層とを含む前記人工知能に対する教師あり学習によって行われてもよい。

これにより、未知動画像を圧縮する処理と、圧縮動画像から未知動画像の動きの種類を示す動き情報を生成する処理とを一つの人工知能を用いて行うことができる。さらに、当該人工知能は、未知動画像の圧縮のための露光パターンの最適化と、圧縮動画像から未知動画像動きの種類を示す動き情報を生成するための動き情報生成アルゴリズムの最適化とを、教師あり学習により行うため、入力と正解データとを基に効率よく学習することができる。

例えば、本開示の一態様に係る動画像処理方法では、前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、前記圧縮ステップでは、前記カラーフィルタのパターンを時間的及び空間的に変化させた繰り返し露光による撮影を行うことで、前記圧縮動画像を生成し、前記第１機械学習ステップでは、さらに、前記圧縮ステップに先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、前記圧縮ステップでは、前記第１機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて前記圧縮動画像を生成してもよい。

これにより、未知のカラー動画像を構成する各フレームに最適なカラーフィルタパターンを選択して適用することができるため、動画像の再構成のために十分な情報を残しつつ、圧縮動画像のデータ量を低減することができる。そのため、未知のカラー動画像の圧縮性能が向上される。機械学習によって露光パターンだけでなくカラーフィルタパターンも最適化されるため、カラー撮像に対応したイメージセンサの種類に応じて適切な露光パターン及びカラーフィルタパターンを決定することができる。

さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータで読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

また、以下の説明において、第１、第２、及び、第３等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。

（実施の形態）
まず、本実施の形態における動画像処理システムについて図１０を参照しながら説明する。図１０は、実施の形態における動画像処理システム３００の機能構成の一例を示すブロック図である。

図１０に示すように、動画像処理システム３００は、動画像処理装置１００と、カメラ２００と、を備える。カメラ２００は、２次元状にピクセルが配置されたイメージセンサを備え、動画像処理装置１００から出力された露光パターンを用いて、時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する。カメラ２００は、動画像処理装置１００により最適化された露光パターンを取得して保持する露光パターン保持部９０と、露光パターン保持部９０に保持された複数の露光パターンからイメージセンサの種類に応じて適切な露光パターンを選択してイメージセンサに適用させることで圧縮動画像を生成する圧縮動画像生成部８０とを備える。

動画像処理装置１００は、通信部１０と、制御部２０と、表示部６０と、入力部７０と、を備える。制御部２０は、機械学習部３０と、再構成部４０と、動き情報生成部５０と、を備える。

機械学習部３０は、例えば、ニューラルネットワークなどの人工知能（不図示）に学習を行わせる。機械学習部３０は、人工知能に学習させる学習内容の違いにより、第１、第２及び第３など複数の機能部に分けて構成されてもよい。例えば、第１機械学習部（不図示）は、露光の態様を特定する露光パターンを最適化するための人工知能に学習させる。第２機械学習部（不図示）は、圧縮動画像を入力とし、出力動画像を出力するための人工知能に学習させる。第３機械学習部(不図示)は、圧縮動画像を入力とし、動き情報を出力するための人工知能に学習させる。機械学習部３０は、例えば教師データを用いて人工知能に学習させる。なお、露光パターンは、圧縮動画像を構成するフレーム毎にイメージセンサを構成するピクセルのうち露光に用いるピクセルを指定した情報である。また、露光パターンを最適化するとは、複数の露光パターンの中から、ハードウェアへの実装上の制約を満たし、かつ、動画像を構成する各フレームに最適な露光パターンを選択することをいう。

再構成部４０は、カメラ２００が生成した圧縮動画像に対して、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する。

再動き情報生成部５０は、カメラ２００が生成した圧縮動画像から、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した動きの種類を示す動き情報を生成する。

通信部１０は、第１機械学習部（不図示）による最適化によって得られた露光パターンをカメラ２００に出力する出力部（不図示）と、カメラ２００が生成した圧縮動画像を取得する取得部（不図示）と、を備える。通信部１０は、Ｗｉ－Ｆｉ（登録商標）をはじめとする無線通信、又は、Ｅｔｈｅｒｎｅｔ（登録商標）をはじめとする有線通信を利用した通信であってもよく、Ｂｌｕｅｔｏｏｔｈ（登録商標）、特定小電力無線、又は、可視光通信を利用した通信をであってもよい。

表示部６０は、例えば、ディスプレイであり、例えば再構成部４０で再構成された動画像を、入力部７０に入力されたユーザの指示に基づいて表示する。入力部７０は、例えば、キーボード、マウス、タッチパネル、又は、マイクなどであり、ユーザの指示の入力を受け付ける。なお、動画像処理装置１００は、表示部６０及び入力部７０を備えていなくてもよい。表示部６０及び入力部７０は、例えば、動画像処理装置１００以外の他の装置が備えてもよい。また、動画像処理装置１００は、カメラ２００に実装されてもよく、コンピュータに実装されてもよく、インターネットなどの通信ネットワークを介して接続されるサーバ上に設けられてもよい。

続いて、実施の形態に係る動画像処理方法について説明する。図１１は、実施の形態に係る動画像処理方法の一例を示すフローチャートである。

図１１に示すように、カメラ２００は、圧縮動画像を生成する（圧縮ステップＳ１０）。より具体的には、カメラ２００は、２次元にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行い、圧縮動画像を生成する。なお、圧縮ステップでは、後述する第１機械学習ステップによる最適化によって得られた露光パターンを用いて圧縮動画像を生成する。ここで、時間的及び空間的に間引いた繰り返し露光による撮影とは、イメージセンサのピクセル毎に露光の態様を特定する複数の露光パターンの中から、動画像を構成する複数のフレームのそれぞれに対して最適な露光パターンを選択して各フレームに適用した撮影である。

次いで、動画像処理装置１００は、カメラ２００が生成した圧縮動画像を動画像に再構成する（再構成ステップＳ２０）。より具体的には、動画像処理装置１００は、圧縮ステップＳ１０でカメラ２００が生成した圧縮動画像に対して、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する。なお、再構成ステップＳ２０では、後述する第２機械学習ステップで機械学習された人工知能を用いて出力動画像を生成する。

なお、これらの２つのステップのそれぞれに先立ち、機械学習部３０は、各ステップで使用される人工知能に学習させてもよい。以下、機械学習部３０が人工知能に学習させる学習ステップ、及び、人工知能のそれぞれについて説明する。

図１２は、圧縮及び再構成ステップで使用される人工知能の学習ステップの一例を示す図である。図１２に示すように、機械学習ステップは、上記の圧縮ステップＳ１０に先立ち、露光パターンを最適化するための人工知能に学習させる第１機械学習ステップＳ１と、上記の再構成ステップＳ２０に先立ち、圧縮動画像を入力させ、出力動画像を出力するための人工知能に学習させて再構成アルゴリズムを最適化する第２機械学習ステップＳ２と、を含む。なお、これらのステップは、同時に実施されてもよく、個別に実施されてもよい。また、これらのステップは、順番を問わずに実施されてもよい。また、これらのステップの両方とも実施されてもよく、一方のみ実施されてもよい。つまり、必要に応じて適宜実施されるとよい。

続いて、動画像の圧縮及び再構成に使用される人工知能の一例について、図１３を参照しながら説明する。図１３は、実施の形態において動画像の圧縮及び再構成に使用される人工知能の一例を示す図である。

人工知能は、ニューラルネットワーク（ＮＮ）で構成される。ニューラルネットワークは、例えば、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）である。当該人工知能は、未知動画像から露光パターンに対応する重み係数を用いた演算により圧縮動画像を生成するセンシング層（以下、圧縮センシング層ともいう。）と、センシング層が生成した圧縮動画像を再構成することによって出力動画像を生成する再構成層と、を含む。

図１３に示すように、センシング層は、２値化された複数の露光パターンの中から、カメラ２００が撮影する動画像（Ｗｐ×Ｈｐ×Ｔ）を構成する各フレームに最適な露光パターンをそれぞれ選択して各フレームに適用することにより圧縮動画像、つまり、符号化動画像（Ｗｐ×Ｈｐ）を生成する。

ここで、上記の２値化された複数の露光パターンは、例えば、図２の（ａ）に示すように、全画素において完全にランダムな露光が可能なセンサに実装可能な複数の露光パターンと、図２の（ｂ）及び（ｃ）に示すように、ハードウェアへの実装上の制約を考慮して準備された複数の露光パターンと、を含む。なお、全画素において完全にランダムな露光とは、動画像を構成するフレーム毎に、全画素のうちのランダムに選択された画素に露光させることである。例えば、実装を考えられ得るあらゆるハードウェアに関して、これらのハードウェアへの実装上の制約を満たす全ての種類の露光パターンを予め準備し、当該複数の露光パターンをメモリ(不図示)に格納する。人工知能は、メモリ(不図示)に格納された複数の露光パターンの中からカメラ２００が撮影する動画像の各フレームに最適な露光パターンを選択して、動画像処理装置１００からカメラ２００へ出力させることで、最適な動画像の符号化、つまり、圧縮を行う。

ハードウェアへの実装上の制約のある露光パターンは、ハードウェアの構造から簡単に導出することができる。例えば、ハードウェアがＳＢＥセンサ（図３参照）である場合、ＳＢＥセンサのダイナミックレンジを考慮すると、全画素において露光時間が同じであることが望ましい。そのため、圧縮性能を高めるためにＳＢＥセンサで制御可能なことは、露光開始のタイミングを制御することである。したがって、ＳＢＥセンサにおいては、考えられ得る全ての露光開始のタイミング（開始時間（秒）ｔ＝０，１，２、・・・、Ｔ－ｄ）を求めることで全ての種類の露光パターンが導出される(図２の（ｂ）参照)。ここで、ｄは露光時間である。

また、例えば、ハードウェアがＲＣＥセンサ（図５参照）である場合、ＲＣＥセンサにおいては、まず、全てのＲｅｓｅｔ信号（８ｂｉｔ）とＴｒａｎｓｆｅｒ信号（８ｂｉｔ）の組を生成する。次に、生成した全ての信号の組から生成される露光パターンをシミュレートすることで、全ての種類の露光パターンが導出される（図２の（ｃ）参照）。

図１３に示すように、再構成層は、センシング層で作成された圧縮動画像を入力層に入力し、出力層から出力動画像を出力する。より具体的には、再構成層は、圧縮センシング層において、動画像を構成する各フレームに最適な露光パターンを用いて圧縮された単一の画像（圧縮動画像）から、複数フレームで構成される動画像を再構成する。再構成層は、入力される単一の画像から複数フレームで構成される動画像への非線形写像をＤＮＮを用いて学習する。図１３に示すように、このＤＮＮは４層の隠れ層を持ち、伝達係数にはＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を用いる。ＤＮＮは、訓練動画像と再構成動画像との誤差を小さくするように学習する。再構成動画像の評価にピーク信号対雑音比（ＰＳＮＲ）を用いる。そのため、損失関数は、ＰＳＮＲと関係の深い平均二乗誤差（ＭＳＥ）を用いる。

以上のように、動画像の圧縮及び再構成を行う人工知能（ここでは、ＤＮＮ）は、センシング層と再構成層とを含み、当該人工知能に対する機械学習である第１機械学習ステップ及び第２機械学習ステップで、訓練動画像を用いた教師あり学習によって行われる。これにより、本実施の形態における人工知能は、圧縮センシングのための露光パターンの最適化と、デコーダの再構成アルゴリズムの最適化とを同時に学習することができる。

続いて、動画像の圧縮及び再構成を行うために用いられる人工知能（ここでは、ＤＮＮ）の機械学習の手順についてより具体的に説明する。図１４は、実施の形態における機械学習ステップの構成の一例を示す図である。

上述のように、ＤＮＮは、ハードウェアへの実装上の制約を満たしながら露光パターンの最適化を行うセンシング層と、圧縮動画像である観測画像から動画像を再構成する再構成層と、の二つの層から構成されている。図１４に示すように、ＤＮＮの訓練（つまり、機械学習）は、例えば、以下の手順で行う。ここでは、第１学習ステップ及び第２学習ステップを同時に実施する機械学習の一例を説明する。
（１）センシング層から再構成層に向かう処理を行うＦｏｒｗａｒｄ時には、センシング層では２値化された重みである２値化露光パターンを用い、再構成層では連続値重みを用いる。
（２）誤差逆伝播により勾配を求める。
（３）求めた勾配を用いてネットワーク全体の連続値重みを更新する。
（４）更新された連続値重みを、ハードウェアへの実装上の制約を考慮しながら２値化する。これにより、センシング層で使用する２値化重みを更新する。

実際の圧縮センシングでは２値化された露光パターンが用いられるため、ニューラルネットワークの訓練におけるＦｏｒｗａｒｄ時には２値化重みを用いるが、Ｂａｃｋｗａｒｄ時には微分可能とするため連続値に緩和する（非特許文献６）。図１５は、２値化された露光パターンを更新する一例を示す図である。次のＦｏｒｗａｒｄ時に用いる重みは事前に生成した２値化された複数の露光パターンの中からＢａｃｋｗａｒｄ時に導出された連続値重みと最も近いものを内積を用いて選出し、２値化された露光パターンを更新する。

［実験例］
［実験例１］ＤＮＮの機械学習
以下の手順により、ＤＮＮの機械学習を行った。ネットワーク（ＤＮＮ）のサイズは、再構成を行うパッチのサイズを基に決定された。本実験例では、非特許文献１に記載の露光を制御できるプロトタイプのセンサを用いた。そのため、パッチのサイズをＷｐ＝Ｈｐ＝８、Ｔ＝１６（図１３のＷｐ×Ｈｐ×Ｔ）とした。また、再構成層の隠れ層は、４層とした。訓練データ（訓練動画像）は、以下の実験例における全ての手法で同様のものを用いた（非特許文献７）。この訓練データは、映像要約のベンチマーク用のデータセットで、この中の２０本の動画像から１６フレームをランダムに４シーンずつ取り出し、それぞれに回転（９０°、１８０°、２７０°）と反転を行ったものを用いた。このようにして用意した８２９，４４０パッチを用いて、上記の露光パターンと再構成のためのデコーダとを同時に最適化するネットワーク（ＤＮＮ）の機械学習をｅｎｄ－ｔｏ－ｅｎｄで行った。当該機械学習は、ミニパッチサイズ２００で２５０ｅｐｏｃｈ行った。

［実験例２］シミュレーション実験
ＳＢＥセンサとＲＣＥセンサとを実装対象と仮定して、動画像の圧縮及び再構成のシミュレーション実験を行った。実験に供した動画像は、空間解像度２５６×２５６の１６フレームから構成される動画像１４本であった。再構成した動画像の再構成品質は、ピーク信号対雑音比（ＰＳＮＲ）により評価した。図１６は、実験例２の結果を示す図である。

ＳＢＥセンサを実装対象としたシミュレーション実験では、動画像を構成する各フレームに、図２の（ｂ）に例示したＳＢＥセンサに実装可能な複数の露光パターンの中からランダムに選択された露光パターンをそれぞれ使用して撮影した圧縮動画像をシミュレートした。次いで、シミュレートして得られた圧縮動画像を再構成ネットワークへ入力し、１６フレームから構成される動画像を再構成した（図１６のＨａｎｄｃｒａｆｔＳＢＥ）。このとき、ＤＮＮの機械学習は、デコーダのみ、つまり、再構成層における再構成アルゴリズムの最適化を行うための学習のみ行った。

一方、上記の実施の形態で開示したように、第１学習ステップ及び第２学習ステップによりＤＮＮの機械学習を行い、動画像を構成する各フレームに最適な露光パターンをそれぞれ選択して撮影した圧縮動画像をシミュレートし、動画像を再構成した（図１６のＯｐｔｉｍｉｚｅｄＳＢＥ）。

ＲＣＥセンサを実装対象としたシミュレーション実験では、図２の（ｃ）に例示したＲＣＥセンサに実装可能な複数の露光パターンを用いたこと以外は、ＳＢＥセンサを実装対象としたシミュレーション実験と同様に行った(図１６のＨａｎｄｃｒａｆｔＲＣＥ及びＯｐｔｉｍｉｚｅｄＲＣＥ)。

図１６には、１４本の動画像を用いた結果のうちの３例の評価結果のみを示した。図１６の左端の一列は、試験に供した動画像の１シーンを示している。図１６の上段は、郵便配達車を撮影した動画像であり、郵便配達車の側面には手紙のマークが記載されている。図１６の中段は、複数の車両が走行している様子を撮影した動画像である。図１６の下段は、演者がチェロを伴奏している様子を撮影した動画像である。

図１６に示すように、ＳＢＥセンサ及びＲＣＥセンサを実装対象としたシミュレーション実験では、それぞれのセンサにおいて以下の評価結果が得られた。

図１６の上段（Ｃａｒ）の動画像を比較すると、本実施の形態で開示したＤＮＮを用いて動画像を圧縮して再構成した動画像（ＯｐｔｉｍｉｚｅｄＳＢＥ及びＯｐｔｉｍｉｚｅｄＲＣＥ）の方が、ランダムに露光パターンを選択した場合（ＨａｎｄｃｒａｆｔＳＢＥ及びＨａｎｄｃｒａｆｔＲＣＥ）よりも手紙のマークがより鮮明に再現された。ＨａｎｄｃｒａｆｔとＯｐｔｉｍｉｚｅｄとでＰＳＮＲの値を比較しても、Ｏｐｔｉｍｉｚｅｄの方がＨａｎｄｃｒａｆｔよりも高いため、再構成した動画像は、ノイズが少なく高品質であることが確認できた。

また、図１６の中段（Ｔｒａｆｆｉｃ）の動画像及び下段（Ｃｅｌｌｏ）の動画像においても、本実施の形態で開示したＤＮＮを用いて動画像を圧縮して再構成された動画像（ＯｐｔｉｍｉｚｅｄＳＢＥ及びＯｐｔｉｍｉｚｅｄＲＣＥ）の方が被写体の輪郭がより鮮明であり、各パッチにおける画素値の差が小さく、パッチの境界における画素値の変化がより滑らかで連続した値であった。

また、図示していないが、Ｈａｎｄｃｒａｆｔ及びＯｐｔｉｍｉｚｅｄそれぞれの再構成品質を１４本の再構成動画像におけるＰＳＮＲの平均値で評価した。１４本の動画像の再構成動画像におけるＳＰＮＲの平均値は、ＨａｎｄｃｒａｆｔＳＢＥが２８．３７ｄＢであり、ＯｐｔｉｍｉｚｅｄＳＢＥが２９．３２ｄＢであり、ＨａｎｄｃｒａｆｔＲＣＥが２７．５８ｄＢであり、ＯｐｔｉｍｉｚｅｄＲＣＥが２７．８２ｄＢであった。この結果からも、本実施の形態で開示したＤＮＮを用いて動画像を圧縮する際に最適な露光パターン使用し、再構成アルゴリズムを最適化して得られた再構成動画像の方が再構成品質が良いことが確認できた。

以上の結果により、動画像を圧縮して再構成して得られた動画像の品質（以下、再構成品質）は、ＳＢＥセンサ及びＲＣＥセンサのどちらを実装対象とした場合でも、全てのシーンで最適化した露光パターンを適用して圧縮動画像を生成した方が再構成品質が良かった。よって、本実施の形態で開示したＤＮＮは、ハードウェアの実装上の制約下においても、動画像の各フレームにより適した露光パターンを発見することができ、かつ、それと同時に再構成層において再構成アルゴリズムも最適化できるため、圧縮性能だけでなく再構成性能までも向上されていることが確認できた。

［実験例３］実実験
続いて、本実施の形態で開示したＤＮＮを実機に適用して、動画像の圧縮及び再構成を行った。使用したセンサは、実際に画素毎に露光を制御できるセンサ（特許文献２：特開２０１５－２１６５９４号公報）である。動画像の撮影は、１５フレーム毎秒（ｆｐｓ：Ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）で行い、１６サブフレームを再構成するため、再構成動画像は２４０ｆｐｓ相当である。圧縮センシング層において最適化した露光パターンを用いて動画像を撮影し、再構成アルゴリズムを最適化した再構成層を用いて圧縮動画像から動画像を再構成した。当該センサは、ローリングシャッタ方式であるため、センサ上のピクセルの位置により（ここでは、行毎に）露光パターンを適用する順番が異なる。当該センサのセンササイズは、６７２×５１２画素である。当該センサで撮影された動画像を、１６サブフレームに分割するため、５１２÷１６＝３２行毎に各フレームに適用する露光パターンの順番が異なる。そのため、行毎にそれぞれ別のデコーダを用いる必要がある。図１７は、実験例３の結果を示す図である。図１７の左端の画像は、実際に撮影した動画像であり、左から２番目の画像は、圧縮動画像であり、右側の２つの画像は、再構成した動画像を構成する１６つのサブフレームのうちの３つのサブフレームの画像である。当該センサを搭載したカメラで、メトロノームの重りが左右に揺れている様子を撮影した。図１７に示すように、再構成動画像を構成する１６サブフレームのうち３つのサブフレームの画像から、メトロノームの重りが左右に揺れている様子が確認できた。

（まとめ）
本実施の形態では、圧縮ビデオセンシングにおける露光パターンのハードウェアへの実装上の制約を考慮し、人工知能の一例としてＤＮＮを用いて動画像を構成する各フレームに適した露光パターンの選出と、圧縮動画像から動画像を再構成するためのデコーダの再構成アルゴリズムとを同時に最適化する動画像処理方法を開示した。上記の実験例では、ＳＢＥセンサ及びＲＣＥセンサの２つセンサへの実装上の制約について本開示の動画像処理方法を用いて動画像の圧縮及び再構成を行った。上記の実験例の結果から、本開示の動画像処理方法を用いると、実装されるハードウェアの制約に関わらず、撮影される動画像の各フレームに最適な露光パターンを選出することができ、さらに、圧縮動画像から再構成された未知の動画像の品質もより向上されることが確認できた。

（変形例１）
実施の形態では、モノクロの動画像を圧縮及び再構成する手法について説明したが、変形例１に係る動画像処理方法は、カラーの動画像に対して適用可能である。以下、実施の形態と異なる点を中心に説明する。

変形例１における動画像処理システムでは、カメラがピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含むイメージセンサを備える点で実施の形態と異なる。

また、変形例１に係る動画像処理方法は、圧縮ステップでは、カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、圧縮動画像を生成し、第１機械学習ステップでは、さらに、圧縮ステップに先立ち、カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、圧縮ステップでは、第１機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて圧縮動画像を生成する。つまり、変形例１に係る動画像処理方法は、第１学習ステップにおいて、露光パターンの最適化に加えて、カラーフィルタパターンを最適化するステップを有する点、及び、圧縮ステップにおいて、動画像を構成する各フレームに適用された最適なカラーフィルタパターンに応じて露光パターンをそれぞれ選択する点で、実施の形態と異なる。

図１８は、カラー動画像の圧縮センシングのフローの一例を示す図である。図１８に示すように、変形例１に係る動画像処理方法では、最適化された複数のカラーフィルタパターンの中から動画像を構成する各フレームに適したカラーフィルタパターンをそれぞれ選択すること以外は、実施の形態に係る動画像処理方法のフローと同様である。

図１９は、カラーフィルタパターンの一例を示す図である。図１９の（ａ）は、ベイヤーパターンのカラーフィルタの一例であり、図１９の（ｂ）は、変形例１における動画像処理方法により最適化されたカラーフィルタの一例を示す。

図２０は、カラーフィルタの違いにより適用される露光パターンの例を示す図である。図２０の左端の図は、モノクロ動画像を撮像する場合に使用される露光パターンの一例である。図２０の中央の図は、ベイヤーパターンのカラーフィルタでカラー動画像を撮像する場合に使用される露光パターンの一例である。図２０の右端の図は、最適化されたカラーフィルタパターンでカラー動画像を撮像する場合に使用される露光パターンの一例である。変形例１では、撮影される動画像を構成する各フレームに適したカラーフィルタパターンを選択することにより、カラー動画像の圧縮及び再構成の性能が向上される。

［実験例４］
本実験例では、ＲＣＥセンサを実装対象と仮定して、カラー動画像の圧縮及び再構成のシミュレーション実験を行った。実験に供した動画像は、空間解像度２５６×２５６の１６フレームから構成される動画像２５本であった。再構成した動画像の再構成品質は、ピーク信号対雑音比（ＰＳＮＲ）により評価した。図２１は、実験例４の結果の一例を示す図である。図２１の左端の図（ＯｒｉｇｉｎａｌＶｉｄｅｏ）は、実験に供したカラー動画像の一例である。ここでは、図２１の左端に示すＯｒｉｇｉｎａｌＶｉｄｅｏをシミュレーション実験に供した結果を例に挙げて、シミュレーション実験の内容及び結果について説明する。

まず、シミュレーション実験では、カラー動画像を構成する各フレームに、ベイヤーパターンのカラーフィルタと図２の（ｃ）に例示したＲＣＥセンサに実装可能な複数の露光パターンの中からランダムに選択された露光パターンとをそれぞれ使用して撮影した圧縮動画像をシミュレートした。次いで、シミュレートして得られた圧縮動画像を再構成ネットワークへ入力し、１６フレームから構成される動画像を再構成した（図２１の左から２番目の図）。このとき、ＤＮＮの機械学習は、デコーダのみ、つまり、再構成層における再構成アルゴリズムの最適化を行うための学習のみ行った。このように、デコーダのみ最適化されたＤＮＮを用いて得られた再構成動画像を「デコーダのみ」と称する。

次いで、カラー動画像を構成する各フレームにベイヤーパターンのカラーフィルタと、カラー動画像を構成する各フレームに最適な露光パターンをそれぞれ選択して撮影した圧縮動画像をシミュレートし、動画像を再構成した（図２１の左から３番目の図）。このとき、ＤＮＮの機械学習は、第１機械学習ステップ及び第２機械学習ステップにより、露光パターンの最適化と再構成層における再構成アルゴリズムの最適化を行うための学習を行った。このように、露光パターンとデコーダとが最適化されたＤＮＮを用いて得られた再構成動画像を、「露光パターン＋デコーダ」と称する。

次いで、カラー動画像を構成する各フレームに最適なカラーフィルタパターンと、カラー動画像を構成する各フレームに最適な露光パターンと、をそれぞれ選択して撮影した圧縮動画像をシミュレートし、動画像を再構成した（図２１の右端の図）。このとき、ＤＮＮの機械学習は、第１機械学習ステップにより、カラーフィルタパターン及び露光パターンの最適化を行うための学習を行い、第２機械学習ステップにより再構成層における再構成アルゴリズムの最適化を行うための学習を行った。このように、カラーフィルタパターンと露光パターンとデコーダとが最適化されたＤＮＮを用いて得られた再構成動画像を、「カラーフィルタ＋露光パターン＋デコーダ」と称する。

図２１に示すように、デコーダのみ、露光パターン＋デコーダ、及び、カラーフィルタ＋露光パターン＋デコーダのそれぞれの再構成動画像を比較すると、デコーダのみの再構成動画像のＰＳＮＲ値は２４．１８ｄＢであり、露光パターン＋デコーダの再構成動画像のＰＳＮＲ値は２３．９２ｄＢであり、カラーフィルタ＋露光パターン＋デコーダの再構成動画像のＰＳＮＲ値は２３．３４ｄＢであった。したがって、これらの再構成動画像のうち、カラーフィルタ＋露光パターン＋デコーダの再構成動画像は、ノイズが最も少なく、再構成品質が高いことが確認できた。

また、これらの再構成動画像のうち、変形例１で開示したように、カラーフィルタ＋露光パターン＋デコーダの全てを最適化する学習を行ったＤＮＮを用いて得られた再構成動画像は、被写体の色彩及び輪郭が鮮明であり、パッチの境界における画素値の変化がより滑らかで連続した値であった。

また、図示していないが、デコーダのみ最適化した場合（以下、デコーダのみ）、露光パターン及びデコーダを最適化した場合（以下、露光パターン）、カラーフィルタパターン、及び、露光パターン及びデコーダを最適化した場合（以下、カラーフィルタ＋露光パターン）のそれぞれの再構成品質を２５本の再構成動画像におけるＰＳＮＲの平均値で評価した。２５本の動画像の再構成動画像におけるＳＰＮＲの平均値は、デコーダのみが２６．５６ｄＢであり、露光パターンが２６．４３ｄＢであり、カラーフィルタ＋露光パターンが２６．７６ｄＢであった。この結果からも、変形例１に係る動画像処理方法によりカラー動画像を圧縮する際に最適なカラーフィルタパターン及び露光パターン使用し、再構成アルゴリズムを最適化して得られた再構成動画像は、再構成品質が良いことが確認できた。

（変形例２）
実施の形態及び変形例１では、動画像の圧縮及び再構成の手法について説明したが、変形例２では、圧縮動画像から被写体の動きを検出するための手法について説明する。以下、実施の形態及び変形例１と異なる点を中心に説明する。図２２は、変形例２に係る動画像処理方法の一例を示すフローチャートである。図２３は、変形例２における機械学習ステップの構成の一例を示す図である。

図２２に示すように、変形例２に係る動画像処理方法は、カメラ２００（図１０参照）は、圧縮動画像を生成する（圧縮ステップＳ１０）。次いで、動き情報生成部５０（図１０参照）は、圧縮ステップＳ１０で生成された圧縮動画像から、イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した動きの種類を示す動き情報を生成する（検出ステップＳ３０）。

図２３に示すように、さらに、変形例２に係る動画像処理方法は、動き検出ステップＳ３０に先立ち、圧縮動画像を入力とし、動き情報を出力するための人工知能を機械学習しておく第３機械学習ステップＳ３を含み、動き検出ステップＳ３０では、第３機械学習ステップＳ３で機械学習された人工知能を用いて動き情報を生成する。

また、図示していないが、人工知能は、ニューラルネットワークであり、未知動画像から露光パターンに対応する重み係数を用いた演算により圧縮動画像を生成するセンシング層と、センシング層が生成した圧縮動画像から動き情報を生成する動き検出層とを含み、第１機械学習ステップＳ１と第３機械学習ステップＳ３とは、センシング層と動き検出層とを含む人工知能に対する教師あり学習によって行われる。

なお、変形例に係る動画像処理方法においても、実施の形態及び変形例１に係る動画像処理方法と同様に、以下の効果が期待される。

変形例２で開示する動画像処理方法においても、実施の形態及び変形例１で上述した通り、イメージセンサの各ピクセルをランダムに露光可能なセンサを用いて符号化露光画像（いわゆる、圧縮動画像）を撮影する。この符号化露光の長さ分だけ、つまり、露光パターンを適用して撮影したフレームの数だけ、データ量を圧縮することが可能である。例えば、１６フレームから構成される動画像について、全てのフレームについてそれぞれ最適な露光パターンを適用して圧縮動画像を生成した場合、圧縮動画像のデータ量は、元の動画像のデータ量の１／１６倍になる。そのため、通信量の削減及び伝送にかかる消費電力の削減が期待される。

通常の圧縮手法では、カメラで動画像を撮影した後に、動画像を圧縮する。一方、変形例２で開示する動画像処理方法においても、実施の形態及び変形例１で上述した通り、イメージセンサの各ピクセルをランダムに露光して符号化露光画像を撮影することにより、動画像の再構成に十分な情報を単一のフレームに圧縮して取得することができるため、非常に効率的である。そのため、従来の手法に比べて、動画像の圧縮処理にかかる電力などのコスト削減が期待される。

また、変形例２で開示する動画像処理方法においても、上述の通り、動画像の再構成に十分な情報を単一のフレームに圧縮して取得することができるため、従来手法に比べてデータ量を大幅に削減できる。例えば、従来手法として、近年、動画像における被写体の動き等の認識手法がある。当該認識手法では、カメラで撮影された動画像が持つ時間的及び空間的情報を、３次元畳み込みによる時空間情報の特徴化で認識精度を向上させている。しかしながら、３次元畳み込みにより得られる動画像の時空間情報は、パラメータ数及びデータ量が大きい。そのため、これらの時空間情報から動画像における被写体の動きなどを認識（識別）するためには、ニューラルネットワークは、通常のニューラルネットワークよりも多くの層を有する大規模なネットワークとなり、当該ネットワークのパラメータ数も多くなる。また、当該ネットワークを十分に学習させるために必要なデータ数が増えるため、データセットも大規模なものが必要となる。したがって、当該ネットワークでは、大規模ＧＰＵクラスタなどの演算資源が学習時に必要となり、学習にかかる時間は膨大なものとなる。一方、変形例２で開示する動画像処理方法では、実施の形態及び変形例１と同様にして生成された符号化露光画像を、動画像における被写体の動きなどを識別するためのニューラルネットワークの入力とすることで、従来手法のように３次元の畳み込みを必要とせず、２次元畳み込みにより時空間情報の特徴化が可能となる。そのため、従来手法の３次元畳み込みによるものに比べ、機械学習に必要となるパラメータ数が減少し、かつ、データ数も小さくなるため、機械学習の効率化が期待でき、少ない学習データでも精度が向上される。

変形例２に係る動画像処理方法におけるネットワークアーキテクチャとして、表１に示す２次元の畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を考える。

表１に示すように、２次元のＣＮＮは、例えば、３×３のストライド１の８層の２次元畳み込みと２×２の５層の最大値プーリングと２層の全結合層から構成される。計算の簡略化のため、ｂｉａｓ項を無視するとある畳み込み層のパラメータ数Ｐは、その層の入力チャネル数Ｃ_ｉｎと出力チャネル数Ｃ_ｏｕｔとカーネルサイズＫとを用いると、以下の式（２）で表される。

したがって、非特許文献１９が最も良いとする３次元畳み込みのカーネル３×３×３を用いた場合、本変形例で開示する手法は２次元畳み込みのカーネル３×３であり、畳み込み層のパラメータ数は、非特許文献１９の手法のおよそ１／３となる。

本変形例で開示する手法のニューラルネットワークは、次のように学習及び評価を行う。Ｋ種類の行動Ｃ＝｛Ｃ_１，Ｃ_２，・・・，Ｃ_Ｋ｝についてのクラス分類を行うとする。ある行動ａ∈Ｃにおける長さＮの動画像をＩ＝｛Ｉ_１，Ｉ_２，・・・，Ｉ_Ｎ｝とする。符号化露光パターンの長さをＬとするとビデオクリップの長さはＬであり、ビデオクリップは、以下の式（３）で表される。

ビデオクリップに符号化露光パターンを適用し、

とする。Ｉに対して、｛（Ｘ_ｉ，ａ）｝のペアを用いてネットワークを学習する。各入力Ｘｉに対する出力Ｙｉを動画像全体で平均し、最大値を取ったものを動画像における行動ラベルとして評価を行う。すなわち、ある時点での入力Ｘｉが行動Ｃｊに属する確率ｐ（Ｃ_ｊ｜Ｘ_ｉ）は、以下の式（５）で表される。

このとき、Ｉに対して推定される行動ラベルａ^＊は、以下の式（６）で表される。

データセットの動画像の総数をＭとして、認識精度（Ａｃｃｕｒａｃｙ）Ｓは、以下の式（７）を用いて算出される。

［実験例５］評価実験
符号化露光画像から直接行動を認識するシミュレーション実験を行った。

［１］データセット
シミュレーション実験には、ＫＴＨＡｃｔｉｏｎデータセット（非特許文献２３）を用いた。図２４は、ＫＴＨＡｃｔｉｏｎデータセットにおける各行動クラスの１シーンを示す図である。図２４に示すように、当該データセットは、「ｗａｌｋｉｎｇ」、「ｊｏｇｇｉｎｇ」、「ｒｕｎｎｉｎｇ」、「ｂｏｘｉｎｇ」、「ｈａｎｄｗａｖｉｎｇ」、「ｈａｎｄｃｌａｐｐｉｎｇ」の６種類の行動クラスに分類されている。各行動クラスは、撮影に使用するカメラの位置を固定し、２５人の被験者が６種類の行動を４つのシナリオで実行している様子を撮影したものである。各行動クラスの動画像は、平均４秒であり、画像解像度が６００ｄｐｉのグレースケールのビデオ（以下、動画像）である。これらの動画像は、２５ｆｐｓで撮像され、１６０×１２０の空間解像度にダウンサンプリングされている。非特許文献２３の分割手法に従い、被験者２５人を、ニューラルネットワークの訓練で８人、検証で８人、実験で９人に分割した。

［２］比較手法
上記のデータセットの各動画像は、学習時に、前後のフレーム同士で重複するデータが存在しないように選択した１６フレームのビデオクリップに分割し、１１２×１１２の空間解像度にランダムに切り抜きを行った。下記の（ｄ）に示す手法は、このビデオクリップを入力として機械学習を行ったニューラルネットワーク（ＮＮ）を使用して上記の行動クラスの識別を行った手法である。下記の（ａ）～（ｃ）に示す手法は、このビデオクリップに対してそれぞれ異なる圧縮処理を施して得られた圧縮動画像を入力として学習を行ったニューラルネットワークを使用して上記の行動クラスの識別を行った手法である。下記（ａ）～（ｄ）において、ビデオクリップの圧縮処理は、それぞれ、ビデオクリップの情報量の１／１６倍に圧縮されるように実施した。

図２５は、実験例５における比較手法の一例を示す図である。図２６は、ＮＮに入力される画像のあるピクセルにおける露光の一例を示す図である。以下、図２５及び図２６を参照しながら、（ａ）～（ｄ）に示す手法についてより具体的に説明する。

（ａ）符号化露光画像
本開示で開示する圧縮方法でビデオクリップを圧縮した。より具体的には、ビデオクリップを構成する各フレームに最適な符号化露光パターンを適用し、符号化露光画像を生成した。この符号化露光画像をＣＮＮの入力とした。符号化露光パターンは、サイズが８×８であり、各ビデオクリップのピクセルを１／１６で露光するランダムなパターンを使用した。動画像に対して１６分の１のフレームレートで、各ピクセルの露光時間は符号化露光パターンによって変化する。例えば、図２６の（ａ）に示すように、符号化露光画像では、単一のフレームの画像であり、当該単一のフレームのあるピクセルにおける露光は、例えば１フレーム中に数回行われている。この実験で用いた符号化露光パターンでは、露光時間は動画像の１フレームを撮影する露光時間と等しい。

（ｂ）平均化画像
時間情報を１枚の画像に圧縮する単純な手法として、ビデオクリップを時間方向に平均化した平均化画像を用いた。この平均化画像をＣＮＮの入力とした。図２６の（ｂ）に示すように、平均化画像のあるピクセルは、１フレームの間、露光されている。そのため、平均化画像は、１６分の１のフレームレートで露光時間が１６倍の動画像の１フレームと等しくなる。

（ｃ）１フレーム画像
時間情報を持たない画像と比較するため、１フレームの画像と比較した。ビデオクリップを構成する１６フレームのうち１フレームを選択し、これをＣＮＮの入力とした。図２６の（ｃ）に示すように、１フレーム画像は、１６分の１のフレームレートで露光時間が等しい動画像の１フレームと等しい。

（ｄ）動画像
従来手法の３次元畳み込みネットワーク（Ｃ３Ｄ：Ｃｏｎｖｏｌｕｔｉｏｎ３Ｄ）に相当する手法として、ビデオクリップを入力とし、Ｃ３Ｄ（非特許文献１９）で学習した。Ｃ３Ｄは、本来ＲＧＢの３チャネルであるが、グレースケールの１チャネルに変更し、事前学習なしで学習した。ビデオクリップは全てのフレームにおいて全ピクセルは露光されている。そのため、図２６の（ｄ）に示すように、全てのフレームにおいてあるピクセルは各フレームの間露光されている。

［３］実験結果
上記の（ａ）～（ｄ）の比較手法を用いてデータセットの全行動クラスを識別したシミュレーション実験の結果を表２に示す。表２の識別精度は、データセットの各行動クラスの識別精度の平均を示している。

表２に示すように、（ａ）符号化露光画像をＣＮＮの入力として機械学習を行い、動画像における被写体の動きを識別した場合、（ｄ）動画像の従来手法による識別精度に非常に近い識別精度が得られた。しかしながら、（ｂ）平均化画像をＣＮＮの入力として学習を行った動画像の識別手法と、（ｃ）１フレーム画像をＣＮＮの入力として学習を行った動画像の識別手法とは、動画像の空間的情報又は時間的情報から動画像の時空間情報を識別せざるを得ないため、（ａ）符号化露光画像をＣＮＮの入力とした場合に比べて、動画像の識別精度が著しく低下した。

図２７は、（ａ）～（ｄ）の各比較手法の混同行列を示す図である。図２７の混同行列から、平均化画像をＣＮＮの入力とした手法（ｂ）は、１フレーム画像をＣＮＮの入力とした手法（ｃ）と同様に、符号化露光画像をＣＮＮの入力とした手法（ａ）に比べて、「ｈａｎｄｗａｖｉｎｇ」の認識精度が低下していた。さらに、手法（ｂ）及び（ｃ）は、手法（ａ）に比べて、「ｗａｌｋｉｎｇ」、「ｊｏｇｇｉｎｇ」、及び、「ｒｕｎｎｉｎｇ」の識別精度が著しく低下していることから、これらの行動クラスの区別が難しいことが分かった。

一方、符号化露光画像をＣＮＮの入力とした手法（ａ）は、上記の各行動クラスの識別において、動画像（ここでは、ビデオクリップ）をＣ３Ｄの入力した従来手法に相当する手法（ｄ）と同様の傾向を示していた。さらに、手法（ａ）は、上記の各行動クラスの認識精度も手法（ｄ）の認識精度に迫る高い精度を達成した。

［実験例６］
実験例５では、１６フレームのビデオクリップを識別対象画像として用いたが、実験例６では、ビデオクリップの長さＬ（以下、フレーム数）を変化させ、動画像を構成するフレーム数が増えた場合に、行動クラスの認識精度がどのように変化するかを確認するシミュレーション実験を行った。図２８は、実験例６の結果を示す図である。

手法（ｄ）について、Ｃ３Ｄは１６フレームのビデオクリップを入力とするため、１６フレーム未満のビデオクリップを用いる場合、１６／Ｌ回同じフレームを繰り返すことで１６フレームの動画像に調整し、調整したビデオクリップをＣ３Ｄに入力した。また、１６フレームより多いビデオクリップを用いる場合は、Ｃ３Ｄの入力フレーム数をＬに変更した。そのため、Ｃ３Ｄを用いたものは、ネットワークの表現力の向上及びデータセットの不足により、公正な比較ができないことに留意されたい。

また、平均化画像を入力とする手法（ｂ）については、ビデオクリップのフレーム数が４フレームから８フレームまでは若干の識別精度の改善が見られたが、ビデオクリップのフレーム数が８フレームよりも多くなると認識精度は低下した。１フレーム画像を入力とする手法（ｃ）においても、手法（ｂ）と同様の傾向が見られた。したがって、手法（ｂ）の平均化画像のように識別対象の動画像を時間方向に平均すると、当該動画像の時間情報が失われていくため、所定のフレーム数を超えると、動きの識別に必要な時間情報が得られなくなると考えられる。

一方、符号化露光画像を入力とする手法（ａ）では、ビデオクリップのフレーム数Ｌが１６フレームまでは認識精度が改善した。これは動画像（ビデオクリップ）を入力とする手法（ｄ）と同様の傾向を示しているため、符号化露光画像が時間情報を十分に有していると考えられる。しかしながら、符号化露光画像を入力とした手法（ａ）は、ビデオクリップのフレーム数が１６フレームより長くなると認識精度が低下した。これは特徴化しなければならない時間情報が増え、今回、手法（ａ）で用いた符号化露光パターンでは時間情報を表現しきれなくなったためであると考えられる。

（まとめ）
変形例２では、ビデオ監視システムにおける行動認識のトレードオフな問題に対し圧縮センシングを適用し、符号化露光カメラにより撮影される単一の画像（いわゆる、圧縮動画像）から２次元のＣＮＮを用いて、圧縮動画像から再構成動画像を生成することなく、直接、人物の行動認識を行う動画像処理方法の一例を説明した。変形例２に係る動画像処理方法の有効性を評価するため、実験例５にてＫＴＨＡｃｔｉｏｎデータセットを用いたシミュレーション実験を行った。実験例５の結果から、変形例２に係る動画像処理方法は、ニューラルネットワークへの入力のデータ量を１／１６倍に圧縮しているにもかかわらず、動画像を入力とした３次元のＣＮＮ（例えば、Ｃ３Ｄ）を用いて人物の行動識別を行った場合の識別精度に迫る高い識別精度を達成した。

（他の実施の形態）
以上、本開示の１つ又は複数の態様に係る動画像処理方法及び動画像処理装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構成される形態も、本開示の１つ又は複数の態様の範囲内に含まれてもよい。

例えば、上記実施の形態における動画像処理システムでは１台のカメラを備える場合を説明したが、２台以上の複数のカメラを備えてもよい。これにより、複数の撮像された動画像を取得できるため、得られる複数の動画像から異常な行動をより迅速に、かつ、精度良く検出することができる。

また、例えば、上記実施の形態における動画像処理装置が備える構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。例えば、動画像処理装置は、通信部と、制御部と、を有するシステムＬＳＩから構成されてもよい。

システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法は、ＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいは、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。

また、本開示の一態様は、このような動画像処理装置だけではなく、動画像処理装置に含まれる特徴的な構成部をステップとする動画像処理方法であってもよい。また、本開示の一態様は、動画像処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の動画像処理装置などを実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、圧縮ステップに先立ち、露光の態様を特定する露光パターンを機械学習によって最適化しておく第１機械学習ステップと、を含み、圧縮ステップでは、第１機械学習ステップによる最適化によって得られた露光パターンを用いて圧縮動画像を生成する動画像処理方法を実行させる。

本開示は、実装されるハードウェアの制約に関わらず、ハードウェアの種類によって適切な露光パターンを、動画像を構成する各フレームにそれぞれ適用して動画像を撮影することができるため、例えば、動画像を撮影しながら圧縮品質の高い圧縮動画像を生成することができる。そのため、本開示の動画像処理装置は、例えば、観測カメラ、監視カメラなどに広く利用可能である。

１０通信部
２０制御部
３０機械学習部
４０再構成部
５０動き情報生成部
６０表示部
７０入力部
８０圧縮動画像生成部
９０露光パターン保持部
１００動画像処理装置
２００カメラ
３００動画像処理システム

Claims

２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、撮影された動画像を構成する複数フレームのそれぞれに最適な露光パターンを用いて圧縮された単一の画像である圧縮動画像を生成する圧縮ステップと、
前記圧縮ステップに先立ち、前記イメージセンサを構成するピクセル毎に前記露光の態様を特定する露光パターンを、前記イメージセンサの種類に応じて機械学習によって最適化しておく第１機械学習ステップと、
前記第１機械学習ステップと同時に行われ、前記圧縮動画像から前記動画像を再構成するためのデコーダの再構成アルゴリズムを機械学習によって最適化しておく第２機械学習ステップと、
を含み、
前記圧縮ステップでは、前記第１機械学習ステップによる最適化によって得られた、前記動画像の前記複数フレームのそれぞれに最適な前記露光パターンを用いて前記圧縮動画像を生成する、
動画像処理方法。
前記露光パターンは、前記圧縮動画像を構成するフレーム毎に前記イメージセンサを構成するピクセルのうち露光に用いるピクセルを指定した情報である、
請求項１に記載の動画像処理方法。
さらに、前記圧縮ステップで生成された前記圧縮動画像に対して、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像を目標として再構成することで、出力動画像を生成する再構成ステップを含む、
請求項１又は２に記載の動画像処理方法。
前記第２機械学習ステップでは、前記圧縮動画像を入力とし、前記出力動画像を出力するための人工知能を機械学習し、
前記再構成ステップでは、前記第２機械学習ステップで機械学習された前記人工知能を用いて前記出力動画像を生成する、
請求項３に記載の動画像処理方法。
前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像を再構成することによって前記出力動画像を生成する再構成層と、を含み、
前記第１機械学習ステップと前記第２機械学習ステップとは、前記センシング層と前記再構成層とを含む前記人工知能に対する教師あり学習によって行われる、
請求項４に記載の動画像処理方法。
さらに、前記圧縮ステップで生成された前記圧縮動画像が有する時間的及び空間的情報から前記動画像を再構成することなく、前記圧縮動画像から、直接、前記イメージセンサを構成する全てのピクセルを全てのフレームにおいて露光させた場合に得られる未知動画像が示す動きの種類を特定し、特定した前記動きの種類を示す動き情報を生成する動き検出ステップを含み、
前記未知動画像が示す前記動きの種類は、前記未知動画像の行動クラスの種類、又は、前記未知動画像における被写体の動きの種類である、
請求項１又は２に記載の動画像処理方法。
さらに、前記動き検出ステップに先立ち、前記圧縮動画像を入力とし、前記動き情報を出力するための人工知能を機械学習しておく第３機械学習ステップを含み、
前記動き検出ステップでは、前記第３機械学習ステップで機械学習された前記人工知能を用いて前記動き情報を生成する、
請求項６に記載の動画像処理方法。
前記人工知能は、ニューラルネットワークであり、前記未知動画像から前記露光パターンに対応する重み係数を用いた演算により前記圧縮動画像を生成するセンシング層と、前記センシング層が生成した前記圧縮動画像から前記動き情報を生成する動き検出層とを含み、
前記第１機械学習ステップと前記第３機械学習ステップとは、前記センシング層と前記動き検出層とを含む前記人工知能に対する教師あり学習によって行われる、
請求項７に記載の動画像処理方法。
前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、
前記圧縮ステップでは、前記カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、前記圧縮動画像を生成し、
前記第１機械学習ステップでは、さらに、前記圧縮ステップに先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、
前記圧縮ステップでは、前記第１機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて前記圧縮動画像を生成する、
請求項１～８のいずれか一項に記載の動画像処理方法。
２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、撮影された動画像を構成する複数フレームのそれぞれに最適な露光パターンを用いて圧縮された単一の画像である圧縮動画像を生成するカメラに用いられる動画像処理装置であって、
前記イメージセンサを構成するピクセル毎に前記露光の態様を特定する露光パターンを、前記イメージセンサの種類に応じて機械学習によって最適化しておく第１機械学習部と、
前記第１機械学習部と同時に、前記圧縮動画像から前記動画像を再構成するためのデコーダの再構成アルゴリズムを機械学習によって最適化しておく第２機械学習部と、
前記第１機械学習部による最適化によって得られた、前記動画像の前記複数フレームのそれぞれに最適な露光パターンを前記カメラへ出力する出力部と、
を備える、
動画像処理装置。
２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成する圧縮ステップと、
前記圧縮ステップに先立ち、前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第１機械学習ステップと、
を含み、
前記圧縮ステップでは、前記第１機械学習ステップによる最適化によって得られた露光パターンを用いて前記圧縮動画像を生成し、
前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、
前記圧縮ステップでは、前記カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、前記圧縮動画像を生成し、
前記第１機械学習ステップでは、さらに、前記圧縮ステップに先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、
前記圧縮ステップでは、前記第１機械学習ステップによる最適化によって得られたカラーフィルタパターンを用いて前記圧縮動画像を生成する、
動画像処理方法。
２次元状にピクセルが配置されたイメージセンサを用いて時間的及び空間的に間引いた繰り返し露光による撮影を行うことで、圧縮動画像を生成するカメラに用いられる動画像処理装置であって、
前記露光の態様を特定する露光パターンを機械学習によって最適化しておく第１機械学習部と、
前記第１機械学習部による最適化によって得られた露光パターンを前記カメラへ出力する出力部と、
を備え、
前記イメージセンサは、前記ピクセルのそれぞれに対応させて特定の色の光を選択的に通過させるカラーフィルタを含み、
前記カメラは、前記カラーフィルタのパターンを時間的及び空間的に変化させた露光による撮影を行うことで、前記圧縮動画像を生成し、
前記第１機械学習部は、さらに、前記圧縮動画像の生成に先立ち、前記カラーフィルタのパターンの時間的及び空間的な変化の態様を特定するカラーフィルタパターンを機械学習によって最適化しておき、
前記出力部は、さらに、前記第１機械学習部による最適化によって得られたカラーフィルタパターンを前記カメラへ出力する、
動画像処理装置。