JP6609505B2

JP6609505B2 - 画像合成装置及びプログラム

Info

Publication number: JP6609505B2
Application number: JP2016076792A
Authority: JP
Inventors: 建鋒徐; 聿津湯; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2019-11-20
Anticipated expiration: 2036-04-06
Also published as: JP2017187954A

Description

本発明は、映像信号を深層畳み込みニューラルネットワーク等によって高速且つ高精度に認識するための入力データとして、空間情報及び動き情報が考慮された合成画像を映像信号から生成する画像合成装置、プログラム及びデータ構造に関する。

全結合していない順伝播型ニューラルネットワークである畳み込みニューラルネットワーク（Convolutional Neural Networks: ConvNet）では、畳み込み層とプーリング層とからなる層構造を用いることで、小さなパターンを学習することができる。当該層構造を深層化した深層畳み込みニューラルネットワーク（以下、CNNとする。）は画像認識で活用され、非特許文献１に開示のように、認識精度を大幅に向上させている。

非特許文献１に開示のように静止画の認識で成功したCNNに関してさらに、動画像（映像信号）の認識に適用することも検討されている。例えば非特許文献２では、最も簡素な手法として、動画像の各フレームをそれぞれ独立した静止画としてCNNに入力している。しかし、当該手法では時間軸の相関性や動き情報を利用していないので、動き情報が重要ではないタスク（例えば、静止物体の認識）にしか適用できない。

一方、非特許文献３では、動画像の時間軸の相関も考慮してCNNを適用する手法として「3D ConvNet」が開示されている。非特許文献３では、非特許文献１等の時間軸を考慮しない手法において横のサイズ（画素数）がWであり且つ縦のサイズがHであることによるサイズ「W×H」の2次元データとしての静止画をCNNの入力として用いていたのを拡張して、時間軸方向にもサイズ（フレーム数）Lを取り、サイズ「W×H×L」の3次元データとしての動画像をCNNの入力として用いている。また、畳み込み層にも3次元のカーネルを採用している。つまり、非特許文献３では動画像における複数フレーム系列をCNNの入力として用いることで、時間軸の相関も利用した認識を試みている。

Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems 25: 1097-1105 Feng Ning; Delhomme, D.; LeCun, Y.; Piano, F.; Bottou, L.; Barbano, P.E., "Toward automatic phenotyping of developing embryos from videos," in Image Processing, IEEE Transactions on , vol.14, no.9, pp.1360-1371, Sept. 2005 Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri; "Learning Spatiotemporal Features With 3D Convolutional Networks," The IEEE International Conference on Computer Vision (ICCV), 2015, pp. 4489-4497 Gunnar Farneback, "Two-Frame Motion Estimation Based on Polynomial Expansion, Image Analysis," Volume 2749 of the series Lecture Notes in Computer Science, pp 363-370, June 2003

しかしながら、上記の従来技術としての非特許文献３の手法では、動画像における時間軸の相関を考慮してCNNを適用できるものの、時間軸の相関を考慮しない非特許文献２のような手法に比べて、計算量及びメモリ消費が膨大になってしまうという課題があった。このため例えば、動画像のリアルタイム認識を行う場合に、計算リソースの少ない端末では困難が生じた。また、非特許文献３の手法ではCNNへの入力データのサイズ「H×W×L」における時間軸方向のサイズLとして16を採用しているが、例えば動画像のフレームレートが30FPS(フレーム毎秒)であるとした場合、当該16枚の時間軸方向フレームを利用することで、リアルタイム認識を行う場合に約0.5秒の遅延が不可避であるという課題もあった。

本発明は、上記従来技術の課題に鑑み、映像信号を深層畳み込みニューラルネットワーク等によって高速且つ高精度に認識するための入力データとして、空間情報及び動き情報が考慮された合成画像を映像信号から生成する画像合成装置、プログラム及びデータ構造を提供することを目的とする。

上記目的を達成するため、本発明は、画像合成装置であって、映像信号における所定数の継続したフレームごとに、当該フレーム内より抽出される空間情報と、当該フレーム間より抽出される動き情報と、を組み合わせた合成画像を生成する画像合成部を備えることを特徴とする。また、本発明は、コンピュータを前記画像合成装置として機能させるプログラムであることを特徴とする。さらに、本発明は、映像信号における所定数の継続したフレームごとに、当該フレーム内より抽出される空間情報と、当該フレーム間より抽出される動き情報と、を組み合わせた合成画像のデータ構造であって、前記合成画像が、前記映像信号における所定数の継続したフレームごとに、当該映像信号における空間情報及び動き情報を考慮した認識を行うための入力データとして生成されることを特徴とする。

本発明によれば、映像信号から映像信号における所定数の継続したフレームごとに、当該フレーム内より抽出される空間情報と、当該フレーム間より抽出される動き情報と、を組み合わせた合成画像を生成することができる。

一実施形態に係る画像合成装置及び当該装置を含む動画像認識装置の機能ブロック図である。画像合成装置において処理される各データの流れの一実施形態の模式的な例を示す図である。隣接フレーム間で算出されるオプティカルフローの例を模式的に示す図である。解像度変換部において解像度を半分に変換する際の変換前と変換後のそれぞれの画素を模式的に示す図である。画像合成部において適応的に選択する所定パターンの例を示す図である。図２の例に対応する例として、色空間変換部を省略する際の画像合成装置でのデータ処理の流れの例を示す図である。

図１は一実施形態に係る画像合成装置及び当該装置を含む動画像認識装置の機能ブロック図である。動画像認識装置20は、画像合成装置10及び認識部15を備える。画像合成装置10は、色空間変換部11、動き情報算出部12、解像度変換部13及び画像合成部14を備える。

動画像認識装置20の前処理を担う画像合成装置10では、認識対象の動画像を読み込み、所定フレーム数毎にその空間情報及び動き情報を含んだ合成画像を生成する。当該合成画像を認識部15において認識することで、動画像認識装置20は認識対象の動画像に対して、その空間情報及び動き情報の両者を考慮したうえで、所定フレーム数毎の認識結果を得ることができる。

図２は、画像合成装置10において処理される各データの流れの一実施形態の模式的な例を示す図である。図２では、[1]〜[6]と分けて当該処理されるデータの模式的な例が示されると共に、対応する欄C1〜C6にデータ処理内容の説明がそれぞれ与えられている。以下、図２を適宜参照しながら、画像合成装置10の各部及び認識部15の処理の概要を説明する。

色空間変換部11は、入力される映像信号から所定数の連続フレームを一つの処理単位としたうえで、当該処理単位の各フレームの色空間の変換を行ったうえで、当該変換されたフレームのうち所定のもの（図２を参照して後述）を図１中に線L1として示すように動き情報算出部12へと出力し、また、図１中に線L2として示すように画像合成部14へと出力する。

入力される映像信号が所定の第１色空間で構成されているものとすると、色空間変換部11では、第１色空間よりも冗長性を削減することのできる所定の第２色空間への変換を行う。例えば、入力される映像信号の第１色空間がRGB色空間であるものとすると、第２色空間として、YUV色空間へ変換する。

図２では、[1]〜[3]に色空間変換部11の処理によるデータの流れが示されている。まず、[1]には説明欄C1に記載のように、色空間変換部11に入力される映像信号として時系列上に並んだ各フレームF1,F2,F3,…が示されている。[2]には、欄C2に記載のように、色空間変換部11において当該映像信号から例えば連続4フレームを処理単位に設定することが示され、処理単位の１つの例としてF1,F2,F3,F4が示されている。従ってこの場合、図２では示していないが同様に以降の連続4フレームであるF5〜F8、F9〜F12、F13〜F16、…等もそれぞれ処理単位として設定されることとなる。

さらに、説明欄C3の付与された図２の[3]では、処理単位であるF1〜F4の各フレームがRGB色空間で構成されているものとして、YUV色空間に変換したうえで、フレームF1〜F4のY信号（輝度信号）成分の画像としてY1〜Y4を得ている。当該Y信号Y1〜Y4が、図1中に線L1として示すように、色空間変換部11から動き情報算出部12へと出力される。すなわち、色空間変換部11では処理単位の所定数フレームを第１の色空間から冗長性の削減された第２の色空間へと変換したうえで、第２の色空間において最も情報量の多い所定のチャネルの各フレームを図１中の線L1に示すように、動き情報算出部12へと出力する。

また、図２の[3]においてY信号フレームY1の下部にU1,V1として示すように、色空間変換部11では色空間の変換を行った所定数の単位フレームのうち、所定位置（図２の例では4フレームのうちの先頭のフレームY1）のフレームに関して、第２の色空間において情報量が最大ではない残りのチャネル（YUV空間の場合、色差信号に対応するU,V信号のチャネル）における解像度を落としたフレームU1,V1を得て、図１中に線L2として示すように、画像合成部14へと出力する。

動き情報算出部12は、色空間変換部11より得られた処理単位の色空間変換されたフレーム間において動き情報を算出して、解像度変換部13へと出力する。動き情報算出部12では、一実施形態において、各ピクセルに対しての動き情報であるオプティカルフローを算出することができる。説明欄C4の付与された図２の[4]では、オプティカルフローを算出する場合の例が示されおり、色空間変換部11において得た処理単位の色空間変換されたY信号フレームY1〜Y4より、隣接フレーム間でオプティカルフローのX成分及びY成分を算出している。例えば、隣接フレームY1,Y2間において、オプティカルフローX成分OX2及びオプティカルフローY成分OY2を算出する。同様に、隣接フレームY2,Y3間においてオプティカルフローのX成分OX3及びY成分OY3を算出し、隣接フレームY3,Y4間においてオプティカルフローのX成分OX4及びY成分OY4を算出する。

解像度変換部13は、動き情報算出部12にて得られた動き情報の解像度を落としたうえで、画像合成部14へと出力する。説明欄C5の付与された図２の[5]では、[4]にて得られたオプティカルフローOX2,OX3,OX4,OY2,OY3,OY4の解像度を変換して（すなわち、解像度を落として）、それぞれ解像度変換されたオプティカルフローROX2,ROX3,ROX4,ROY2,ROY3,ROY4を得ている。

画像合成部14は、処理単位のうち色空間変換部11において得られた所定フレームと、解像度変換部13において得られた動き情報と、を組み合わせることで合成画像を得て、認識部15へと出力する。当該合成画像は、色空間変換部11へと入力された当初の映像信号のうちの処理単位の部分から、情報量を削減したうえで効率的に空間情報及び動き情報を抽出したものとなっており、認識部15において当初の映像信号の処理単位の部分を、空間特徴及び時間特徴の両方を考慮して認識することを可能とするものである。この際、情報量が削減されていることから、認識部15においては低い計算負荷で高速に認識が可能である。

説明欄C6の付与された図２の[6]では、[2]に示す当初の処理単位F1〜F4から得られる合成画像D1として、先頭フレームF1を色空間変換して得たY信号成分であるY1と、先頭フレームF1を色空間変換して得たU信号成分及びV信号成分をさらに解像度変換した（解像度を落とした）U1及びV1と、解像度変換部13において得られた解像度変換された（解像度が落とされた）動き情報ROX2,ROX3,ROX4,ROY2,ROY3,ROY4と、からなる画像が示されている。

なお、以上のような合成画像D1は、動き情報を含んで構成されていることから実際の画像ではないものの、画像と同様のマッピングされた（x,yの位置情報を有した）各「画素」相当のデータを有し、認識部15において画像の認識と同様の処理による認識が可能である。このような観点から、画像合成部14（画像合成装置10）の出力を合成画像と呼ぶ。

また、画像合成部14では合成された各情報を所定配置したものとして以上のような合成画像D1を得ることができる。図２の[6]の例では第１チャネルとしてのY信号成分Y1と、第２チャネルとしてのラスタスキャン順にU1,ROX2,ROX3,ROX4と並ぶ画像と、第３チャネルとしてのラスタスキャン順にV1,ROY2,ROY3,ROY4と並ぶ画像と、の３チャネル形式で合成画像D1が得られている。認識部15では当該合成画像D1におけるチャネル構成を含む配置情報も考慮して認識を行うことができる。当該所定配置する際には、各構成情報の情報量を考慮することにより、認識部15において高速且つ高精度に認識を行うこと可能なような配置を行うことができる。その詳細は後述する。

認識部15では、画像合成部14で得られた合成画像を認識することで、色空間変換部11に入力される当初の映像信号に関して空間情報及び時間情報の両方を考慮したうえで、合成画像の生成された処理単位ごとの認識結果を得ることができる。例えば、図２の例のように4フレームを処理単位とする場合であれば、当初の映像信号1000フレーム分に相当する最初の250個の処理単位F1〜F4,F5〜F8,…,F997〜F1000の認識結果としてそれぞれ、「人物が踊っている」という認識結果を得て、さらにその先の映像信号500フレーム分に相当する125個の処理単位F1001〜F1004,…,F1497〜F1500の認識結果としてそれぞれ「人物が歩いている」という認識結果を得るといったことが可能である。ここで、空間情報を考慮することで「人物」の認識が可能となると共に、さらに時間情報も考慮することで「踊っている」又は「歩いている」を区別した認識が可能である。

認識部15では、上記のような認識を具体的には、前掲の非特許文献１等に開示の、CNN（深層畳み込みニューラルネットワーク）によって行うことができる。本発明においては特に、当初の映像信号から処理単位ごとの空間情報及び動き情報が含まれた合成画像を生成してCNNへの入力とするので、非特許文献１等に開示の静止画を対象としたCNNを利用して、当初の映像信号において各フレームの空間情報のみならずフレーム間の動き情報をも考慮した高速且つ高精度な認識が可能となる。

特に、前掲の非特許文献３等に開示の静止画（2D）から映像信号（3D）へと拡張したCNNを適用する場合、CNNにおいて利用する畳み込み層のカーネル（畳み込みフィルタ）も前述の通り3次元である必要があり、計算負荷の増大や最適なカーネルサイズを見つける手間等が発生していたのと比べ、本発明においては2DのCNNを用いることができるので、このような計算負荷の増大や手間等が発生することがない。

以下、以上に概要を説明した画像合成装置10の各部の詳細を説明する。

[色空間変換部11について]
色空間変換部11において第１の色空間から第２の色空間へと変換する手法は、以下に説明するように既存の手法を利用することができる。以下、説明のための例として第１の色空間をRGBとするが、その他の色空間を採用してもよい。

第１の色空間で構成されたRGB画像から第２の色空間で構成されたYUV画像への変換手法として、色空間変換部11では周知のように以下の（式１〜５）を利用し、処理単位の４フレームを全て変換することができる。
Y=0.299×R+0.587×G＋0.114×B （式１）
Cb=-0.168736×R -0.331264×G+0.5×B （式２）
Cr=0.5×R-0.418688×G -0.081312×B （式３）
U=0.872×Cb （式４）
V=1.23×Cr （式５）

ここで、R,G,Bはそれぞれ入力フレームのあるピクセルのR信号、G信号、B信号の値であり、Y,U,Vは前記ピクセルの変換されたY信号、U信号、V信号の値である。

色空間変換部11では、冗長性を削減するための第２の色空間として、上記YUV色空間以外に、CIE L*a*b*色空間とHSV色空間を含めて他の色空間の利用も可能である。RGB色空間からCIE L*a*b*色空間へ変換する手法は次の通りである。なお、RGBの色モデルはデバイス依存であるため、それらの値をL*a*b*に変換する単純な式は存在しない。以下は一つの実施例に過ぎない。

まず、RGB値からXYZ値へ以下の一連の（式６）で変換する。
Ｘ=0.3933Ｒ+0.3651Ｇ+ 0.1903Ｂ
Ｙ=0.2123Ｒ+0.7010Ｇ+ 0.0858Ｂ（式６）
Ｚ= 0.0182Ｒ+0.1117Ｇ+0.9570Ｂ
さらに、XYZ値から、CIELABすなわちL*a*b*値へ変換するときの変換式は例えば、以下の一連の（式７）を用いればよい。
Ｌ*=116（Ｙ／Ｙn）^1/3-16
ａ*=500[（Ｘ／Ｘn）^1/3-（Ｙ／Ｙn）^1/3] （式７）
ｂ*=200[（Ｙ／Ｙn）^1/3-（Ｚ／Ｚn）^1/3]

また、RGB色空間からHSV色空間へ変換する手法は次の通りである。まず、R,G,Bの各信号値に関して、0.0を最小量、1.0を最大値とする0.0から1.0の範囲に規格化したものとして(R,G,B)で定義された色を与えたうえで、周知のように、対応している(H,S,V)信号値への変換式として、以下一連の（式８）を用いて変換を行うことができる。ここで、R,G,Bの３つの値のうち、最大のものをMAX、最小のものをMINとする。すなわち、MAX=max{R,G,B},MIN=min{R,G,B}とする。
H=定義不能（MAX=MINの場合）
H=60×(G-R)/(MAX-MIN)+60 （MIN=Bの場合）
H=60×(B-G)/(MAX-MIN)+180 （MIN=Rの場合）
H=60×(R-B)/(MAX-MIN)+300 （MIN=Gの場合）
V=MAX （式８）
S=MAX-MIN （円錐モデルの場合）
S=(MAX-MIN)/MAX （円柱モデルの場合）

上記のようにして、(H,S,V)形式の信号を得ることができる。Hの範囲は0°〜360°であり、色相が示された色環に沿った角度を意味する。当該範囲を超える場合は360°で割った剰余の値を対応させればよい。例えば、-10°は350°とすればよい。S,Vの範囲は0.0〜1.0であり、それぞれ彩度及び明度を意味する。

[動き情報算出部12について]
動き情報算出部12では、一実施形態として、オプティカルフローを処理単位の変換された第２の色空間の所定チャネル信号（例えばYUV空間におけるYチャネル信号）の各フレーム間において算出することができる。オプティカルフローの算出に関しては、前掲の非特許文献４に開示されている通り、以下のようにすればよい。非特許文献４では、基本前提として、画像の小さい領域の中に任意のピクセルのY成分（動き情報の算出対象はYUV信号のY成分であるものとして説明する。）が以下の（式９）のように2次形式（quadratic polynomial basis）で表現できるものとする。
f₁(x)=x^TA₁x+b₁ ^Tx+c₁ （式９）
ここで、ｘは第１フレーム（動き算出対象の片方のフレーム）のY成分の対象ピクセルの位置座標であり、A₁,b₁,c₁はその領域で算出する係数（A₁は行列係数、b₁,c₁はベクトル係数）であり、f₁(x)は対象ピクセルのY成分である。Tは転置演算である。

同様に、第２フレーム（動き算出対象のもう一方のフレーム）における対応領域を以下の（式１０）のように表現できるものとする。
f₂(x)= f₁(x-d)=(x-d)^TA₁(x-d)+b₁ ^T(x-d)+c₁
= x^TA₁x+(b₁-2A₁d)^Tx+d^TA₁d-b₁ ^Td+c₁
= x^TA₂x+b₂ ^Tx+c₂ （式１０）
ここで、ｄは対象ピクセルｘのオプティカルフロー（位置座標の差分）であり、A_２、b_２、c_２はその領域で算出する係数（A₂は行列係数、b₂,c₂はベクトル係数）である。

以上の（式９）及び（式１０）から、オプティカルフローdは次の（式１１）で算出することができる。
d=(-1/2)A₁ ^-1(b₂-b₁) （式１１）

以上のような手法でオプティカルフローを算出することができ、動き情報算出部12においては一実施形態として処理単位の隣接フレーム間でそれぞれオプティカルフローを算出する。図２の例のように連続4フレームを処理単位とする場合であれば、前述の通り、隣接する3か所においてx成分のオプティカルフロー及びy成分のオプティカルフローを以下のように算出する。
1,2フレーム目Y1,Y2間のオプティカルフローd2(x成分OX2,y成分OY2)
2,3フレーム目Y2,Y3間のオプティカルフローd3(x成分OX3,y成分OY3)
3,4フレーム目Y3,Y4間のオプティカルフローd4(x成分OX4,y成分OY4)

図３は、オプティカルフローの模式的な例を示す図であり、[1]はオプティカルフローを算出する対象となる隣接フレーム画像（の片方）の例として、室内に人物が映っている例が示されている。（なお、[1]にはさらに当該画像において算出されたオプティカルフローがベクトル場の形式で画像上に重ねて描かれている。）[2]は当該算出されたオプティカルフローのx成分をグレースケール画像として描いたものであり、動きのある人物部分に関してオプティカルフローが算出されていることが見て取れる。同様に、[3]は当該算出されたオプティカルフローのy成分をグレースケール画像として描いたものであり、動きのある人物部分に関してオプティカルフローが算出されていることが見て取れる。

なお、以上説明した動き情報算出部12では、一実施形態としてオプティカルフローにより動き情報を算出するものとしたが、その他のフレーム間の動き情報を算出するようにしてもよい。例えば、オプティカルフローは画素単位での動きに相当するが、領域単位の動きとしてのトラッキング（領域追跡）を行うことで動き情報を算出するようにしてもよい。トラッキングの手法としては周知の各手法を用いればよい。この際、領域単位で動き情報を求めて画素単位の動き情報として採用するようにしてもよい。また、領域単位の動き情報をそのまま、解像度が落とされた画素単位の動き情報として採用するようにしてもよい。また、オプティカルフローとして動き情報を算出した場合、以上のようにそのx成分、y成分という形式で保持する他にも、任意の形式を用いてよい。例えば、x,y成分表示を極座標表示に変換したものとして、オプティカルフローの動き情報を算出するようにしてもよいが、以下の説明ではx,y成分表示で算出した場合を例として説明する。

[解像度変換部13について]
解像度変換部13では、動き情報算出部12で得られた動き情報の解像度を変換して、画像合成部14へと出力する。ここで、解像度変換の処理は画像処理において用いられている周知の所定のものを利用すればよく、所定割合だけ解像度を落とすように変換することができる。なお、動き情報は画像のピクセル位置(x,y)毎に得られていることから画像の一種とみなすことができるため、解像度変換処理を適用することが可能である。

例えば、解像度変換部13において所定割合として解像度を半減する変換を行う場合、以下の(1)〜(4)のいずれかの手法で解像度変換を行うことができる。なお、(3),(4)で偶数／奇数の行列とは、画像の格子点としての位置(i,j)のi,jが偶数／奇数に該当することを意味し、(3),(4)は当該位置するようなピクセル位置を間引くこと（すなわち、1行おき、1列おきにピクセルを間引くこと）を意味する。
(1) 周囲の4点を平均する。
(2) 周囲の4点から最大値を選ぶ。
(3) 偶数の行列を間引く。
(4) 奇数の行列を間引く。

図４に当該解像度を半減する場合の変換前のピクセル（白色の丸）と変換後のピクセル（黒色の丸）の例を示す。

また、解像度変換部13において所定の任意解像度（例えば、元の3/4）に変換する際は、周知のように内挿を行うことができる。内挿する場合、各区間の範囲内で成り立つと期待される補間関数と境界での振舞い（境界条件）を決めることが必要である。ここで、代表的な補間関数として、周知のように以下に掲げるようなものを利用することができる。
・0次補間（最近傍補間、最近傍点補間）
・線形補間（直線補間、1次補間）
・放物線補間（2次補間）
・キュービック補間（3次補間）
・キュービックコンボリューション
・ラグランジュ補間
・スプライン補間
・Sinc関数
・Lanczos-n補間（ランツォシュ補間）
・クリギング

さらに、代表的な境界条件として、例えば以下の（式１２）で示される周知の(1)自然境界又は(2)固定境界を利用することができる。なお、(1)にて「''」は2次微分であり、(2)にて「'」は1次微分であり、Sは前記決定した補間関数である。fは当該位置における画素値を出力する関数である。
(1) S''(x₀)=S''(x_n)=0 …（自然境界：natural boundary）
(2) S'(x₀)=f'(x₀), S'(x_n)=f'(x_n) …（固定境界：clamped boundary）
…（式１２）
なお、自然境界のとき、自然スプラインといい、そのグラフは境界点(x₀,f(x₀))と(x_n,f(x_n))とで曲点となる。一般に、固定境界条件は関数に関して条件が多いので、良い近似を与えることが多い。しかし，固定境界条件を満たすためには、境界における微分係数かその近似を得ることができなければならない。

以上、解像度変換部13における解像度変換処理を説明したが、色空間変換部11において得た色空間変換された所定チャネルの所定フレームを解像度変換して画像合成部14へと出力する際（図１の線L2の処理を行う際：図２の例であれば、Y信号フレームY1を得た際の対応するU,V信号のフレームの解像度変換フレームU1,V1を得る際）の解像度変換も、上記と同様に既存手法を用いることができる。

[画像合成部14について]
画像合成部14では、以上の各部11〜13により処理単位ごとに得られた空間情報（例えば第２の色空間として変換されたYUV信号のうち所定フレーム位置及び所定チャネルのもの）と動き情報（例えばオプティカルフロー）とを所定配置で組み合わせて合成画像を生成する。この際、以上説明したように、YUV信号の場合であればY信号と比べて情報量の少ないUV信号と、オプティカルフロー等の動き情報と、に関しては解像度を落としておいたうえで合成画像に埋め込むことで、次段の認識部15の処理の高速化を図ることができる。

画像合成部14では更に、処理単位の信号の複雑度による場合分けによって、解像度と埋め込むパターンを適応的に選択することで、次段の認識部15の処理の高速化・高精度化を図るようにすることができる。

図５は、当該適応的に選択される所定パターンの例を[1]〜[4]と分けてデータ形式P1〜P4として示す図である。なお、図５の説明において、符号・記号を次のように用いる。動き情報算出部12で説明したのと同様に、処理単位内のi-1番目フレームとi番目フレームとの間で算出された動き情報をdiとし、さらに動き情報はオプティカルフローとして算出された場合を例として、動き情報diにおけるx成分のオプティカルフローをdi(x)とし、y成分のオプティカルフローをdi(y)とする。例えば、i=2の場合のd2(x)は処理単位内の1番目フレームと2番目フレームとの間で算出されたオプティカルフローのx成分を意味する。また、解像度変換前のフレームサイズを「横W×縦H」とし、その面積（画素数）をS=W×Hとし、色空間変換部11では第１の色空間であるRGBから第２の色空間であるYUVへと変換した場合を例とする。

以下、図５の[1]〜[4]をそれぞれ説明する。図５の例のうち[1]〜[3]は、図２の例と同様に、処理単位として映像信号における4フレームを設定する場合の例となっている。また、[4]は、処理単位として映像信号における2フレームを設定する場合の例となっている。

図５にて[1]は、第１パターンとしての合成画像のデータ形式P1が示されている。データ形式P1は、第１チャネルとして処理単位内の所定位置（例えば先頭フレーム）のフルサイズ「W×H」のY信号フレームと、第２チャネルとして処理単位内の所定位置の半分サイズ「W/2×H/2」に解像度変換されたU信号フレームと、同じく半分サイズ「W/2×H/2」に解像度変換されたx方向のオプティカルフローd3(x),d2(x),d4(x)とをこの順番のラスタスキャン順に並べた信号フレームと、第３チャネルとして処理単位内の所定位置の半分サイズ「W/2×H/2」に解像度変換されたV信号フレームと、同じく半分サイズ「W/2×H/2」に解像度変換されたy方向のオプティカルフローd3(y),d2(y),d4(y)と、をこの順番のラスタスキャン順で並べた信号フレームと、を備えて構成される。

当該[1]に示すデータ形式P1は、処理単位から合成画像を生成するに際して、空間情報及び動き情報を等しい割合で抽出する例となっている。すなわち、空間情報としては面積SのフルサイズY信号フレーム及び面積S/4の1/4サイズU信号フレーム及びV信号フレームが含まれることで、合計面積3S/2の空間情報が含まれている。また、動き情報としては面積S/4のオプティカルフローがx成分、y成分の両者に関して3個含まれることで、合計面積3S/2の動き情報が含まれており、空間情報の合計面積3S/2と一致している。

図５にて[2]は、第２パターンとしての合成画像のデータ形式P2が示されている。データ形式P2は、第１チャネルとして処理単位内の所定位置にありフルサイズ「W×H」のY信号フレームと、第２チャネルとして処理単位内の所定位置にあり1/4サイズ「W/4×H/4」に解像度変換されたU信号フレームと、「3W/4×H/4」に解像度変換されたx方向のオプティカルフローd3(x)と、「W/4×3H/4」に解像度変換されたx方向のオプティカルフローd4(x)と、「3W/4×3H/4」に解像度変換されたx方向のオプティカルフローd2(x)とをこの順番のラスタスキャン順に並べた信号フレームと、第３チャネルとして処理単位内の所定位置の1/4サイズ「W/4×H/4」に解像度変換されたV信号フレームと、「3W/4×H/4」に解像度変換されたy方向のオプティカルフローd3(y)と、「W/4×3H/4」に解像度変換されたy方向のオプティカルフローd4(y)と、「3W/4×3H/4」に解像度変換されたy方向のオプティカルフローd2(y)と、をこの順番のラスタスキャン順に並べた信号フレームと、を備えて構成される。

当該[2]に示すデータ形式P2は、処理単位から合成画像を生成するに際して、空間情報及び動き情報のうち、動き情報の側を重視して生成する例となっている。すなわち、空間情報に割り当てられた総面積はY信号の面積SとU,V信号の面積S/16の2個との合計9S/8であるのに対し、動き情報に割り当てられた総面積は、面積3S/16のオプティカルフローが合計4個あり、面積9S/16のオプティカルフローが合計2個あることによって合計15S/8である。従って、データ形式P2において「空間情報の面積9S/8」＜「動き情報の面積15S/8」であり、動き情報を重視して画像合成する例となっている。

図５にて[3]は、第３パターンとしての合成画像のデータ形式P3が示されている。データ形式P3は、第１チャネルとして処理単位内の所定位置にありフルサイズ「W×H」のY信号フレームと、第２チャネルとして処理単位内の所定位置にありサイズ「3W/4×3H/4」に解像度変換されたU信号フレームと、「W/4×3H/4」に解像度変換されたx方向のオプティカルフローd2(x)と、「3W/4×H/4」に解像度変換されたx方向のオプティカルフローd3(x)と、「W/4×H/4」に解像度変換されたx方向のオプティカルフローd4(x)と、をこの順番のラスタスキャン順に並べた信号フレームと、第３チャネルとして処理単位内の所定位置にありサイズ「3W/4×3H/4」に解像度変換されたV信号フレームと、「W/4×3H/4」に解像度変換されたy方向のオプティカルフローd2(y)と、「3W/4×H/4」に解像度変換されたy方向のオプティカルフローd3(y)と、「W/4×H/4」に解像度変換されたy方向のオプティカルフローd4(y)と、をこの順番のラスタスキャン順に並べた信号フレームと、を備えて構成されている。

当該[3]に示すデータ形式P3は、処理単位から合成画像を生成するに際して、空間情報及び動き情報のうち、空間情報の側を重視して生成する例となっている。すなわち、空間情報に割り当てられた総面積は「S+9S/16+9S/16=17S/8」であり、動き情報に割り当てられた総面積は「2×(S/16+3S/16+3S/16)=7S/8」である。従って、データ形式P3において「空間情報の面積17S/8」＞「動き情報の面積7S/8」であり、空間情報を重視して画像合成する例となっている。

図５にて[4]は、第４パターンとしての合成画像のデータ形式P4が示されている。なお、前述のように、以上説明した[1]〜[3]は4フレームを処理単位に設定して得られるデータ形式（チャネル数が3）であるのに対し、[4]は2フレームを処理単位に設定した得られるデータ形式（チャネル数が2）である。データ形式P4は、第１チャネルとして処理単位内の所定位置にありフルサイズ「W×H」のY信号フレームと、第２チャネルとして処理単位内の所定位置にありサイズ「W/2×H/2」に解像度変換されたU信号フレームと、「W/2×H/2」に解像度変換されたx方向のオプティカルフローd2(x)と、「W/2×H/2」に解像度変換されたV信号フレームと、「W/2×H/2」に解像度変換されたy方向のオプティカルフローd2(y)と、をこの順番のラスタスキャン順に並べた信号フレームと、を備えて構成される。

当該[4]に示すデータ形式P4は、処理単位から合成画像を生成するに際して、空間情報及び動き情報のうち、空間情報の側を重視して生成する例となっている。すなわち、空間情報に割り当てられた総面積は「S+S/4+S/4=3S/2」であり、動き情報に割り当てられた総面積は「S/4+S/4=S/2」である。従って、データ形式P4において「空間情報の面積3S/2」＞「動き情報の面積S/2」であり、空間情報を重視して画像合成する例となっている。

なお、[3]に示すデータ形式P3も[4]のデータ形式P4と同様に、空間情報の側を重視して合成画像を生成する例となっているが、空間情報の重視の度合いはデータ形式P4の方が大きいとみなすことができる。処理単位が2であり2フレーム間の1か所のみでしか動き情報を算出していないデータ形式P4に対して、処理単位が4であり4フレーム間の3か所で動き情報を算出するデータ形式P3の方が、動き情報の側を重視する度合いが大きいデータ形式とみなせるためである。また、「空間情報の面積÷動き情報の面積」の比率が、データ形式P3では17/7であるのに対し、データ形式P4では3であり、当該比率に関してデータ形式P4の方が大きいためである。

画像合成部14では、映像信号の所定単位（4フレーム又は2フレーム）に関して、以上のデータ形式P1〜P4のいずれを採用して合成画像を得るかを適応的に決定するために、次のようにすればよい。まず、以下の（式１３）を用いてUV信号とオプティカルフローのそれぞれの複雑度（各信号XのエントロピーH(X)）を算出する。

ここで、Piは各信号X（X=U、V、d2(x)、d3(x)、d4(x)、d2(y)、d3(y)、d4(y)）の値の分布のヒストグラムにおける頻度である。すなわち、各信号Xの各信号値iに関してその規格化された頻度を求めたのがPiであり、周知のように信号Xの複雑度を上記のようにエントロピーとして定量化することができる。なお、上記エントロピーを算出するに際して、各信号X=U,d2(x)等はそれぞれ、解像度変換を施す前の映像信号のフレームと同じフルサイズ「W×H」のものを用いる。

画像合成部14では、前記エントロピーとして算出した複雑度を用いてデータ形式P1〜P4のいずれを用いるかを決定する。具体的に、以下の第１〜第４判定をこの順番で実施することにより、いずれのデータ形式を用いるかを決定することができる。

まず、第１判定では、以下の一連の（式１４）の全てを満たす場合に、動きの複雑度が小さいと判断し、データ形式P4を用いるという決定を下す。ここで、TH1は事前に設定した閾値である。
H(d2(x))<TH1
H(d3(x))<TH1
H(d4(x))<TH1
H(d2(y))<TH1 （式１４）
H(d3(y))<TH1
H(d4(y))<TH1

次に、第２判定として、以下の一連の（式１５）の全てを満たす場合に、UV信号（すなわち空間情報）の複雑度が小さいと判断し、データ形式P2を用いるという決定を下す。ここで、TH2は事前に設定した閾値である。
H(U)<TH2
H(V)<TH2 （式１５）

次に、第３判定として、以下の一連の（式１６）の全てを満たす場合に、UV信号の複雑度（すなわち空間情報）が大きいと判断し、データ形式P3を用いるという決定を下す。ここで、TH3は事前に設定した閾値である。
H(U)>TH3
H(V)>TH3 （式１６）

最後に、第４判定として、以上の（式１４）〜（式１６）のいずれも満たさなかった場合、すなわち、以上の第１〜第３判定のいずれにおいても何らかのデータ形式を用いるという決定が下されなかった場合には、データ形式P1を用いるという決定を下す。

なお、以上の図５のデータ形式P1〜P4やそのいずれを用いるかの決定手法としての第１〜第４判定は、画像合成部14における一実施形態に過ぎない。画像合成部14では、図５のような例に限らず、合成画像を構成する空間情報のサイズ及び動き情報のサイズ（並びに空間情報及び動き情報の合成画像における配置（チャネル構造を含む）の仕方）の設定に関して複数の所定候補を用意しておき、処理単位の所定数フレームにおける空間情報及び動き情報の複雑度に応じて当該複数の所定候補の中から当該処理単位を認識部15において認識するための合成画像の生成に適した特定候補を決定して、合成画像を生成することができる。

以上、本発明によれば、深層畳み込みニューラルネットワークを映像信号に適用させる際に、以下のような効果を奏することができる。
（１）合成画像により色空間の冗長性と映像信号の時間相関を利用しながら、計算量とメモリー消費を低減させる。
（２）処理単位を短くするため、リアルタイム処理が可能である。

以下、（１）〜（７）と各事項に見出し番号を付与して、本発明の説明上の補足事項を述べる。

（１）画像合成部14では、図５のような合成画像を生成するに際して、空間情報としてのY,U,V信号が[0,255]の範囲内にあるのに整合させて、d2(x)等の動き情報を正規化（規格化）して同じく[0,255]の範囲内の値となるようにしてもよい。このように空間情報及び動き情報を正規化して合成画像を生成することで、認識部15における深層畳み込みニューラルネットワークを用いた認識に適した入力データとしての合成画像を得ることができる。

（２）画像合成部14における合成画像生成のためのデータ形式は、図５を参照して説明したように複数候補を設けておきエントロピーに応じて適切なデータ形式を決定するようにしてもよいし、１つの固定したデータ形式を採用するようにしてもよい。当該候補としてのデータ形式または１つの固定したデータ形式には、図５の他にも任意の所定形式を採用することができる。例えば、図５のデータ形式P1〜P4において第２・第３チャネルとして説明したU,V信号やオプティカルフロー信号の配置の仕方に関しては、図５の配置から変更されたものであってもよい。

（３）同様に、画像合成装置10において入力される映像信号から処理単位としての所定数フレームの設定をすることに関しても、任意の1種類以上の所定数を利用することができる。図５の例では4フレーム又は2フレームであったが、例えば3フレームでもよい。

3フレームを処理単位に用いる場合、図５の例と同様に先頭等の所定位置における色空間変換されたYUV信号（変換前の映像信号はRGBとする）を空間情報として抽出したうえで、一実施形態では動き情報を次のように抽出して合成画像を生成することができる。すなわち、図２と同様の符号・記号を用いて、1枚目のフレームY1と2枚目のフレームY2との間でのオプティカルフローと、2枚目のフレームY2と3枚目のフレームY3との間でのオプティカルフローと、さらに、1枚目のフレームY1と3枚目のフレームY3との間でのオプティカルフローと、を算出したうえで、x,y成分（あるいは極座標表示でもよい）として構成されるこれらのオプティカルフローとして、動き情報を得ることができる。

また、例えば図５のデータ形式P1〜P3は、処理単位のフレーム数を3とする場合のデータ形式として利用することもできる。この場合、図５の例において処理単位が4フレームの場合の3フレーム目Y3及び4フレーム目Y4の間で算出される動き情報としてのオプティカルフローd4(x),d4(y)を、処理単位が3フレームである場合の次のようなオプティカルフローであるものして読み替えればよい。すなわち、d4(x),d4(y)をそれぞれ、処理単位が3フレームの場合における1フレーム目Y1と3フレーム目Y3との間で算出されるオプティカルフローであるものと読み替えればよい。

（４）上記3枚の場合の一実施形態において隣接しないY1,Y3間での動き情報を算出しているように、動き情報算出部12では、動き情報を算出するに際して、処理単位内の隣接フレームに限定しなくともよい。

（５）画像合成部14において図５に示されるデータ形式P1〜P4のように所定の複数候補の中から合成画像の生成形式を適応的に決定する場合、解像度変換部13（及び色空間変換部11）における解像度変換の処理は、画像合成部14がデータ形式を決定した後に当該決定されたデータ形式に即した解像度変換を行うようにしてよい。また、解像度変換部13（及び色空間変換部11）における解像度変換の処理は、データ形式の所定候補に現れる全てについて事前に実施しておき、画像合成部14で決定されたデータ形式に応じた解像度変換されたデータを画像合成に用いるようにしてもよい。

（６）画像合成装置10においては、色空間変換部11及び／又は解像度変換部13を省略するようにしてもよい。解像度変換部13を省略する場合、合成画像における空間情報及び動き情報は当初の映像信号の解像度と同じものとなる。また、空間情報又は動き情報の片方のみについて、解像度変換処理を省略するようにしてもよい。

色空間変換部11を省略する場合、当初の映像信号から所定の1チャネルのみを抽出（例えばRGBのうちR信号のチャネル）したものを画像合成装置10への入力とすればよい。図６は、図２の例に対応する例として、色空間変換部11を省略する際の画像合成装置10でのデータ処理の流れの例を示す図であり、それぞれ説明欄C11〜C15が付与され[1]〜[5]と分けてデータ処理の流れが示されている。

図６にて説明欄C11が付与された[1]は図２の[1]と同様に当初の映像信号F1,F2,…が示され、説明欄C12が付与された[2]では処理単位として連続する3フレームF1〜F3等を設定することが示されている。ここで、当該処理単位の3フレームF1〜F3は、当初の映像信号（モノクロ映像である場合を含む）の1チャネルを抽出したものとし、色空間変換部11の処理を省略することができる。すなわち、色空間変換部11を省略する場合、当該3フレームF1〜F3を、色空間変換部11が省略されない実施形態における色空間変換されたフレームとみなすことで、合成画像を生成することができる。

従ってさらに、説明欄C13が付与された[3]では動き情報算出部12がフレームF1,F2間のオプティカルフローx,y成分としてOX2,OY2を算出し、フレームF2,F3間のオプティカルフローx,y成分としてOX3,OY3を算出することが示されている。次いで、説明欄C14が付与された[4]では解像度変換部13が以上算出されたオプティカルフローをそれぞれ解像度変換してROX2,ROY2,ROX3,ROY3を得ることが示されている。そして、説明欄C15が付与された[5]では画像合成部14において当初フレームF1〜F3より得る合成画像DM1として、第１チャネルがフレームF1で構成され、第２チャネルが解像度変換されたオプティカルフローROX2,ROX3,ROY2,ROY3をこの順のラスタスキャンで並べた信号で構成されるものを得ることができる。

（７）本発明は、コンピュータを画像合成装置10又は動画像認識装置20の各部の全て又はその任意の一部分として機能させるプログラムとしても提供可能である。当該コンピュータには、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェア構成のものを採用することができ、CPUが画像合成装置10又は動画像認識装置20の各部の機能に対応する命令を実行することとなる。

10…画像合成装置、20…動画像認識装置
11…色空間変換部、12…動き情報算出部、13…解像度変換部、14…画像合成部、15…認識部

Claims

色空間の３つのチャネルで構成される映像信号における所定数の継続したフレームごとに、
当該所定数のフレームのいずれかより、静止画像の輝度信号として少なくとも１つの空間情報と静止画像の色差信号として少なくとも１つの空間情報とを抽出し、
当該所定数の静止画像としてのフレーム間より少なくとも１つの動き情報を抽出し、
前記所定数のフレームより生成する合成画像を構成するための第１、第２及び第３の３つのチャネルを設定し、
前記第１チャネルに前記輝度信号としての少なくも１つの空間情報を並べて配置し、前記第２チャネル及び前記第３チャネルの両方に前記色差信号としての少なくとも１つの空間情報及び前記少なくとも１つの動き情報を並べて配置することで、空間情報及び動き情報が反映された、前記３つのチャネルで構成される合成画像を生成する画像合成部を備えることを特徴とする画像合成装置。
色空間の１つのチャネルで構成される映像信号における所定数の継続したフレームごとに、
当該所定数のフレームのいずれかより、静止画像の輝度信号として少なくとも１つの空間情報を抽出し、
当該所定数の静止画像としてのフレーム間より少なくとも１つの動き情報を抽出し、
前記所定数のフレームより生成する合成画像を構成するための第１及び第２の２つのチャネルを設定し、
前記第１チャネルに前記輝度信号としての少なくも１つの空間情報を並べて配置し、前記第２チャネルに前記少なくとも１つの動き情報を並べて配置することで、空間情報及び動き情報が反映された、前記２つのチャネルで構成される合成画像を生成する画像合成部を備えることを特徴とする画像合成装置。
前記画像合成部では、前記合成画像を、前記映像信号における所定数の継続したフレームごとに、当該映像信号における空間情報及び動き情報を考慮した認識を行うための入力データとして生成することを特徴とする請求項１または２に記載の画像合成装置。
前記認識が深層畳み込みニューラルネットワークによって行われることを特徴とする請求項３に記載の画像合成装置。
前記映像信号は第１の色空間で構成されており、
前記映像信号における所定数の継続したフレームごとに、前記第１の色空間から冗長性の削減された第２の色空間への変換を行う色空間変換部をさらに備え、
前記画像合成部では、前記色空間変換部により前記第２の色空間へと変換された所定数の継続したフレームを対象として、前記合成画像を生成することを特徴とする請求項１に記載の画像合成装置。
前記映像信号における所定数の継続したフレームごとに、当該フレーム間のオプティカルフローを算出する動き情報算出部をさらに備え、前記画像合成部では、前記算出されたオプティカルフローより前記動き情報を抽出して前記合成画像を生成することを特徴とする請求項１ないし５のいずれかに記載の画像合成装置。
前記画像合成部では、前記所定数の継続したフレーム内の所定フレームに対し、色空間変換及び／又は解像度変換を施したものとして前記空間情報を抽出することにより、前記合成画像を生成することを特徴とする請求項１に記載の画像合成装置。
前記画像合成部では、前記所定数の継続したフレーム間において動き情報のマップを抽出したうえでさらに当該マップに解像度変換を施したものとして、前記動き情報を抽出することにより、前記合成画像を生成することを特徴とする請求項１ないし７のいずれかに記載の画像合成装置。
前記合成画像を生成する際の前記空間情報のサイズ及び前記動き情報のサイズの設定には複数の所定候補が存在し、
前記画像合成部では、前記複数の所定候補の中から、前記合成画像を生成する対象となる前記映像信号における所定数の継続したフレームの内容に応じて特定候補を選択したうえで、前記合成画像を生成することを特徴とする請求項１ないし８のいずれかに記載の画像合成装置。
前記画像合成部では、前記合成画像を生成する対象となる前記映像信号における所定数の継続したフレームにおける空間情報の複雑度及び動き情報の複雑度に応じて、前記特定候補を選択することを特徴とする請求項９に記載の画像合成装置。
前記画像合成部では、前記空間情報の複雑度及び前記動き情報の複雑度を、当該各情報の値の分布のヒストグラムから算出されるエントロピーに基づいて評価することを特徴とする請求項１０に記載の画像合成装置。
前記画像合成部では、前記抽出した空間情報の取る値の範囲と前記抽出した動き情報の取る値の範囲との間で規格化を行ったうえで、前記合成画像を生成することを特徴とする請求項１ないし１１のいずれかに記載の画像合成装置。
コンピュータを請求項１ないし１２のいずれかに記載の画像合成装置として機能させることを特徴とするプログラム。