JP6600288B2

JP6600288B2 - 統合装置及びプログラム

Info

Publication number: JP6600288B2
Application number: JP2016188846A
Authority: JP
Inventors: 建鋒徐; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2019-10-30
Anticipated expiration: 2036-09-27
Also published as: JP2018055287A

Description

本発明は、映像信号における動作認識に関して深層畳み込みニューラルネットワーク等の識別器を複数適用した結果を統合するに際して、適切な重みを設定することのできる統合装置及びプログラムに関する。

全結合していない順伝播型ニューラルネットワークとして、畳み込みニューラルネットワーク(Convolutional Neural Networks: ConvNet)が知られている。その各層は畳み込み層とプーリング層とで構成され、階層的にパターン学習をできるといった特徴がある。

非特許文献１に開示されているように、当該各層を所定の多数すなわち深層とした深層畳み込みニューラルネットワークは画像認識で活用され、認識精度を大幅に向上させた。具体的に非特許文献１では、深層畳み込みニューラルネットワークを用いて、画像ピクセル（一般的に、RGBという3チャネルの形）を入力して特徴量を出力し、更に分類器を使うことで、画像認識タスクへの適用を実現している。

Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems 25: 1097-1105 Feng Ning; Delhomme, D.; LeCun, Y.; Piano, F.; Bottou, L.; Barbano, P.E., "Toward automatic phenotyping of developing embryos from videos," in Image Processing, IEEE Transactions on , vol.14, no.9, pp.1360-1371, Sept. 2005 Simonyan, Karen and Zisserman, Andrew, "Two-Stream Convolutional Networks for Action Recognition in Videos", Advances in Neural Information Processing Systems 27, pp. 568-576, 2014. Donahue, Jeffrey, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell. "Long-term recurrent convolutional networks for visual recognition and description." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2625-2634. 2015. Gunnar Farneback, "Two-Frame Motion Estimation Based on Polynomial Expansion, Image Analysis," Volume 2749 of the series Lecture Notes in Computer Science, pp 363-370, June 2003

上記のように、画像認識（静止画の認識）などで成功した深層畳み込みニューラルネットワークを映像信号（動画）の行動認識へ適用させることが検討されている。

最も簡単な適用方法として、例えば非特許文献２では動画の各フレームを独立の静止画として入力させている。しかしながら、非特許文献２では、時間軸の相関性や動き情報を利用していないので、動き情報が重要ではないタスク（例えば、静止物体の認識）にしか適用できない。よって、動き情報が重要である行動認識には不適切であるものと考えられる。

一方、非特許文献３では、二つの独立な深層畳み込みニューラルネットワークを学習させて、二つの判定（中間）結果を統合し、最終結果を判定する、いわゆるLate Fusionの手法を試みている。図１は、非特許文献３の手法を模式的に説明するための図である。

非特許文献３において、一つ目の深層畳み込みニューラルネットワークは非特許文献２と同様に、動画の各フレームを独立の静止画（RGB画像とする）として入力させている。図１ではV1としてRBG画像からなる映像信号V1が示され、当該映像信号V1を入力として出力処理11-1Pすなわち深層畳み込みニューラルネットワークの処理を適用することで各行動パターン1,2,…,Nについてのスコア時系列FS1が出力されることが示されている。さらに、当該スコア時系列FS1に対して算出処理12-1Pを適用することで、映像信号V1における各行動パターン1,2,…,Nの尤度ベクトルTS1を出力することが示されている。

また、非特許文献３では、二つ目の深層畳み込みニューラルネットワークの適用対象として、動画の隣接フレーム間からdense optical flowを算出し、当該dense optical flow（フロー画像とする）を入力させている。図１ではV2としてフロー画像からなる時系列信号V2が示され、当該時系列信号V2を入力として出力処理11-2Pすなわち深層畳み込みニューラルネットワークの処理を適用することで各行動パターン1,2,…,Nについてのスコア時系列FS2が出力されることが示されている。さらに、当該スコア時系列FS1に対して算出処理12-2Pを適用することで、フロー画像からなる時系列信号V2における各行動パターン1,2,…,Nの尤度ベクトルTS2を出力することが示されている。

さらに、非特許文献３では、前記二つの深層畳み込みニューラルネットワークで出力したスコア（各行動パターンの尤度）を統合し、当該統合スコアで動画全体の認識結果を判定している。フロー画像を用いた深層畳み込みニューラルネットワークは動き情報を利用し、RGB画像の深層畳み込みニューラルネットワークと補完性が強いため、最終的に認識結果の精度を向上させることが非特許文献３では報告されている。

図１では、二つの深層畳み込みニューラルネットワークから出力されたスコアとしての尤度ベクトルTS1,TS2が統合処理13Pによって統合されて統合スコアINT_SC（統合された尤度ベクトル）が得られ、当該統合スコアINT_SCに対して評価処理14Pにより最終的な評価結果OUT（当初の映像データが行動パターン1,2,…,Nのいずれに該当するかの評価結果）が得られることが示されている。

しかしながら、以上の非特許文献３の手法には、次のような課題があった。すなわち、非特許文献３では以下のように２ステップでの統合を行っているが、当該統合する際の重み付けが必ずしも適切なものではなかった。

（第１ステップ）…図１の算出処理12-1P,12-2Pにおける統合
ここで、RGB画像の時系列V1及びフロー画像の時系列V2をそれぞれの深層畳み込みニューラルネットワークに入力し、各フレームで行動毎に時系列スコアとしての尤度FS1,FS2を出力してから、統合（算出処理12-1P,12-2P）を行う。

当該統合（算出処理12-1P,12-2P）は具体的には、各フレームの行動毎の時系列スコアFS1,FS2を行動毎に時間平均し、当該行動毎の平均スコアをRGB画像時系列またはフロー画像時系列の時間軸上で平均されたスコアTS1,TS2（尤度ベクトル）として出力している。ここで、本発明者は、当該平均する際に、均一な重みが採用されてしまっていることを課題として見出した。

（第２ステップ）…図１の統合処理13Pにおける統合
上記第１ステップで出力したRGB画像時系列の平均スコアTS1とフロー画像時系列の平均スコアTS2とを行動種別1,2,…,N毎に重み付け平均し、前記行動毎の平均スコアを総合スコアINT_SC（統合された尤度ベクトル）として出力している。ここで、本発明者は、重みづけ平均するための重みに事前知識による固定的なものが採用されてしまっていることを課題として見出した。例えば非特許文献３に関連する非特許文献４においては、RGB画像時系列とフロー画像時系列の重み設定に関して、（均一な1/2及び1/2の重みよりも、）1/3及び2/3の重みの方が、精度が高いと報告している。しかしながら、これらは固定的な重みである。

以上のように、本発明者が課題として見出した、第１、第２ステップで固定的な重みを用いることが必ずしも適切ではない事情として、次を挙げることができる。

すなわち、人の行動において、重要な時刻とそうではない時刻がある。例えば、ジェスチャーにおいては順番に、準備段階と本番段階、終了段階があると言われる。基本的に、準備段階と終了段階は行動の本質に反映しにくいので、このような重要性の低い段階まで含めて均一重みを採用してしまうと、認識精度を下げてしまうと考えられる。

さらに、映像から抽出した時系列信号（例えば、図１に例示したRGB画像時系列信号V1やフロー画像時系列信号V2）は隣接フレーム間の相関がとても強いので、一旦間違っって判定してしまうと、連続するフレームにおいても同じ間違い結果を判定してしまう（いわゆる共倒れ現象が発生してしまう）可能性が高い。ここで、一定数の共倒れ現象が発生しているにも関わらず、均一な平均を用いて時系列平均してしまうと、その結果も共倒れ現象の影響を受けて間違い結果となる可能性が高い。

以上のような事情から、第１ステップにおいて、均一重みで平均することは必ずしも最適とは言えない。動画のコンテンツを解析し、適応的な重みを採用することが望ましい。同様に、第２ステップにおいても、固定的な重みを用いるのではなく、動画の解析により重みを適応的に設定することが望ましい。

以上のような従来技術の課題に鑑み、本発明は、映像信号における動作認識に関して深層畳み込みニューラルネットワーク等の識別器を複数適用した結果を統合するに際して、適切な重みを設定することのできる統合装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、映像信号(V)より抽出される又は当該映像信号(V)に関連する複数の時系列信号(Vi;i=1,2,…,M)のそれぞれに識別器を適用して得られる、当該時系列信号(Vi)ごとの前記映像信号(V)における各動作種別(act=1,2,…,N)の尤度時系列(FSi)を当該尤度時系列上で重み付け平均することで、当該時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を算出する算出部と、前記時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を当該対応する時系列信号(Vi)ごとに重み付け平均することで、前記映像信号(V)における統合された各動作種別(act)の尤度ベクトル(INT_SC)を求める統合部と、を備える統合装置であって、前記算出部では、前記尤度時系列(FSi)の各時刻(t)における前記各動作種別(act)の要素の分布の乱雑さ(v(t),H(t))に基づく重み付け平均によって、前記尤度ベクトル(TSi)を算出し、前記統合部では、前記時系列信号(Vi)ごとの尤度ベクトル(TSi)がそれぞれ取る範囲に基づく正規化係数(w^Vi)に基づく重み付け平均によって、前記統合された各動作種別の尤度ベクトル（INT_SC）を求めることを特徴とする。

また、本発明は、コンピュータを前記統合装置として機能させるプログラムであることを特徴とする。

本発明の統合装置によれば、その算出部及び統合部によって、映像信号における動作認識に関して深層畳み込みニューラルネットワーク等の識別器を複数適用した結果を統合するに際して、適切な重みを設定することができる。

従来技術の手法を説明するための図である。一実施形態に係る統合装置の機能ブロック図である。図２の各部の処理におけるデータの流れの模式的な例を示す図である。算出されるオプティカルフロー及びそのx成分(dx）とｙ成分(dy)の例を示す図である。 RGB画像及びこれから合成されるフロー画像の例を示す図である。正解フレームでは映像種別を問わず分散が大きく、不正解フレームでは映像種別を問わず分散が小さい傾向があること示す例を、RGB画像及びフロー画像のそれぞれの時系列信号において示す図である。

図２は、一実施形態に係る統合装置の機能ブロック図である。統合装置10は、出力部11、算出部12、統合部13及び評価部14を備える。図３は、図２の各部の処理におけるデータの流れの模式的な例を示す図であるが、その構成は図１と共通である。すなわち、本発明の統合装置10においては重みの適応的な算出が実現されるが、処理全体の枠組みとしては前掲の非特許文献３等と共通の枠組みを採用することができる。

具体的に、図１の出力処理11-1P,11-2Pが図３の出力部11-1,11-2に置き換えられ、図１の算出処理12-1P,12-2Pが図３の算出部12-1,12-2に置き換えられ、図１の統合処理13Pが図３の統合部13に置き換えられ、図１の評価処理14Pが図３の評価部14に置き換えられている。ここで、本発明においては算出部12及び統合部13で独自の重み算出処理を行っているが、全体的な枠組みは図１と共通のものとすることができる。

以下、図３の例を適宜参照しながら、図２の各部の処理内容を説明する。なお、図３では時系列信号V1,V2の2種類のみを扱う場合を例として挙げているが、図２に示すように本発明は2種類に限られない一般のM種類の時系列信号V1,V2,…,VMを対象として適用可能である。

[出力部11]
出力部11では、統合装置10における解析対象となる映像信号Vから抽出された（又は映像信号Vに関連した）複数の（互いに異種類の）時系列信号V1,V2,…,VM（インデクスi（i=1,2,…,M）でViとして識別する）に対してそれぞれ深層畳み込みニューラルネットワーク等の識別器を適用し、インデクスact=1,2,…,Nで識別される各行動の尤度の時系列信号を求めて算出部12へと出力する。

すなわち、出力部11では時系列信号Viから尤度の時系列信号FSiを得るが、当該時系列信号FSiは各行動act=1,2, …, Nのそれぞれの尤度の時系列信号fs(i,act)で構成されている。この関係を式として以下に示す。
FSi=(fs(i,1), fs(i,2), …, fs(i,N))
すなわち、各行動actの尤度の時系列信号fs(i,act)の長さ（時間軸上のデータ個数）がLであり、信号fs(i,act)をサイズL×1の縦ベクトルで表現したとすると、時系列信号FSiはサイズL×Nの行列として表現することができる。

ここで、映像信号Vから抽出する（又は映像信号Vに関連する）各時系列信号Vi(i=1,2,…,M)は所定数Mでそれぞれ所定種類のものとすることができ、当初の映像信号V自身が含まれていてもよい。例えば、図３の例は図１と共通であり、M=2であって、V1が当初の映像信号V自身（例えばRGB信号の時系列）であり、V2が映像信号Vから求まるフロー画像の時系列V2である場合の例が示されている。

その他、当初の映像信号Vから抽出される、又は、映像信号Vに関連した時系列信号Viとしては例えば、デプス画像（デプスマップ）の時系列などを採用することもできる。なお、異種類の時系列信号（例えばRGB画像時系列V1とフロー画像時系列V2）同士の間では、空間解像度及び／または時間解像度（フレームレート）は必ずしも共通でなくともよい。さらに、同じ映像信号Vに基づくもの同士であれば、互いに撮影角度や同期のずれがあってもよい。

なお、図３の例では、信号Vi(i=1,2)に対して適用される図２の出力部11を出力部11-iとして分けて描いている。図３では同様に、信号Vi(i=1,2)に対して適用される図２の算出部12を出力部12-iとして分けて描いている。

以上のように、出力部11では各時系列信号Viに深層畳み込みニューラルネットワーク等の識別器を適用して各行動の尤度の時系列信号FSiを得る。ここで、各信号Viに対する深層畳み込みニューラルネットワーク等の識別器の適用に関しては、前掲の非特許文献２，３等のように既存手法と同様にすればよいので、その詳細の説明は省略する。

当該識別器は事前に多数の学習用データを用いて事前に学習しておき、当該学習によって構築された識別器を出力部11において利用すればよい。こうして、例えばact=1の場合は信号Viは「踊っている」ものである、act=2の場合は信号Viは「泳いでいる」ものである、といったような各行動種別act=1,2,…,Nについての尤度ベクトル（の時系列）を出力部11で得ることができるようになる。事前学習の詳細も前掲の非特許文献２，３等のように既存手法と同様であるため、その詳細の説明は省略する。

なお、出力部11では、映像信号Vから時系列信号Vi（のいずれか一部分又は全部）を抽出する処理も行うようにしてもよい。例えば、フロー画像の時系列として時系列信号Viを得る場合、前掲の非特許文献５の手法を採用してよい。以下に当該手法の概略を示す。

映像信号の隣フレームRGB画像を二枚入力すると、非特許文献５の手法で同解像度のフロー画像を一枚算出することができる。

まず、（式１）でRGB画像を輝度画像Yに変換する。
Y = 0.299 × R + 0.587 × G + 0.114 × B （式１）
ここで、R、G、Bは入力フレームのあるピクセルのR、G、B値であり、Yは前記ピクセルの輝度値である。
非特許文献５の基本前提は、画像の小さい領域の中に任意のピクセルのY成分が（式２）のようにquadratic polynomial basis（2次形式）で表現できるというものである。
f₁(x)=x^TA₁x+b₁ ^Tx+c₁ （式２）

ここで、ｘは第１フレームのY成分の対象ピクセルの位置座標であり、A1、ｂ１、ｃ１はその領域で算出する係数であり、f1(x)は対象ピクセルのY成分である。
同様に、第２フレームの対応領域は（式３）になる。
f₂(x)= f₁(x-d)=(x-d)^TA₁(x-d)+b₁ ^T(x-d)+c₁
= x^TA₁x+(b₁-2A₁d)^Tx+d^TA₁d-b₁ ^Td+c₁
= x^TA₂x+b₂ ^Tx+c₂ （式３）

但し、ｄは対象ピクセルｘのオプティカルフロー（位置座標の差分）であり、A２、ｂ２、ｃ２はその領域で算出する係数である。
よって、オプティカルフローｄは（式４）で算出することができる。
d=(-1/2)A₁ ^-1(b₂-b₁) （式４）

図４に、当該算出されるオプティカルフローのx成分(dx）とｙ成分(dy)の例を示す。図４にて（１）では当該両成分を当初画像上のベクトル場として描いており、（２）及び（３）は各成分をグレースケール画像として示している。本発明においてはさらに、例えば（式５)で第三成分dzを算出することができる。（式５）において||は絶対値演算である。
dz=|dx²+dy²| （式５）

以上のdx,dy,dzにより、画像の３チャネルとして一枚のフロー画像を合成することができる。図５に、（１）RGB画像及び（２）これから合成されるフロー画像の例を示す。

[算出部12]
算出部12では、以上の出力部11で得られた各時系列信号Viの行動act毎の尤度スコア時系列FSiに対し、信号ViのフレームVi(t)(ここで、t(=1,2,…)は当該信号Viにおける時刻t、すなわち、フレーム番号tを表すものとする)毎の適応的な重みw(t)を算出し、当該フレーム毎の適応的な重みw(t)に基づいて時系列FSiの平均を求めることで、時系列平均された高度act毎の尤度スコアTSiを求め、統合部13へと出力する。（なお、重みw(t)は各信号Viについてそれぞれ求まるので、正確にはw(t)[i]等と表記すべきものであってi依存性を有するが、表記が煩雑となるため、Viは固定的に与えられており文脈上明らかなものとして、算出部12の説明の際などはw(t)と略記する。）

ここで、本発明の算出部12において算出される適応的な重みw(t)の「考え方」をまず説明する。

本発明においては、サンプルデータに対する事前分析として、各フレームVi(t)のスコアFSi(t)（尤度スコア時系列FSiの時刻tにおける各行動actの尤度ベクトル）で独立に判断する際（すなわち、ベクトルFSi(t)において最大尤度を与えている行動種別actに該当すると判断する場合）に、間違い結果と正しい結果を持つフレームの統計データにより、間違いフレームと正しいフレームの統計特性を分析した。

当該分析の結果、間違いフレームではスコアの分布が比較的に均一であり、分散が小さいが、正しいフレームでスコアの分散が比較的に大きいことがわかった。

例えば、図６に101種の行動における、時系列データViの一連のフレームVi(t)において当該フレームの尤度ベクトルFSi(t)の値で独立に「正しい／間違い」（正解／不正解）を確認した際の、行動毎（グラフ横軸）に正しいフレームのスコアの分散の平均値と間違いフレームの分散の平均値（グラフ縦軸）を示す。[1]のRGB画像（図３のV1）と[2]のフロー画像（図３のV2）の両者において、正しいフレームの方が分散が大きいことが読み取れる。

図６では[1],[2]の両者に関して、正しいフレームの分散平均値m_var_correct(act)が上段側に、誤ったフレームの分散平均値m_var_incorrect(act)が下段側に、それぞれ示されている。

図６では、各行動actの分散とは、次のようにして求めている。まず、時刻tのフレームVi(t)の尤度ベクトルFSi(t)が行動種別act=1,2,…,NごとのN次元ベクトル（各要素がfsi_[act](t)）として以下の式（５A）のようなN成分で構成されているものとする。
FSi(t)=(fsi_[1](t), fsi_[2](t), …, fsi_[N](t)) （５A）

そして、図６において行動actの正しいフレームの分散平均値m_var_correct(act)とは以下の式(5B)を満たす一連の分散値var(FSi(t))において求めた平均値である。すなわち、行動種別actが「正しい」と判定される一連のフレームVi(t)における尤度ベクトルFSi(t)の分散の平均値である。ここで、var(X)とはサンプル集合Xの分散を表す。
{var(FSi(t))| max{fsi_[a](t)|a=1,2, …, N}= fsi_[act](t)である} （5B）
同様に、図６において行動actの誤ったフレームの分散平均値m_var_incorrect(act)とは以下の式(5C)を満たす一連の分散値var(FSi(t))において求めた平均値である。すなわち、行動種別actが「正しい」と判定されない（「誤った」と判定される）一連のフレームVi(t)における尤度ベクトルFSi(t)の分散の平均値である。
{var(FSi(t))| max{fsi_[a](t)|a=1,2, …, N}= fsi_[act](t)ではない} （5C）
ここで、上記（5B）,(5C)の尤度ベクトルFSi(t)を求めるフレームVi(t)は、所定のテスト映像における一連のフレームである。なお、当該所定のテスト映像に関しては、特にどの行動種別actに該当するかの正解ラベルを付与しておく必要はない。

以上のような「考え方」に基づき、算出部12では適応的な重みw(t)を具体的に以下のステップ1〜ステップ3を順次実行することで求めることができる。なお、以下では、前述の通り重みw(t)におけるi依存性（信号Viへの依存性）の表記は省略して、重みw(t)を求めるものとして説明する。

[ステップ１]（「乱雑さ」の算出）：あるフレームのスコアS(act,t)を入力すると、（式６）で分散v(t)を「乱雑さ」として算出する。

ここで、前述の通り、actは行動種別のIDであり、tはフレームのIDであり、Nは行動の数である。さらに、スコアS(act,t)とは、（i依存性を明記して書けば）前述の(5A)で与えた尤度ベクトルのact成分である。
S(act,t)=「尤度ベクトルFSi(t)のact成分」
=fsi_[act](t)
また、分散の代わりに、（式７）でエントロピーH(t)を「乱雑さ」として算出してもよい。

[ステップ２]（重みの設定）：ステップ１で算出した各フレームのスコアの分散v(t)を入力として用いて、（式８）で各フレームの重みw(t)を算出する。

ここで前述の通り、tはフレームのIDであり、和はt=1,2, ...,Tまで取る。Tはフレームの数（対象としている時系列信号Viのフレーム総数）である。（式８）では分散v(t)を用いているが、代わりにエントロビーH(t)を用いてもよい。

さらに、オプションとしての一実施形態においては、事前知識により、各フレームの重みw(t)を、（式８）で求めたものからさらに補正して設定してもよい。例えば、前半は（ほぼ）ゼロから徐徐に上がって（式8）の本来の値に到達するようにし、後半は（式８）の本来の値から徐徐に下がって（ほぼ）ゼロとなるように補正してもよい。すなわち、前半を1≦t≦T1の区間とし、後半をT2≦t≦Tの区間とする。ここでT1<T2である。具体的に、求めた重みw(t)を例えば以下のように、前半に関して（式8A）、後半に関して（式８B）ように補正してもよい。なお、（式8A）、（式8B）において「←」の記号は、コンピュータプログラム表記における慣用表記と同様に、左辺の値（変数w(t)）を右辺の値で更新する（すなわち、左辺の補正後の値w(t)を、補正前の値w(t)に基づいて算出される右辺の値とする）ことを意味している。
w(t)←w(t)×(t/T1) （式８A）
w(t)←w(t)×{1-(t-T2)/(T-T2)} （式８B）

[ステップ３]（時系列スコアの算出）：全てフレームのスコアS(act, t)と重みw(t)を入力として用いて、（式９）で、適応的に時系列平均されたスコアSA(act)を算出する。和は（式８）と同様、t=1,2, ..., Tで取る。

[統合部13]
統合部13では、以上の算出部12が適応的な重みw(t)[i]（ここではi依存性を明記した）によって各時系列信号Viにおいて算出した時系列上での平均スコア（尤度ベクトル）TSiを統合したものとして、統合スコアINT_SCを求め、評価部14へと出力する。

統合部13の具体的な処理内容を説明するに先立ってまず、統合部13における統合処理の「考え方」を説明する。

すなわち、図３のRGB画像時系列V1及びフロー画像時系列V2といったように、異種類の信号間において正しいフレームと間違いフレームを比較すると、（異種信号間での分散の絶対値の大小の相違があるために、）「正しいフレームでスコアの分散が相対的に大きい」という結論は必ずしも成立しない。

逆に、図７のように正しいフレームと間違いフレームとの区別によらず、[1]のRGB画像のスコアの分散が[2]のフロー画像の分散より明らかに大きい。つまり、フロー画像の正しいフレームであっても、スコアの分布はRGB画像の間違いフレームより比較的に均一な分散となっている。

一方、RGB画像による推定とフロー画像による推定とは補完性が強いので、いずれかの結果を切り捨てるのではなく、どちらも活用できるように公平的に組み合わせることが望ましい。従って、RGB画像とフロー画像のそれぞれの時系列スコアを正規化させるように重みを設定する。

すなわち、以上を換言すれば、例えばRGB画像（時系列信号V1）による推定結果はバラツキが大であり、いずれの行動種別actに該当するかをいわば強い自信（確信）を持って推定するものであるが、必ずしもその推定精度は高くなく、これとは逆に、フロー画像（時系列信号V2）による推定結果はバラツキが小であり、いずれの行動種別actに該当するかをいわば弱い自信（確信）しか持たずに推定するものであるが、その推定精度は高い、というような状況において、両信号V1,V2の推定結果を互いに補完すべく、各スコアを正規化する。

統合部13における具体的な正規化処理及び統合処理は、V1及びV2の2種類の時系列信号を統合する場合、例えば以下１〜４のようにすることができる。

１．最大スコアで正規化する場合
最大スコアによる正規化の重みとして、以下の一連の（式１０）のようにして信号V1の重みw^V1及び信号V2の重みw^V2を求めることができる。ここで、TSi(act)(i=1,2)は、算出部12において適応的に時系列平均されたスコアTSi（尤度ベクトル）における行動種別act成分の値である。

２．平均スコアで正規化する場合
一方、上記「１」とは別手法として、平均スコアによる正規化の重みとして、以下の一連の（式１１）のようにして信号V1の重みw^V1及び信号V2の重みw^V2を求めることもできる。Nは前述のように行動種別actの総数である。

３．合理的な範囲への制限に関して
さらに、上記「１．最大値」及び「２．平均値」のいずれによって信号V1の重みw^V1及び信号V2の重みw^V2を求めた場合であっても、以下の（式１２）の条件に該当する場合、当該（式１２）にて与えられているように重みw^V1（及びｗ^V2）を事前に設定した合理的範囲[THL,THH]内に制限することが好ましい。

４．最終的な統合スコアの算出に関して
以上「１又は２」及び「３」の処理にて求まった信号V1の重みw^V1及び信号V2の重みw^V2により、統合スコアINT_SC（当該尤度ベクトルにおける行動種別actの要素値をINT_SC(act)とする）を以下の（式１３）のように算出することできる。
INT_SC(act)=w^V1TS1(act)+w^V2TS2(act) （式１３）

なお、以上の説明では信号V1及び信号V2の2種類を統合する場合を例としたが、3種類以上の信号を統合する場合も全く同様にして重み算出が可能である。

例えば、3種類のV1,V2,V3（例えば、RGB画像時系列信号、フロー画像時系列信号及びデプス画像時系列信号）を統合する重みw^V1,w^V2,w^V3を上記「１．最大値で正規化」する場合、以下の一連の（式１４）によって可能である。

上記（式１４）より、最大値の正規化ではなく平均値の正規化の場合も各重みの算出の仕方は明らかである。さらに、一般にM種類の信号V1,V2,…,VMを用いる場合、上記（式１４）をさらに一般化したものとして、各信号Viの重み係数w^Viは以下のように求めればよい。

[評価部14]
評価部14では、以上のように統合部13にて得られた統合スコアINT_SC（各成分がINT_SC(act)である尤度ベクトル）を用いて、時系列信号V1,V2,…VMを抽出した（又は関連するものとして与えられた）当初の映像信号Vにおける行動種別がいずれ（act=1,2,…,Nのいずれ）に該当するかを評価する。具体的には、以下の（式１５）のように統合スコアINT_SCにおける尤度値としての成分の値INT_SC(act)が最も大きなものを評価結果act=act_{[評価結果]}として与えることができる。

以上、本発明によれば、映像信号Vから抽出された又は映像信号Vに関連する複数の時系列信号V1,V2,…,VMのそれぞれで深層畳み込みニューラルネットワーク等の識別器を適用した結果として得られる時系列信号（行動種別act毎の尤度スコア時系列信号）FS1,FS2,…,FSMによって当初の映像信号Vの行動種別の評価結果を得るために、適応的な重みを算出したうえで、当該適応的な重みによって最終的な評価結果を得るようにすることができる。

従って、本発明においては重みを適応的に算出する処理以外の部分では従来手法と共通の枠組みを採用可能であることにより、複数の時系列信号V1,V2,…,VMにおける複数の深層畳み込みニューラルネットワークを映像信号Vの行動認識に適用させる際に、モデルの学習を再度やり直す必要が生じる等の影響はゼロであり、計算量やメモリ消費にもほぼ影響がないにも関わらず、認識精度を向上することが可能である。

以下、本発明における補足的事項を説明する。

（１）図２の統合装置10においては、算出部12及び統合部13の両者で適応的な重みに相当するものを求めるものとして説明したが、本発明においてはいずれか片方のみにおいて当該適応的な重みに相当するものを算出して、もう片方においては前掲の非特許文献３等と同様の従来手法における固定的な重みを算出するようにしても、従来手法（「課題」において説明したように、算出部12及び統合部13に相当する両者の処理において従来の固定的な重みを利用する図１の手法）と比べた認識精度向上を達成することが可能である。

すなわち、算出部12にて従来手法と同様の時間軸上の均一な平均を用いるようにして、統合部13では以上説明したような本発明における適応的な重みw^Vi(i=1,2,…,M)を利用するようにしてもよい。逆に、算出部12では以上説明したような本発明における分散v(t)に基づく適応的な重みw(t)を用いるようにして、統合部13では従来手法と同様の固定的な重みを用いるようにしてもよい。

なお、認識精度の観点からは、上記のように算出部12又は統合部13のいずれか片方のみにおいて本発明の手法を採用するのではなく、算出部12及び統合部13の両方において以上説明したような本発明による適応的な重みを採用するようにすることが好ましい。

（２）本発明は、映像信号Vにおける行動種別act(=1,2,…,N)の認識を、複数の識別器を統合することによって認識する際の重みの適応的な設定に関するものとして説明したが、より一般には、映像信号Vにおける行動（例えば、人間その他生物等の何らかの意図等を持った行動）種別に限らず、動作種別act(=1,2, …, N)の識別に関しても本発明は全く同様に適用可能である。すなわち、映像信号Vにおける一般の動作（非生物その他一般の対象によって発生し、意図の有無等も問わない動作、例えば、「車が走っている」等の動作）種別の識別の際の、複数の識別器を統合する重みの適応的な算出に、本発明は全く同様に適用可能である。

（３）本発明は、コンピュータを統合装置10の各部の全て又はその任意の一部分として機能させるプログラムとしても提供可能である。当該コンピュータには、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェア構成のものを採用することができ、所定プログラムを読み込んで実行するCPUが当該各部の機能に対応する命令を実行することにより、当該各部を実現することとなる。

10…統合装置、11…出力部、12…算出部、13…統合部、14…評価部

Claims

映像信号(V)より抽出される又は当該映像信号(V)に関連する複数の時系列信号(Vi;i=1,2,…,M)のそれぞれに識別器を適用して得られる、当該時系列信号(Vi)ごとの前記映像信号(V)における各動作種別(act=1,2,…,N)の尤度時系列(FSi)を当該尤度時系列上で重み付け平均することで、当該時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を算出する算出部と、
前記時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を当該対応する時系列信号(Vi)ごとに重み付け平均することで、前記映像信号(V)における統合された各動作種別(act)の尤度ベクトル(INT_SC)を求める統合部と、を備える統合装置であって、
前記算出部では、前記尤度時系列(FSi)の各時刻(t)における前記各動作種別(act)の要素の分布の乱雑さ(v(t),H(t))に基づく重み付け平均によって、前記尤度ベクトル(TSi)を算出し、
前記統合部では、前記時系列信号(Vi)ごとの尤度ベクトル(TSi)がそれぞれ取る範囲に基づく正規化係数(w^Vi)に基づく重み付け平均によって、前記統合された各動作種別の尤度ベクトル（INT_SC）を求めることを特徴とする統合装置。
映像信号(V)より抽出される又は当該映像信号に関連する複数の時系列信号(Vi;i=1,2,…,M)のそれぞれに識別器を適用して得られる、当該時系列信号(Vi)ごとの前記映像信号(V)における各動作種別(act=1,2,…,N)の尤度時系列(FSi)を当該尤度時系列上で重み付け平均することで、当該時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を算出する算出部と、
前記時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を当該対応する時系列信号(Vi)ごとに重み付け平均することで、前記映像信号(V)における統合された各動作種別(act)の尤度ベクトル(INT_SC)を求める統合部と、を備える統合装置であって、
前記算出部では、前記尤度時系列(FSi)の各時刻(t)における前記各動作種別(act)の要素の分布の乱雑さ(v(t),H(t))に基づく重み付け平均によって、前記尤度ベクトル(TSi)を算出することを特徴とする統合装置。
前記算出部では、前記乱雑さ(v(t),H(t))を分散(v(t))として評価することを特徴とする請求項１または２に記載の統合装置。
前記算出部では、前記乱雑さ(v(t),H(t))をエントロピー(H(t))として評価することを特徴とする請求項１または２に記載の統合装置。
映像信号(V)より抽出される又は当該映像信号(V)に関連する複数の時系列信号(Vi;i=1,2,…,M)のそれぞれに識別器を適用して得られる、当該時系列信号(Vi)ごとの前記映像信号(V)における各動作種別(act=1,2,…,N)の尤度時系列(FSi)を当該尤度時系列上で重み付け平均することで、当該時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を算出する算出部と、
前記時系列信号(Vi)ごとの各動作種別(act)の尤度ベクトル(TSi)を当該対応する時系列信号(Vi)ごとに重み付け平均することで、前記映像信号(V)における統合された各動作種別(act)の尤度ベクトル(INT_SC)を求める統合部と、を備える統合装置であって、
前記統合部では、前記時系列信号(Vi)ごとの尤度ベクトル(TSi)がそれぞれ取る範囲に基づく正規化係数(w^Vi)に基づく重み付け平均によって、前記統合された各動作種別の尤度ベクトル（INT_SC）を求めることを特徴とする統合装置。
前記統合部では、前記正規化係数(w^Vi)を、前記時系列信号(Vi)ごとの尤度ベクトル(TSi)の要素としての動作種別(act)ごとの要素値（TSi(act)）の中の最大値に基づいて定めることを特徴とする請求項１または５に記載の統合装置。
前記統合部では、前記正規化係数(w^Vi)を、前記時系列信号(Vi)ごとの尤度ベクトル(TSi)の要素としての動作種別(act)ごとの要素値（TSi(act)）の平均値に基づいて定めることを特徴とする請求項１または５に記載の統合装置。
前記統合部では、前記正規化係数(w^Vi)を定めるに際して、所定の上下限範囲[THL,THH]内に収まらない係数がある場合は、当該範囲内に収まるように係数を修正することを特徴とする請求項１，５，６，７のいずれかに記載の統合装置。
前記統合部にて求まった各動作種別(act)の尤度ベクトル(INT_SC)の要素のうち最大値に対応する動作種別を、前記映像信号(V)の該当結果として出力する評価部をさらに備えることを特徴とする請求項１ないし８のいずれかに記載の統合装置。
前記適用する識別器が深層畳み込みニューラルネットワークであることを特徴とする請求項１ないし９のいずれかに記載の統合装置。
コンピュータを請求項１ないし１０のいずれかに記載の統合装置として機能させることを特徴とするプログラム。