JP2018120402A

JP2018120402A - イベント検出装置、イベント検出方法、プログラム

Info

Publication number: JP2018120402A
Application number: JP2017011108A
Authority: JP
Inventors: 鮎美松本; Ayumi Matsumoto; 弾三上; Dan Mikami; 木全　英明; Hideaki Kimata; 英明木全
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2018-08-02
Anticipated expiration: 2037-01-25
Also published as: JP6713422B2

Abstract

【課題】サブフレーム単位でイベントを検出するモデルを学習することができるイベント検出装置を提供する。
【解決手段】動画として再生可能なフレーム毎の画像からなる画像列を取得する画像列取得部と、任意フレームの画像の特徴と、前記任意フレームの画像の前あるいは後に連なる任意の数の画像の特徴とを表現する画像特徴情報を各フレームについて抽出する画像特徴情報抽出部と、学習データである画像列のフレーム間を所定の時間間隔で分割したサブフレームのうちの特定のサブフレーム、または特定のフレームを所定のイベントが発生するイベント発生時刻として指定するイベント発生時刻指定部と、学習データである画像列に対応する画像特徴情報列を低次元空間にマッピングし、マッピングされた各座標間を前記所定の時間間隔で補間してモデルを学習するモデル学習部を含む。
【選択図】図１

Description

本発明は、動画像において対象とするイベントを検出するイベント検出装置、イベント検出方法、プログラムに関する。

動画像から特定のイベントを検出する技術が知られている（例えば非特許文献１、２）。この技術は、異常検知やジェスチャー認識など実際のサービスにも多く利用されている。

Davis,J.W.and Bobick,A.F., "The Representation and Recognition of Human Movement Using Temporal Templates," In Proceedings of the 1997 Conference on Computer Vision and Pattern Recognition (CVPR'97), CVPR'97, pages 928-934, (1997) R. Urtasun, D. J. Fleet, and P. Fua. "3D People Tracking with Gaussian Process Dynamical Models." CVPR, 2006.

従来技術において検出対象とされているのは、数フレーム単位の誤差を許容するイベントである。従って、フレーム単位以下の検出精度が要求される対象には適用できない。

しかし、例えば、スポーツのピッチング映像におけるボールリリースやゴルフスイング映像におけるインパクトといったイベントを検出し、他のセンサデータとの同期を行おうとした場合にはサブフレーム単位でのイベント検出が必要となる。

そこで本発明は、サブフレーム単位でイベントを検出するモデルを学習することができるイベント検出装置を提供することを目的とする。

本発明のイベント検出装置は、画像列取得部と、画像特徴情報抽出部と、イベント発生時刻指定部と、モデル学習部を含む。

画像列取得部は、動画として再生可能なフレーム毎の画像からなる画像列を取得する。画像特徴情報抽出部は、任意フレームの画像の特徴と、任意フレームの画像の前あるいは後に連なる任意の数の画像の特徴とを表現する画像特徴情報を各フレームについて抽出する。イベント発生時刻指定部は、学習データである画像列のフレーム間を所定の時間間隔で分割したサブフレームのうちの特定のサブフレーム、または特定のフレームを所定のイベントが発生するイベント発生時刻として指定する。モデル学習部は、学習データである画像列に対応する画像特徴情報列を低次元空間にマッピングし、マッピングされた各座標間を所定の時間間隔で補間してモデルを学習する。

本発明のイベント検出装置によれば、サブフレーム単位でイベントを検出するモデルを学習することができる。

実施例１のイベント検出装置の構成を示すブロック図。実施例１のイベント検出装置のモデル学習動作を示すフローチャート。画像列から画像特徴情報列を抽出する動作を説明する図。画像特徴情報列を低次元空間にマッピングして疑似高フレームレート化する動作を説明する図。実施例１のイベント検出装置のイベント検出動作を示すフローチャート。イベント領域検出部とイベント発生時刻推定部の構成を示すブロック図。イベント領域検出部とイベント発生時刻推定部の動作を示すフローチャート。テンプレートと画像特徴情報との距離計算を説明する図。イベント領域の座標値として設定される中心座標を説明する図。イベント検出対象とモデルの低次元空間における照合を説明する図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１を参照して、実施例１のイベント検出装置の構成を説明する。図１に示すように、本実施例のイベント検出装置１は、学習部１１と、データ記憶部１２と、検出部１３を含む。学習部１１は、画像列取得部１１１と、画像特徴情報抽出部１１２と、テンプレート指定部１１３と、イベント発生時刻指定部１１４と、モデル学習部１１５を含む。検出部１３は、画像列取得部１３１と、画像特徴情報抽出部１３２と、イベント領域検出部１３３と、イベント発生時刻推定部１３４を含む。画像列取得部１１１と画像列取得部１３１は同じ機能を有している。二つの構成要件の違いは取得する画像列の役割が異なることである。画像列取得部１１１はモデルを学習するための学習データとして画像列を取得するのに対し、画像列取得部１３１は、イベント検出対象として画像列を取得する。画像列取得部１１１と画像列取得部１３１は一つの構成要件に統合してもよい。同様に、画像特徴情報抽出部１１２と画像特徴情報抽出部１３２は、抽出元となる画像列が学習データであるかイベント検出対象であるかの違いがあるだけで、同じ機能を有している。従って、画像特徴情報抽出部１１２と画像特徴情報抽出部１３２もまた、一つの構成要件に統合してもよい。

＜モデル学習動作＞
以下、図２を参照して、学習部１１内で実行されるモデル学習動作について説明する。まず、画像列取得部１１１は、例えばビデオカメラ９１ａなどからモデル学習用の動画データ（以下、学習データと呼称する）を取得する。画像列取得部１１１は、ビデオカメラ９１ａからではなく、予め用意されたモデル学習用の動画ファイル（この場合も学習データと呼称する）を別の装置などから受け取ってもよい。少なくとも、画像列取得部１１１は動画として再生可能なフレーム毎の画像からなる画像列を何らかの方法で取得すればよい（Ｓ１１１）。画像列取得部１１１は取得した画像列を次の処理へ振り分ける。具体的には、画像列取得部１１１は、取得した画像列を、画像特徴情報抽出部１１２へ送る。

画像特徴情報抽出部１１２は、任意フレームの画像の特徴と、任意フレームの画像の前あるいは後に連なる任意の数の画像の特徴とを表現する画像特徴情報を各フレームについて抽出する（Ｓ１１２）。画像特徴情報として、例えば、動作認識に用いられる非特許文献１のMotion Histoy Image（以下、ＭＨＩとも呼称する）を用いてもよい。各フレームについてＭＨＩを抽出する例について、図３を参照して補足説明する。図３に示すように、ｘフレームに対応するＭＨＩは、ｘフレームの画像の特徴、およびｘフレームの画像から過去に連続するｘ−１フレームの画像、ｘ−２フレームの画像、…などの特徴を表現する二次元分布として抽出される。一方、ｘ＋１フレームに対応するＭＨＩは、ｘ＋１フレームの画像の特徴、およびｘ＋１フレームの画像から過去に連続するｘフレームの画像、ｘ−１フレームの画像、…などの特徴を表現する二次元分布として抽出される。このように、画像特徴情報抽出部１１２は、画像列のフレームそれぞれに対して一つずつ、画像特徴情報を抽出する。

次に、テンプレート指定部１１３は、学習データである画像列に対応する画像特徴情報列のうち、検出したい所定のイベントを含む画像特徴情報の一部の画像領域をテンプレートとして指定する（Ｓ１１３）。例えばテンプレートは、対象イベントを含むフレームにおいて、対象イベントを含むように予め手動で設定された画像領域としてもよい。さらに、テンプレート指定部１１３は、テンプレートを指定したフレームの前後のＮフレームの該当する画像領域をイベント領域として指定する（Ｓ１１３）。テンプレート、イベント領域は、画像領域の範囲を定義する座標値、該当するフレーム番号などで定義できる。テンプレート指定部１１３は、指定したテンプレート、イベント領域をデータ記憶部１２に保存する。イベント領域指定を行うことで、データ量が格段に低下し、以降の処理コストを大きく低下させることができる。またイベント領域指定を行うことで、類似するデータが抽出されやすくなるため、モデルの精度を高めることができる。

イベント発生時刻指定部１１４は、学習データである画像列のフレーム間を所定の時間間隔で分割したサブフレームのうちの特定のサブフレーム、または特定のフレームを所定のイベントが発生するイベント発生時刻として指定する（Ｓ１１４）。例えば、オリジナルの画像列のフレームレートをＦｓとした場合に、イベント検出をＦｓ×ｒの精度で行いたい場合、イベント発生時刻指定部１１４は、フレーム間をｒ分割してｒ−１個の仮想のサブフレームを挿入し、当該サブフレームあるいはフレームの何れか一つに、イベント発生時刻を割り当てる。割り当ての具体的方法として、イベント発生時刻指定部１１４は例えば手動で予めタグ付けされたデータを用いてもよい。手動によるタグ付けは目測で行ってもよいし、同時に測定したセンサの値などを用いてもよい。イベント発生時刻指定部１１４は、イベント発生時刻をデータ記憶部１２に保存する。

モデル学習部１１５は、イベント検出を行うためのモデルの学習を行う。詳細には、モデル学習部１１５は、学習データである画像列に対応する画像特徴情報列を、Ｓ１１３で指定したイベント領域において、低次元空間にマッピングする。低次元空間へのマッピングは任意の手法で実現可能であるが、例えば、非特許文献２のように時系列に滑らかに低次元写像を行うことができる手法を用いることができる。モデル学習部１１５のマッピング実行例として図４Ａの例を開示する。図４Ａの例では、画像特徴情報列として４枚が選択され、これらがそれぞれ４つの座標からなる座標群５１にマッピングされる。

モデル学習部１１５は、マッピングされた各座標間を所定の時間間隔で補間してモデルを学習する（Ｓ１１５）。例えば、前述のステップＳ１１４で、フレームレートをｒ倍にするサブフレーム分割が実行されている場合には、対応するステップＳ１１５において、ｒ倍の疑似高フレームレート化が実行される。モデル学習部１１５の疑似高フレームレート化の実行例として図４Ｂの例を開示する。図４Ｂの例では、座標群５１の間を補間する座標群６１が挿入され、疑似高フレームレート化が実行される。モデル学習部１１５は、任意の補間方法を実行することができる。モデル学習部１１５は、マッピング関数、低次元空間での座標値をモデルとしてデータ記憶部１２に保存する。

データ記憶部１２には、ステップＳ１１３で指定されたテンプレートとイベント領域、ステップＳ１１４で指定されたイベント発生時刻、ステップＳ１１５で学習されたモデル（マッピング関数と低次元空間での座標値）が保存される。

＜イベント検出動作＞
以下、図５を参照して、検出部１３内で実行されるイベント検出動作について説明する。画像列取得部１３１は、イベント検出対象である画像列を取得する（Ｓ１３１）。前述したとおり、画像列取得部１３１は画像列取得部１１１と統合してもよい。画像列取得部１１１と同様、画像列取得部１３１は例えばビデオカメラ９１ｂなどからイベント検出用の動画データを取得してもよいし、ビデオカメラ９１ｂからではなく、予め用意されたイベント検出用の動画ファイルを別の装置などから受け取ってもよい。ビデオカメラ９１ｂは前述のビデオカメラ９１ａと同じ機材であってもよい。画像列取得部１３１は、取得した画像列を次の処理へ振り分ける。具体的には、画像列取得部１３１は、取得した画像列を、画像特徴情報抽出部１３２へ送る。

画像特徴情報抽出部１３２は、イベント検出対象である画像列に対応する画像特徴情報を抽出する（Ｓ１３２）。前述したとおり、画像特徴情報抽出部１３２は画像特徴情報抽出部１１２と統合してもよい。

イベント領域検出部１３３は、イベント検出対象である画像列に対応する画像特徴情報列と前述のテンプレートとを照合して、イベント検出対象におけるイベント領域を検出する（Ｓ１３３、詳細は後述）。イベント領域検出部１３３は、一般的に用いられるテンプレートマッチング（例えば参考非特許文献１）の手法を用いることができる。
（参考非特許文献１：H. D. CRANE, etc, “Translation-Tolerant Mask Matching Using Noncoherent Reflective Optics,” PR, 1968）

イベント発生時刻推定部１３４は、イベント検出対象である画像列に対応する画像特徴情報列を、Ｓ１３３で検出したイベント領域において、低次元空間にマッピングし、マッピングされた各座標間を所定の時間間隔で補間し、モデルおよびイベント発生時刻と照合して、イベント検出対象におけるイベント発生時刻を推定する（Ｓ１３４、詳細は後述）。

以下、図６を参照してイベント領域検出部１３３、イベント発生時刻推定部１３４内の詳細な実施形態について説明する。図６に示すように、イベント領域検出部１３３は、テンプレート読込部１３３１、フレーム毎最小距離計算部１３３２、中心フレーム決定部１３３３、前後フレーム選択部１３３４を含んで構成されてもよい。同図に示すように、イベント発生時刻推定部１３４は、低次元空間マッピング部１３４１、疑似高フレームレート化部１３４２、座標毎確率計算部１３４３、時刻推定部１３４４を含んで構成されてもよい。

＜イベント領域検出部１３３の動作の詳細＞
以下、図７を参照して、イベント領域検出部１３３内で実行されるイベント領域検出動作について説明する。まず、テンプレート読込部１３３１は、データ記憶部１２に保存されているテンプレートを読み込む（Ｓ１３３１）。

フレーム毎最小距離計算部１３３２は、ステップＳ１３２で抽出した画像特徴情報列の全フレームについて、フレームごとにテンプレートとの最小距離を計算し、フレームごとに最小距離に対応する座標値を取得する（Ｓ１３３２）。ステップＳ１３３２をより具体的に説明するために図８を開示した。すなわち、フレーム毎最小距離計算部１３３２は、ステップＳ１３２で抽出したｎフレーム目の幅Ｗ×高さＨの画像特徴情報Ｉ（ｎ）の全領域に対して、ステップＳ１３３１で読み込んだ幅ｗ×高さｈ（ただし、Ｗ＞ｗかつＨ＞ｈ）のテンプレートＩをスライドさせながらテンプレートと画像特徴情報の距離を計算する処理をフレームｎ＝１，２，…について実行する。このとき、結果Ｒは（Ｗ−ｗ＋１）×（Ｈ−ｈ＋１）のサイズとなる。距離の計算は、例えば、下記の式で行うことが可能である。
R(x,y)=sumx’,y’[T(x’,y’)-I(x+x’,y+y’)]² …(1)

上記の式において、Ｒの最小値を求めることで、最小距離の計算が可能である。フレーム毎最小距離計算部１３３２は、上記計算を全フレームについて実行する。各フレームでの最小距離をＲ_ｍｉｎ（ｎ）とし、最小距離を充たす各フレームのイベント領域候補の座標値を（ｘ_ｍｉｎ，ｙ_ｍｉｎ）とする。座標値は、例えば各フレームのイベント領域候補の中心座標とすればよい。なお、上式を相関値にした場合、最大値をとれば同等の効果が得られる。

中心フレーム決定部１３３３は、最小距離Ｒ_ｍｉｎ（ｎ）の最小値をとるフレーム番号Ｎ^＊のフレーム（中心フレーム）、およびこれに対応する座標値（ｘ^＊ _ｍｉｎ，ｙ^＊ _ｍｉｎ）を決定する（Ｓ１３３３）。ステップＳ１３３３をより具体的に説明するために図９を開示した。同図に示すように、中心フレーム決定部１３３３は、フレーム番号Ｎ^＊のフレーム（中心フレーム）において最小距離を充たす領域（白枠で囲んだ領域）の中心座標（ｘ^＊ _ｍｉｎ，ｙ^＊ _ｍｉｎ）を求める。

前後フレーム選択部１３３４は、Ｎ^＊の前後Ｎフレーム（Ｎ^＊−Ｎフレーム〜Ｎ^＊＋Ｎフレーム）の画像特徴情報を選択し、ステップＳ１３３３と同様に、これらのフレームに対応する座標値（中心座標）を求め、イベント領域を決定する（Ｓ１３３４）。

＜イベント発生時刻推定部１３４の動作の詳細＞
図７を参照して、イベント発生時刻推定部１３４内で実行されるイベント発生時刻推定動作について説明する。まず、低次元空間マッピング部１３４１は、イベント領域に対応する画像特徴情報列を低次元空間にマッピングする（Ｓ１３４１）。低次元空間マッピング部１３４１は、マッピングを、ステップＳ１１５で事前学習したマッピング関数に基づいて実行する。例えば、３次元の低次元空間へマッピングを行う場合、時刻ｎでの座標値は（ｘ（ｎ），ｙ（ｎ），ｚ（ｎ））となる。

擬似高フレームレート化部１３４２は、マッピングされた各座標間を所定の時間間隔で補間し、擬似高フレームレート化する（Ｓ１３４２）。例えば、Ｋ倍の疑似高フレームレート化を行うのであれば、（ｘ（ｎ），ｙ（ｎ），ｚ（ｎ））から（ｘ（ｎ＋１），ｙ（ｎ＋１），ｚ（ｎ＋１））へのベクトルをＫ分割して、分割点を１：ＫＮフレームの新たな座標値とする。この例の概念図を図１０に開示する。同図に示すように、擬似高フレームレート化部１３４２は、マッピングされた座標群７１の座標間に新たな座標群８１を補間して、擬似高フレームレート化を実行する。

座標毎確率計算部１３４３は、マッピングおよび補間された各座標について、対象イベントが起こる確率Ｐを計算する（Ｓ１３４３）。確率Ｐは、事前に学習済みのイベント発生時刻（図１０の×印）と、１：ＫＮの各フレームに該当する座標群７１、８１との距離ｄ１を計算し、距離ｄ１の逆数をとることで計算可能である。複数の画像列で学習を行った場合、すべての画像列の距離を累積することで同等の計算が可能である。

時刻推定部１３４４は、計算された確率Ｐに基づき、イベント発生時刻を推定する（Ｓ１３４４）。時刻推定部１３４４は、確率Ｐが最大となるフレーム（サブフレーム）を選択することにより、あるいは確率Ｐの重みつき平均に基づいて、イベント発生時刻を推定することができる。従って、イベント発生時刻は、疑似高フレームレート化されたフレームの精度で推定される。

本実施例のイベント検出装置１によれば、サブフレーム単位でイベントを検出することができるため、検出対象とするイベントが数フレーム単位の誤差を許容できない性質を持っている場合にも、これに対応することができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

動画として再生可能なフレーム毎の画像からなる画像列を取得する画像列取得部と、
任意フレームの画像の特徴と、前記任意フレームの画像の前あるいは後に連なる任意の数の画像の特徴とを表現する画像特徴情報を各フレームについて抽出する画像特徴情報抽出部と、
学習データである画像列のフレーム間を所定の時間間隔で分割したサブフレームのうちの特定のサブフレーム、または特定のフレームを所定のイベントが発生するイベント発生時刻として指定するイベント発生時刻指定部と、
学習データである画像列に対応する画像特徴情報列を低次元空間にマッピングし、マッピングされた各座標間を前記所定の時間間隔で補間してモデルを学習するモデル学習部
を含むイベント検出装置。
請求項１に記載のイベント検出装置であって、
イベント検出対象である画像列に対応する画像特徴情報列を低次元空間にマッピングし、マッピングされた各座標間を前記所定の時間間隔で補間し、前記モデルおよび前記イベント発生時刻と照合して、イベント検出対象におけるイベント発生時刻を推定するイベント発生時刻推定部
を含むイベント検出装置。
請求項２に記載のイベント検出装置であって、
学習データである画像列に対応する画像特徴情報列のうち、前記所定のイベントを含む画像特徴情報の一部の画像領域をテンプレートとして指定し、前記テンプレートを指定したフレームの前後の複数フレームの該当する画像領域を含むイベント領域を指定するテンプレート指定部と、
イベント検出対象である画像列に対応する画像特徴情報列と前記テンプレートとを照合して、イベント検出対象におけるイベント領域を検出するイベント領域検出部をさらに含み、
前記モデル学習部は、
学習データである画像列に対応する画像特徴情報列のうち、指定された前記イベント領域に対応する一部の画像領域についてのみ、低次元空間へのマッピングを行い、
前記イベント発生時刻推定部は、
イベント検出対象である画像列に対応する画像特徴情報列のうち、検出された前記イベント領域に対応する一部の画像領域についてのみ、低次元空間へのマッピングを行う
イベント検出装置。
イベント検出装置が実行するイベント検出方法であって、
動画として再生可能なフレーム毎の画像からなる画像列を取得するステップと、
任意フレームの画像の特徴と、前記任意フレームの画像の前あるいは後に連なる任意の数の画像の特徴とを表現する画像特徴情報を各フレームについて抽出するステップと、
学習データである画像列のフレーム間を所定の時間間隔で分割したサブフレームのうちの特定のサブフレーム、または特定のフレームを所定のイベントが発生するイベント発生時刻として指定するステップと、
学習データである画像列に対応する画像特徴情報列を低次元空間にマッピングし、マッピングされた各座標間を前記所定の時間間隔で補間してモデルを学習するステップ
を含むイベント検出方法。
請求項４に記載のイベント検出方法であって、
イベント検出対象である画像列に対応する画像特徴情報列を低次元空間にマッピングし、マッピングされた各座標間を前記所定の時間間隔で補間し、前記モデルおよび前記イベント発生時刻と照合して、イベント検出対象におけるイベント発生時刻を推定するステップ
を含むイベント検出方法。
請求項５に記載のイベント検出方法であって、
学習データである画像列に対応する画像特徴情報列のうち、前記所定のイベントを含む画像特徴情報の一部の画像領域をテンプレートとして指定し、前記テンプレートを指定したフレームの前後の複数フレームの該当する画像領域を含むイベント領域を指定するステップと、
イベント検出対象である画像列に対応する画像特徴情報列と前記テンプレートとを照合して、イベント検出対象におけるイベント領域を検出するステップをさらに含み、
学習データである画像列に対応する画像特徴情報列のうち、指定された前記イベント領域に対応する一部の画像領域についてのみ、低次元空間へのマッピングを行い、
イベント検出対象である画像列に対応する画像特徴情報列のうち、検出された前記イベント領域に対応する一部の画像領域についてのみ、低次元空間へのマッピングを行う
イベント検出方法。
コンピュータを、請求項１から３の何れかに記載のイベント検出装置として機能させるプログラム。