JP6517681B2 - 映像パターン学習装置、方法、及びプログラム - Google Patents

映像パターン学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP6517681B2
JP6517681B2 JP2015246266A JP2015246266A JP6517681B2 JP 6517681 B2 JP6517681 B2 JP 6517681B2 JP 2015246266 A JP2015246266 A JP 2015246266A JP 2015246266 A JP2015246266 A JP 2015246266A JP 6517681 B2 JP6517681 B2 JP 6517681B2
Authority
JP
Japan
Prior art keywords
pattern
feature
learning
motion
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015246266A
Other languages
English (en)
Other versions
JP2017111660A (ja
Inventor
泳青 孫
泳青 孫
数藤 恭子
恭子 数藤
杵渕 哲也
哲也 杵渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015246266A priority Critical patent/JP6517681B2/ja
Publication of JP2017111660A publication Critical patent/JP2017111660A/ja
Application granted granted Critical
Publication of JP6517681B2 publication Critical patent/JP6517681B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、映像パターン学習装置、方法、及びプログラムに係り、特に、映像のラベルを認識するモデルを学習する映像パターン学習装置、方法、及びプログラムに関する。
映像のシーン認識やイベント検出など、映像シーン解析技術は幅広く行われている。一般の処理流れとしては、まず、映像から被写体(物体や人物)の変化や状態を表現する画像特徴量や動き特徴量、音声特徴量などを抽出する。そして機械学習手法(SVMやDeepLearningなど)を用いて、それらの特徴量に対して識別を行う。識別結果に基づいて映像シーン認識やイベント検出を実現する。たとえば、従来の映像イベント検出方法として次のような方法がある。
まず映像の連続フレーム画像から、時系列で一定の時間間隔でフレーム画像群を抽出する。また、時系列で一定の時間間隔においてoptical flowを用いて、フレーム画像間の動き追跡を行って、その追跡を表したstacked optical flowという動き特徴量を抽出する。そして、CNN(Convolutional Neural Network)を用いて、画像特徴量や動き特徴量に対してそれぞれの識別を行う。最後に、それらの識別結果を足し算で統合することにより、映像シーンの認識結果となる。
Karen Simonyan, Andrew Zisserman ,"Two-Stream Convolutional Networks for Action Recognition in Videos",in NIPS,2014
しがしながら、上記の非特許文献1に示すような映像シーン認識方法は、機械学習手法(CNNなど)に基づいて識別を行った際に、フレーム画像毎の画像特徴量や短時間間の動き特徴量を用いられるため、映像の時系列で前後画像内容や動きの関連性を考慮しないため、従来の映像シーン認識手法は十分に映像の被写体の変化や追跡を正確に捉えることが困難である。また、映像の特徴として、画像や動き、音声、テロップなどの情報間に関連性が持つため、従来の映像シーン認識手法のような単純な統合処理は映像のさまざまな種類の特徴量の関連性に対応関係が不明確となり、このような統合処理を用いた映像のシーン認識とイベント検出の精度が低くなる問題がある。
本発明は、上記問題点を解決するために成されたものであり、映像のシーンを精度よく認識できるモデルを学習することができる映像パターン学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る映像パターン学習装置は映像のラベルを識別するためのモデルを学習する映像パターン学習装置であって、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、を含んで構成されている。
また、第1の発明に係る映像パターン学習装置において、前記深層学習アルゴリズムにはCNN(Convolutional Neural Network)を用い、前記時系列データを扱う深層学習の手法にはRNN(Recurrent neural network)を用いるようにしてもよい。
また、第1の発明に係る映像パターン学習装置において、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。
また、第1の発明に係る映像パターン学習装置において、前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。
第2の発明に係る映像パターン学習方法は、映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る映像パターン学習方法において、深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。
また、第2の発明に係る映像パターン学習方法において、前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。
第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る映像パターン学習装置の各部として機能させるためのプログラムである。
本発明の映像パターン学習装置、方法、及びプログラムによれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる、という効果が得られる。
本発明の第1の実施の形態に係る映像パターン学習装置の構成を示すブロック図である。 CNNの各層を表した一例を示す図である。 RNNを用いたビジュアルパターン特徴量の生成例を示す図である。 RNNを用いた動きパターン特徴量の生成例を示す図である。 本発明の第1の実施の形態に係る映像パターン学習装置における映像パターン学習処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る映像パターン学習装置の構成を示すブロック図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
映像イベント検出やシーン認識、特に人間の行動認識に対して、映像全体の時系列に渡って、人や主要な被写体の状態や動きの時系列の連続性と、映像のさまざまな種類の特徴量の関連性を取り入れる手法は有効と考えられる。そこで、時系列のビジュアルパターンと、動きパターンとの関連性を考慮し、それぞれのパターンを統合したパターンモデルを学習する。
<本発明の第1の実施の形態に係る映像パターン学習装置の構成>
次に、本発明の第1の実施の形態に係る映像パターン学習装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る映像パターン学習装置100は、CPUと、RAMと、後述する映像パターン学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この映像パターン学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、N個の映像からなる映像群を受け付け、蓄積部28に格納する。
演算部20は、蓄積部28と、映像取得部30と、フレーム画像生成部32と、深層画像特徴量生成部34と、時系列ビジュアルパターン学習部36と、低レベル動き特徴量生成部38と、深層動き特徴量生成部40と、時系列動きパターン学習部42と、パターン統合部44とを含んで構成されている。
蓄積部28には、入力部10で受け付けたN個の映像からなる映像群が格納されている。また、蓄積部28には、パターン統合部44で学習されたモデルが格納される。
映像取得部30は、蓄積部28に処理指示を出力して、格納された映像を取得し、取得した映像を、時系列順に、フレーム画像生成部32、及び低レベル動き特徴量生成部38のそれぞれに出力する。
フレーム画像生成部32は、映像取得部30により出力された映像から時系列順にフレーム画像を抽出し、抽出されたフレーム画像をフレーム画像群とする。例えば、処理対象の映像取得部30から受け取った映像において、一定の時間間隔(例えば、1秒毎)にフレーム画像(f,f,…,f)を抽出し、抽出したフレーム画像群を深層画像特徴量生成部34へ出力する。
深層画像特徴量生成部34は、フレーム画像生成部32により生成されたフレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する。具体的には、フレーム画像生成部32からフレーム画像群を受け取ると、フレーム画像(f,f,…,f)の各々について、上記非特許文献1に記載されている深層学習のアルゴリズムの一つであるCNN(Convolutional Neural Network)を用いて、フレーム画像毎の深層画像特徴量としてCNN画像特徴量を時系列順に生成し、時系列ビジュアルパターン学習部36に出力する。図2にCNNの各層を表した一例を示す。また、図2上部に示すCNNの複数の層のうち、中間層の出力(FC layer)、あるいは最終層の出力(Softmax layer)をCNN画像特徴量としてもよい。
時系列ビジュアルパターン学習部36は、深層画像特徴量生成部34で時系列順に生成されたフレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。具体的には、深層画像特徴量生成部34からフレーム画像毎のCNN画像特徴量を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるRNN(Recurrent neural network)を用いて、映像全体の時系列におけるビジュアル内容(画像特徴)の関連性を表現したビジュアルパターン特徴量を学習し、パターン統合部44へ出力する。RNNは、例えば、非特許文献2に記載されているBPPTを用いて実装すればよい。
非特許文献2:A tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the "echo state network" approach, Herbert Jaeger, Institute for Autonomous Intelligent Systems (AIS)
図3にRNNを用いたビジュアルパターン特徴量の生成例を示す。RNNにより、p ,p ,…p のビジュアルパターン特徴量を生成する。p は各フレーム画像の画像特徴を特徴付けるパターンらしさを表す確率である。このような時系列のビジュアル内容の関連性を考慮したビジュアルパターン特徴量によって、映像のラベルを識別することにより、非特許文献1に記載されている従来技術のように、単独のフレーム画像のCNN画像特徴量を用いて映像のラベルを識別するよりも、識別精度を高めることができる。なお、図3の例では2層RNNを用いてRNN構造を構築する場合を示しているが、具体的な応用に応じて層の数を変えてもよい。
低レベル動き特徴量生成部38は、映像取得部30により出力された映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する。具体的には、映像取得部30から受け取った映像において、時系列順に抽出した連続フレームの画像ペア(t,t+1)からoptical flowを算出し、一定の時間間隔(例えば、2秒)においてoptical flowを用いて動き追跡を行って、上記非特許文献1と同様に、追跡結果を表すstacked optical flowという特徴量を、映像の低レベル動き特徴量として生成する。生成された低レベル動き特徴量を深層動き特徴量生成部40へ出力する。
深層動き特徴量生成部40は、低レベル動き特徴量生成部38により時系列順に生成された低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する。具体的には、時系列順に生成された低レベル動き特徴量(m,m,…,m)の各々に対して、深層学習アルゴリズムの一つであるCNNを用いて、深層動き特徴量としてCNN動き特徴量を時系列順に生成し、時系列動きパターン学習部42に出力する。また、上記図2下部に示すCNNの複数の層のうち、中間層の出力(FC layer)、あるいは最終層の出力(Softmax layer)をCNN画像特徴量としてもよい。
時系列動きパターン学習部42は、深層動き特徴量生成部40により時系列順に生成された深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。具体的には、深層動き特徴量生成部40からCNN動き特徴量(m,m,…,m)を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるRNNを用いて、映像全体の時系列における動きの関連性を表現した動きパターン特徴量を学習し、パターン統合部44へ出力する。図4にRNNを用いた動きパターン特徴量の生成例を示す。RNNにより、p ,p ,…,p の動きパターン特徴量を生成する。p は各optical flowの動きを特徴付けるパターンらしさを表す確率である。t時刻のRNN出力の推測値p は、t−1時刻のRNNの出力と、t時刻のCNN動き特徴量とを用いて求められる。このような時系列の動きの関連性を考慮した動きパターン特徴量によって、映像のラベルを識別することにより、非特許文献1に記載されている従来技術のように、単独のCNN動き特徴量を用いて映像のラベルを識別するよりも、識別精度を高めることができる。なお、図4の例では2層RNNを用いてRNN構造を構築する場合を示しているが、具体的な応用に応じて層の数を変えてもよい。
パターン統合部44は、時系列ビジュアルパターン学習部36により時系列順に学習されたビジュアルパターン特徴量と、時系列動きパターン学習部42により時系列順に学習された動きパターン特徴量とに基づいて、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。
パターン統合部44では、具体的には、まず、N個の映像のそれぞれについて学習された、ビジュアルパターン特徴量と、動きパターン特徴量とを読み込む。次に、N個の映像のi番目の映像についてのビジュアルパターン特徴量(p ,p ,…,p )と、動きパターン特徴量(p ,p ,…,p )とを、一つのベクトルに統合する。例えば、ビジュアルパターン特徴量(p ,p ,…,p )と、時系列動きパターン特徴量(p ,p ,…,p )とを統合した(p ,p )を求めればよい。
下記(1)式に基づいて、Wの最適化を行うことにより、α1、α2、W、及びWを求める。
ここで、lはi番目の映像について予め与えられたラベル、f()はmapping関数を表している。|| ||はノルムの演算、φ(W)はFrobeniusノルムである。Wは、ビジュアルパターン特徴量と、動きパターン特徴量との共起性を表した重みを表し、映像のシーンを識別するためのモデルとして学習される。また、Wは誤差に関する値を表しており、W=[W ,W ]∈R(P*D)である。W はビジュアルパターン特徴量の誤差に関する値、W は動きパターン特徴量の誤差に関する値を表す。また、Dはp の次元数とp の次元数の和、Pは統合層の数である。
そして、映像の各々について最適化されたW、α、α、及びWを統合モデルとして蓄積部28に格納する。
上記のような最適化を行うことにより、時系列ビジュアルパターン特徴量と時系列動きパターン特徴量との関連性を取り入れられるため、本発明の実施の形態に係る手法で学習した統合モデルを用いることで、上記非特許文献1の従来技術の単純な統合手法で得たパターンを用いるよりも、精度よく識別することができる。
また、映像のシーンの識別では、まず、上記の深層画像特徴量生成部34、及び深層動き特徴量生成部50と同様の手法で、識別対象の映像から深層画像特徴量及び深層動き特徴量を抽出し、抽出した深層画像特徴量からビジュアルパターン特徴量、深層動き特徴量から動きパターン特徴量とを得る。そして、ビジュアルパターン特徴量、及び動きパターン特徴量に対して、上記パターン統合部44で学習したモデルを適用して、映像のシーンを識別すればよい。
<本発明の実施の形態に係る映像パターン学習装置の作用>
次に、本発明の実施の形態に係る映像パターン学習装置100の作用について説明する。入力部10においてN個の映像からなる映像群を受け付けて蓄積部28に格納すると、映像パターン学習装置100は、図5に示す映像パターン学習処理ルーチンを実行する。
まず、ステップS100では、蓄積部28のN個の映像の中から、処理対象とする映像を取得する。
次に、ステップS102では、ステップS100で取得された映像から時系列順にフレーム画像を抽出し、抽出されたフレーム画像をフレーム画像群とする。
ステップS104では、ステップS102で生成されたフレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムのCNNを用いて、深層画像特徴量を時系列順に生成する。
ステップS106では、ステップS104で時系列順に生成されたフレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムのRNNを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。
ステップS108では、ステップS100で取得された映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する。
ステップS110では、ステップS108で時系列順に生成された低レベル動き特徴量の各々について、深層学習アルゴリズムのCNNを用いて、深層動き特徴量を時系列順に生成する。
ステップS112では、ステップS110で時系列順に生成された深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムのRNNを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。
ステップS114では、全ての映像についてステップSの処理を終了したかを判定し、全ての映像について処理を終了していればステップS116へ移行し、全ての映像について処理を終了していなければステップS100に戻って処理を繰り返す。
ステップS116では、ステップS100〜S112の処理で、N個の映像のそれぞれについて学習された、ビジュアルパターン特徴量と、動きパターン特徴量とを読み込む。
ステップS118では、ステップS116で読み込んだ、ビジュアルパターン特徴量と、動きパターン特徴量とに基づいて、上記(1)式に従って、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。
ステップS120では、ステップS118で学習したモデルを蓄積部28に格納し処理を終了する。
以上説明したように、本発明の第1の実施の形態に係る映像パターン学習装置によれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる。
<本発明の第2の実施の形態に係る映像パターン学習装置の構成>
次に、本発明の第2の実施の形態に係る映像パターン学習装置の構成について説明する。図6に示すように、本発明の第2の実施の形態に係る映像パターン学習装置200は、CPUと、RAMと、後述する映像パターン学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この映像パターン学習装置200は、機能的には図6に示すように入力部10と、演算部220とを備えている。
演算部20は、蓄積部28と、映像取得部30と、フレーム画像生成部32と、深層画像特徴量生成部34と、時系列ビジュアルパターン学習部36と、低レベル動き特徴量生成部38と、深層動き特徴量生成部40と、時系列動きパターン学習部42と、深層音声特徴量生成部240と、時系列音声パターン学習部242と、パターン統合部244とを含んで構成されている。
深層音声特徴量生成部240は、映像取得部30により出力された映像の一定区間毎の音声について、深層学習のアルゴリズム。具体的には、映像における一定区間毎の音声の音声スペクトルを解析し、音声スペクトル(a,a,…,a)の各々に対して、深層学習アルゴリズムの一つであるCNNを用いて、深層音声特徴量としてCNN音声特徴量を時系列順に生成し、時系列音声パターン学習部242に出力する。
時系列音声パターン学習部242は、深層音声特徴量生成部240により時系列順に生成された深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する。具体的には、深層音声特徴量生成部240からCNN動き特徴量(a,a,…,a)を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるRNNを用いて、映像全体の時系列における音声の関連性を表現した音声パターン特徴量を学習し、パターン統合部44へ出力する。ここでは、RNNにより、p ,p ,…,p の音声パターン特徴量を生成する。p は各区間の音声を特徴付けるパターンらしさを表す確率である。
パターン統合部244は、時系列ビジュアルパターン学習部36により時系列順に学習されたビジュアルパターン特徴量と、時系列動きパターン学習部42により時系列順に学習された動きパターン特徴量とに基づいて、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。具体的には、上記パターン統合部44と同様の手法によりモデルを学習する。N個の映像のi番目の映像についてのビジュアルパターン特徴量(p ,p ,…,p )と、動きパターン特徴量(p ,p ,…,p )と、音声パターン特徴量(p ,p ,…,p )とを、一つのベクトルに統合した(p ,p ,p )を求める。そして、下記(2)式に基づいて、Wの最適化を行うことにより、α1、α2、W、及びWを求める。
ここで、Wは、ビジュアルパターン特徴量と、動きパターン特徴量と、ビジュアルパターン特徴量とのそれぞれの特徴量の共起性を表した重みを表し、映像のシーンを識別するためのモデルとして学習される。また、Wは誤差に関する値を表しており、W=[W ,W ,W ]∈R(P*D)である。W はビジュアルパターン特徴量の誤差に関する値、W は動きパターン特徴量の誤差に関する値、W は音声パターン特徴量の誤差に関する値を表す。
そして、映像の各々について最適化されたW、α、α、及びWを統合モデルとして蓄積部28に格納する。
なお、本発明の第2の実施の形態に係る映像パターン学習装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第2の実施の形態に係る映像パターン学習装置によれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と、動きパターン特徴量と、音声パターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、深層画像特徴量生成部34と、深層動き特徴量生成部40とにおいて、深層学習アルゴリズムにCNNを用いる場合を例に説明したがこれに限定されるものではなく、他のニューラルネットワークを用いてもよい。
また、時系列ビジュアルパターン学習部36と、時系列動きパターン学習部42とにおいて、時系列データを扱う深層学習アルゴリズムにRNNを用いる場合を例に説明したがこれに限定されるものではなく、他の時系列データを扱うことが可能なニューラルネットワークを用いてもよい。
10 入力部
20、220 演算部
28 蓄積部
30 映像取得部
32 フレーム画像生成部
34 深層画像特徴量生成部
36 時系列ビジュアルパターン学習部
38 低レベル動き特徴量生成部
40 深層動き特徴量生成部
42 時系列動きパターン学習部
44、244 パターン統合部
100、200 映像パターン学習装置
240 深層音声特徴量生成部
242 時系列音声パターン学習部

Claims (8)

  1. 映像のラベルを識別するためのモデルを学習する映像パターン学習装置であって、
    前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、
    前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、
    前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、
    前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、
    前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、
    前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、
    前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、
    を含む映像パターン学習装置。
  2. 前記深層学習アルゴリズムにはCNN(Convolutional Neural Network)を用い、前記時系列データを扱う深層学習アルゴリズムにはRNN(Recurrent neural network)を用いる請求項1に記載の映像パターン学習装置。

  3. 前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、
    前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、
    前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項1又は請求項2に記載の映像パターン学習装置。
  4. 前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項1〜請求項3の何れか1項に記載の映像パターン学習装置。
  5. 映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、
    フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、
    低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、
    深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、
    深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、
    時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、
    時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、
    パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、
    を含む映像パターン学習方法。
  6. 深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、
    時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、
    前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項5に記載の映像パターン学習方法。
  7. 前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項5又は請求項6に記載の映像パターン学習方法。
  8. コンピュータを、請求項1〜請求項4のいずれか1項に記載の映像パターン学習装置の各部として機能させるためのプログラム。
JP2015246266A 2015-12-17 2015-12-17 映像パターン学習装置、方法、及びプログラム Active JP6517681B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015246266A JP6517681B2 (ja) 2015-12-17 2015-12-17 映像パターン学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015246266A JP6517681B2 (ja) 2015-12-17 2015-12-17 映像パターン学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017111660A JP2017111660A (ja) 2017-06-22
JP6517681B2 true JP6517681B2 (ja) 2019-05-22

Family

ID=59079652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015246266A Active JP6517681B2 (ja) 2015-12-17 2015-12-17 映像パターン学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6517681B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214386A (zh) * 2018-09-14 2019-01-15 北京京东金融科技控股有限公司 用于生成图像识别模型的方法和装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210391B1 (en) * 2017-08-07 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos using contour sequences
CN109508584B (zh) * 2017-09-15 2022-12-02 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器
KR101880907B1 (ko) * 2017-09-22 2018-08-16 펜타시큐리티시스템 주식회사 비정상 세션 감지 방법
KR20190055610A (ko) 2017-11-15 2019-05-23 삼성전자주식회사 뉴럴 네트워크 모델들의 공용 연산 그룹을 단일 처리하는 뉴럴 네트워크 시스템, 이를 포함하는 애플리케이션 프로세서 및 뉴럴 네트워크 시스템의 동작방법
KR101984283B1 (ko) * 2017-11-22 2019-05-30 주식회사 제네시스랩 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체
JP2019208197A (ja) * 2017-11-30 2019-12-05 株式会社コンピュータシステム研究所 監視装置、監視プログラム、記憶媒体、および、監視方法
KR102103521B1 (ko) * 2018-01-12 2020-04-28 상명대학교산학협력단 인공지능 심층학습 기반의 영상물 인식 시스템 및 방법
US10304208B1 (en) 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
WO2019157344A1 (en) * 2018-02-12 2019-08-15 Avodah Labs, Inc. Real-time gesture recognition method and apparatus
US10489639B2 (en) 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
US10346198B1 (en) 2018-02-12 2019-07-09 Avodah Labs, Inc. Data processing architecture for improved data flow
CN109147890B (zh) * 2018-05-14 2020-04-24 平安科技(深圳)有限公司 一种医学报告的生成方法及设备
US10775977B2 (en) * 2019-01-25 2020-09-15 Google Llc Image display with selective depiction of motion
USD912139S1 (en) 2019-01-28 2021-03-02 Avodah, Inc. Integrated dual display sensor
JP7243821B2 (ja) * 2019-05-29 2023-03-22 日本電気株式会社 学習装置、制御方法及びプログラム
JP7229954B2 (ja) * 2020-01-24 2023-02-28 Kddi株式会社 オブジェクト追跡装置及びオブジェクト追跡方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048206A (ja) * 1998-05-26 2000-02-18 Sony Corp 画像処理装置および方法、並びに媒体
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214386A (zh) * 2018-09-14 2019-01-15 北京京东金融科技控股有限公司 用于生成图像识别模型的方法和装置

Also Published As

Publication number Publication date
JP2017111660A (ja) 2017-06-22

Similar Documents

Publication Publication Date Title
JP6517681B2 (ja) 映像パターン学習装置、方法、及びプログラム
US10089556B1 (en) Self-attention deep neural network for action recognition in surveillance videos
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110532996B (zh) 视频分类的方法、信息处理的方法以及服务器
WO2019174439A1 (zh) 图像识别方法、装置、终端和存储介质
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
US20120014562A1 (en) Efficient method for tracking people
WO2021031817A1 (zh) 情绪识别方法、装置、计算机装置及存储介质
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
US10610109B2 (en) Emotion representative image to derive health rating
CN111079658A (zh) 基于视频的多目标连续行为分析方法、系统、装置
CN111401339B (zh) 识别人脸图像中的人的年龄的方法、装置及电子设备
JP2018005638A (ja) 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
JP2012103859A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN113936175A (zh) 一种识别视频中的事件的方法及系统
CN113657200A (zh) 一种基于掩码r-cnn的视频行为动作识别方法及系统
CN108596068B (zh) 一种动作识别的方法和装置
CN116957051A (zh) 一种优化特征提取的遥感图像弱监督目标检测方法
JP6886120B2 (ja) 信号検索装置、方法、及びプログラム
JP5485044B2 (ja) 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
Zhao et al. Research on human behavior recognition in video based on 3DCCA

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190418

R150 Certificate of patent or registration of utility model

Ref document number: 6517681

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150