JP6517681B2

JP6517681B2 - 映像パターン学習装置、方法、及びプログラム

Info

Publication number: JP6517681B2
Application number: JP2015246266A
Authority: JP
Inventors: 泳青孫; 数藤　恭子; 恭子数藤; 杵渕　哲也; 哲也杵渕
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2019-05-22
Anticipated expiration: 2035-12-17
Also published as: JP2017111660A

Description

本発明は、映像パターン学習装置、方法、及びプログラムに係り、特に、映像のラベルを認識するモデルを学習する映像パターン学習装置、方法、及びプログラムに関する。

映像のシーン認識やイベント検出など、映像シーン解析技術は幅広く行われている。一般の処理流れとしては、まず、映像から被写体（物体や人物）の変化や状態を表現する画像特徴量や動き特徴量、音声特徴量などを抽出する。そして機械学習手法（ＳＶＭやＤｅｅｐＬｅａｒｎｉｎｇなど）を用いて、それらの特徴量に対して識別を行う。識別結果に基づいて映像シーン認識やイベント検出を実現する。たとえば、従来の映像イベント検出方法として次のような方法がある。

まず映像の連続フレーム画像から、時系列で一定の時間間隔でフレーム画像群を抽出する。また、時系列で一定の時間間隔においてｏｐｔｉｃａｌｆｌｏｗを用いて、フレーム画像間の動き追跡を行って、その追跡を表したｓｔａｃｋｅｄｏｐｔｉｃａｌｆｌｏｗという動き特徴量を抽出する。そして、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、画像特徴量や動き特徴量に対してそれぞれの識別を行う。最後に、それらの識別結果を足し算で統合することにより、映像シーンの認識結果となる。

Karen Simonyan, Andrew Zisserman ,"Two-Stream Convolutional Networks for Action Recognition in Videos",in NIPS,2014

しがしながら、上記の非特許文献１に示すような映像シーン認識方法は、機械学習手法（CNNなど）に基づいて識別を行った際に、フレーム画像毎の画像特徴量や短時間間の動き特徴量を用いられるため、映像の時系列で前後画像内容や動きの関連性を考慮しないため、従来の映像シーン認識手法は十分に映像の被写体の変化や追跡を正確に捉えることが困難である。また、映像の特徴として、画像や動き、音声、テロップなどの情報間に関連性が持つため、従来の映像シーン認識手法のような単純な統合処理は映像のさまざまな種類の特徴量の関連性に対応関係が不明確となり、このような統合処理を用いた映像のシーン認識とイベント検出の精度が低くなる問題がある。

本発明は、上記問題点を解決するために成されたものであり、映像のシーンを精度よく認識できるモデルを学習することができる映像パターン学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る映像パターン学習装置は映像のラベルを識別するためのモデルを学習する映像パターン学習装置であって、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、を含んで構成されている。

また、第１の発明に係る映像パターン学習装置において、前記深層学習アルゴリズムにはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用い、前記時系列データを扱う深層学習の手法にはＲＮＮ（Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）を用いるようにしてもよい。

また、第１の発明に係る映像パターン学習装置において、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

また、第１の発明に係る映像パターン学習装置において、前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を１つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

第２の発明に係る映像パターン学習方法は、映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、を含んで実行することを特徴とする。

また、第２の発明に係る映像パターン学習方法において、深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

また、第２の発明に係る映像パターン学習方法において、前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を１つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

第３の発明に係るプログラムは、コンピュータを、上記第１の発明に係る映像パターン学習装置の各部として機能させるためのプログラムである。

本発明の映像パターン学習装置、方法、及びプログラムによれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる、という効果が得られる。

本発明の第１の実施の形態に係る映像パターン学習装置の構成を示すブロック図である。ＣＮＮの各層を表した一例を示す図である。ＲＮＮを用いたビジュアルパターン特徴量の生成例を示す図である。ＲＮＮを用いた動きパターン特徴量の生成例を示す図である。本発明の第１の実施の形態に係る映像パターン学習装置における映像パターン学習処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る映像パターン学習装置の構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

映像イベント検出やシーン認識、特に人間の行動認識に対して、映像全体の時系列に渡って、人や主要な被写体の状態や動きの時系列の連続性と、映像のさまざまな種類の特徴量の関連性を取り入れる手法は有効と考えられる。そこで、時系列のビジュアルパターンと、動きパターンとの関連性を考慮し、それぞれのパターンを統合したパターンモデルを学習する。

＜本発明の第１の実施の形態に係る映像パターン学習装置の構成＞

次に、本発明の第１の実施の形態に係る映像パターン学習装置の構成について説明する。図１に示すように、本発明の第１の実施の形態に係る映像パターン学習装置１００は、ＣＰＵと、ＲＡＭと、後述する映像パターン学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この映像パターン学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、Ｎ個の映像からなる映像群を受け付け、蓄積部２８に格納する。

演算部２０は、蓄積部２８と、映像取得部３０と、フレーム画像生成部３２と、深層画像特徴量生成部３４と、時系列ビジュアルパターン学習部３６と、低レベル動き特徴量生成部３８と、深層動き特徴量生成部４０と、時系列動きパターン学習部４２と、パターン統合部４４とを含んで構成されている。

蓄積部２８には、入力部１０で受け付けたＮ個の映像からなる映像群が格納されている。また、蓄積部２８には、パターン統合部４４で学習されたモデルが格納される。

映像取得部３０は、蓄積部２８に処理指示を出力して、格納された映像を取得し、取得した映像を、時系列順に、フレーム画像生成部３２、及び低レベル動き特徴量生成部３８のそれぞれに出力する。

フレーム画像生成部３２は、映像取得部３０により出力された映像から時系列順にフレーム画像を抽出し、抽出されたフレーム画像をフレーム画像群とする。例えば、処理対象の映像取得部３０から受け取った映像において、一定の時間間隔（例えば、１秒毎）にフレーム画像（ｆ_１，ｆ_２，…，ｆ_ｔ）を抽出し、抽出したフレーム画像群を深層画像特徴量生成部３４へ出力する。

深層画像特徴量生成部３４は、フレーム画像生成部３２により生成されたフレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する。具体的には、フレーム画像生成部３２からフレーム画像群を受け取ると、フレーム画像（ｆ_１，ｆ_２，…，ｆ_ｔ）の各々について、上記非特許文献１に記載されている深層学習のアルゴリズムの一つであるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、フレーム画像毎の深層画像特徴量としてＣＮＮ画像特徴量を時系列順に生成し、時系列ビジュアルパターン学習部３６に出力する。図２にＣＮＮの各層を表した一例を示す。また、図２上部に示すＣＮＮの複数の層のうち、中間層の出力（ＦＣｌａｙｅｒ）、あるいは最終層の出力（Ｓｏｆｔｍａｘｌａｙｅｒ）をＣＮＮ画像特徴量としてもよい。

時系列ビジュアルパターン学習部３６は、深層画像特徴量生成部３４で時系列順に生成されたフレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。具体的には、深層画像特徴量生成部３４からフレーム画像毎のＣＮＮ画像特徴量を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるＲＮＮ（Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）を用いて、映像全体の時系列におけるビジュアル内容（画像特徴）の関連性を表現したビジュアルパターン特徴量を学習し、パターン統合部４４へ出力する。ＲＮＮは、例えば、非特許文献２に記載されているＢＰＰＴを用いて実装すればよい。

非特許文献２：A tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the "echo state network" approach, Herbert Jaeger, Institute for Autonomous Intelligent Systems (AIS)

図３にＲＮＮを用いたビジュアルパターン特徴量の生成例を示す。ＲＮＮにより、ｐ_１ ^ｆ，ｐ_２ ^ｆ，…ｐ_ｔ ^ｆのビジュアルパターン特徴量を生成する。ｐ_ｔ ^ｆは各フレーム画像の画像特徴を特徴付けるパターンらしさを表す確率である。このような時系列のビジュアル内容の関連性を考慮したビジュアルパターン特徴量によって、映像のラベルを識別することにより、非特許文献１に記載されている従来技術のように、単独のフレーム画像のＣＮＮ画像特徴量を用いて映像のラベルを識別するよりも、識別精度を高めることができる。なお、図３の例では２層ＲＮＮを用いてＲＮＮ構造を構築する場合を示しているが、具体的な応用に応じて層の数を変えてもよい。

低レベル動き特徴量生成部３８は、映像取得部３０により出力された映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する。具体的には、映像取得部３０から受け取った映像において、時系列順に抽出した連続フレームの画像ペア（ｔ，ｔ＋１）からｏｐｔｉｃａｌｆｌｏｗを算出し、一定の時間間隔（例えば、２秒）においてｏｐｔｉｃａｌｆｌｏｗを用いて動き追跡を行って、上記非特許文献１と同様に、追跡結果を表すｓｔａｃｋｅｄｏｐｔｉｃａｌｆｌｏｗという特徴量を、映像の低レベル動き特徴量として生成する。生成された低レベル動き特徴量を深層動き特徴量生成部４０へ出力する。

深層動き特徴量生成部４０は、低レベル動き特徴量生成部３８により時系列順に生成された低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する。具体的には、時系列順に生成された低レベル動き特徴量（ｍ_１，ｍ_２，…，ｍ_ｔ）の各々に対して、深層学習アルゴリズムの一つであるＣＮＮを用いて、深層動き特徴量としてＣＮＮ動き特徴量を時系列順に生成し、時系列動きパターン学習部４２に出力する。また、上記図２下部に示すＣＮＮの複数の層のうち、中間層の出力（ＦＣｌａｙｅｒ）、あるいは最終層の出力（Ｓｏｆｔｍａｘｌａｙｅｒ）をＣＮＮ画像特徴量としてもよい。

時系列動きパターン学習部４２は、深層動き特徴量生成部４０により時系列順に生成された深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。具体的には、深層動き特徴量生成部４０からＣＮＮ動き特徴量（ｍ_１，ｍ_２，…，ｍ_ｔ）を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるＲＮＮを用いて、映像全体の時系列における動きの関連性を表現した動きパターン特徴量を学習し、パターン統合部４４へ出力する。図４にＲＮＮを用いた動きパターン特徴量の生成例を示す。ＲＮＮにより、ｐ_１ ^ｍ，ｐ_２ ^ｍ，…，ｐ_ｔ ^ｍの動きパターン特徴量を生成する。ｐ_ｔ ^ｍは各ｏｐｔｉｃａｌｆｌｏｗの動きを特徴付けるパターンらしさを表す確率である。ｔ時刻のＲＮＮ出力の推測値ｐ_ｔ ^ｍは、ｔ−１時刻のＲＮＮの出力と、ｔ時刻のＣＮＮ動き特徴量とを用いて求められる。このような時系列の動きの関連性を考慮した動きパターン特徴量によって、映像のラベルを識別することにより、非特許文献１に記載されている従来技術のように、単独のＣＮＮ動き特徴量を用いて映像のラベルを識別するよりも、識別精度を高めることができる。なお、図４の例では２層ＲＮＮを用いてＲＮＮ構造を構築する場合を示しているが、具体的な応用に応じて層の数を変えてもよい。

パターン統合部４４は、時系列ビジュアルパターン学習部３６により時系列順に学習されたビジュアルパターン特徴量と、時系列動きパターン学習部４２により時系列順に学習された動きパターン特徴量とに基づいて、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。

パターン統合部４４では、具体的には、まず、Ｎ個の映像のそれぞれについて学習された、ビジュアルパターン特徴量と、動きパターン特徴量とを読み込む。次に、Ｎ個の映像のｉ番目の映像についてのビジュアルパターン特徴量（ｐ_１ ^ｆ，ｐ_２ ^ｆ，…，ｐ_ｔ ^ｆ）と、動きパターン特徴量（ｐ_１ ^ｍ，ｐ_２ ^ｍ，…，ｐ_ｔ ^ｍ）とを、一つのベクトルに統合する。例えば、ビジュアルパターン特徴量（ｐ_１ ^ｆ，ｐ_２ ^ｆ，…，ｐ_ｔ ^ｆ）と、時系列動きパターン特徴量（ｐ_１ ^ｍ，ｐ_２ ^ｍ，…，ｐ_ｔ ^ｍ）とを統合した（ｐ_ｉ ^ｆ，ｐ_ｉ ^ｍ）を求めればよい。

下記（１）式に基づいて、Ｗの最適化を行うことにより、α₁、α₂、Ｗ、及びＷ^Ｅを求める。

ここで、ｌ_ｉはｉ番目の映像について予め与えられたラベル、ｆ（）はｍａｐｐｉｎｇ関数を表している。|| ||はノルムの演算、φ（Ｗ）はＦｒｏｂｅｎｉｕｓノルムである。Ｗは、ビジュアルパターン特徴量と、動きパターン特徴量との共起性を表した重みを表し、映像のシーンを識別するためのモデルとして学習される。また、Ｗ^Ｅは誤差に関する値を表しており、Ｗ^Ｅ＝［Ｗ_ｆ ^Ｅ，Ｗ_ｍ ^Ｅ］∈Ｒ^{（Ｐ＊Ｄ）}である。Ｗ_ｆ ^Ｅはビジュアルパターン特徴量の誤差に関する値、Ｗ_ｍ ^Ｅは動きパターン特徴量の誤差に関する値を表す。また、Ｄはｐ_ｔ ^ｆの次元数とｐ_ｔ ^ｍの次元数の和、Ｐは統合層の数である。

そして、映像の各々について最適化されたＷ^Ｅ、α_１、α_２、及びＷを統合モデルとして蓄積部２８に格納する。

上記のような最適化を行うことにより、時系列ビジュアルパターン特徴量と時系列動きパターン特徴量との関連性を取り入れられるため、本発明の実施の形態に係る手法で学習した統合モデルを用いることで、上記非特許文献１の従来技術の単純な統合手法で得たパターンを用いるよりも、精度よく識別することができる。

また、映像のシーンの識別では、まず、上記の深層画像特徴量生成部３４、及び深層動き特徴量生成部５０と同様の手法で、識別対象の映像から深層画像特徴量及び深層動き特徴量を抽出し、抽出した深層画像特徴量からビジュアルパターン特徴量、深層動き特徴量から動きパターン特徴量とを得る。そして、ビジュアルパターン特徴量、及び動きパターン特徴量に対して、上記パターン統合部４４で学習したモデルを適用して、映像のシーンを識別すればよい。

＜本発明の実施の形態に係る映像パターン学習装置の作用＞

次に、本発明の実施の形態に係る映像パターン学習装置１００の作用について説明する。入力部１０においてＮ個の映像からなる映像群を受け付けて蓄積部２８に格納すると、映像パターン学習装置１００は、図５に示す映像パターン学習処理ルーチンを実行する。

まず、ステップＳ１００では、蓄積部２８のＮ個の映像の中から、処理対象とする映像を取得する。

次に、ステップＳ１０２では、ステップＳ１００で取得された映像から時系列順にフレーム画像を抽出し、抽出されたフレーム画像をフレーム画像群とする。

ステップＳ１０４では、ステップＳ１０２で生成されたフレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムのＣＮＮを用いて、深層画像特徴量を時系列順に生成する。

ステップＳ１０６では、ステップＳ１０４で時系列順に生成されたフレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムのＲＮＮを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。

ステップＳ１０８では、ステップＳ１００で取得された映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する。

ステップＳ１１０では、ステップＳ１０８で時系列順に生成された低レベル動き特徴量の各々について、深層学習アルゴリズムのＣＮＮを用いて、深層動き特徴量を時系列順に生成する。

ステップＳ１１２では、ステップＳ１１０で時系列順に生成された深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムのＲＮＮを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。

ステップＳ１１４では、全ての映像についてステップＳの処理を終了したかを判定し、全ての映像について処理を終了していればステップＳ１１６へ移行し、全ての映像について処理を終了していなければステップＳ１００に戻って処理を繰り返す。

ステップＳ１１６では、ステップＳ１００〜Ｓ１１２の処理で、Ｎ個の映像のそれぞれについて学習された、ビジュアルパターン特徴量と、動きパターン特徴量とを読み込む。

ステップＳ１１８では、ステップＳ１１６で読み込んだ、ビジュアルパターン特徴量と、動きパターン特徴量とに基づいて、上記（１）式に従って、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。

ステップＳ１２０では、ステップＳ１１８で学習したモデルを蓄積部２８に格納し処理を終了する。

以上説明したように、本発明の第１の実施の形態に係る映像パターン学習装置によれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる。

＜本発明の第２の実施の形態に係る映像パターン学習装置の構成＞

次に、本発明の第２の実施の形態に係る映像パターン学習装置の構成について説明する。図６に示すように、本発明の第２の実施の形態に係る映像パターン学習装置２００は、ＣＰＵと、ＲＡＭと、後述する映像パターン学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この映像パターン学習装置２００は、機能的には図６に示すように入力部１０と、演算部２２０とを備えている。

演算部２０は、蓄積部２８と、映像取得部３０と、フレーム画像生成部３２と、深層画像特徴量生成部３４と、時系列ビジュアルパターン学習部３６と、低レベル動き特徴量生成部３８と、深層動き特徴量生成部４０と、時系列動きパターン学習部４２と、深層音声特徴量生成部２４０と、時系列音声パターン学習部２４２と、パターン統合部２４４とを含んで構成されている。

深層音声特徴量生成部２４０は、映像取得部３０により出力された映像の一定区間毎の音声について、深層学習のアルゴリズム。具体的には、映像における一定区間毎の音声の音声スペクトルを解析し、音声スペクトル（ａ_１，ａ_２，…，ａ_ｔ）の各々に対して、深層学習アルゴリズムの一つであるＣＮＮを用いて、深層音声特徴量としてＣＮＮ音声特徴量を時系列順に生成し、時系列音声パターン学習部２４２に出力する。

時系列音声パターン学習部２４２は、深層音声特徴量生成部２４０により時系列順に生成された深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する。具体的には、深層音声特徴量生成部２４０からＣＮＮ動き特徴量（ａ_１，ａ_２，…，ａ_ｔ）を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるＲＮＮを用いて、映像全体の時系列における音声の関連性を表現した音声パターン特徴量を学習し、パターン統合部４４へ出力する。ここでは、ＲＮＮにより、ｐ_１ ^ａ，ｐ_２ ^ａ，…，ｐ_ｔ ^ａの音声パターン特徴量を生成する。ｐ_ｔ ^ａは各区間の音声を特徴付けるパターンらしさを表す確率である。

パターン統合部２４４は、時系列ビジュアルパターン学習部３６により時系列順に学習されたビジュアルパターン特徴量と、時系列動きパターン学習部４２により時系列順に学習された動きパターン特徴量とに基づいて、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。具体的には、上記パターン統合部４４と同様の手法によりモデルを学習する。Ｎ個の映像のｉ番目の映像についてのビジュアルパターン特徴量（ｐ_１ ^ｆ，ｐ_２ ^ｆ，…，ｐ_ｔ ^ｆ）と、動きパターン特徴量（ｐ_１ ^ｍ，ｐ_２ ^ｍ，…，ｐ_ｔ ^ｍ）と、音声パターン特徴量（ｐ_１ ^ａ，ｐ_２ ^ａ，…，ｐ_ｔ ^ａ）とを、一つのベクトルに統合した（ｐ_ｉ ^ｆ，ｐ_ｉ ^ｍ，ｐ_ｉ ^ａ）を求める。そして、下記（２）式に基づいて、Ｗの最適化を行うことにより、α₁、α₂、Ｗ、及びＷ^Ｅを求める。

ここで、Ｗは、ビジュアルパターン特徴量と、動きパターン特徴量と、ビジュアルパターン特徴量とのそれぞれの特徴量の共起性を表した重みを表し、映像のシーンを識別するためのモデルとして学習される。また、Ｗ^Ｅは誤差に関する値を表しており、Ｗ^Ｅ＝［Ｗ_ｆ ^Ｅ，Ｗ_ｍ ^Ｅ，Ｗ_ａ ^Ｅ］∈Ｒ^{（Ｐ＊Ｄ）}である。Ｗ_ｆ ^Ｅはビジュアルパターン特徴量の誤差に関する値、Ｗ_ｍ ^Ｅは動きパターン特徴量の誤差に関する値、Ｗ_ａ ^Ｅは音声パターン特徴量の誤差に関する値を表す。

なお、本発明の第２の実施の形態に係る映像パターン学習装置２００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第２の実施の形態に係る映像パターン学習装置によれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と、動きパターン特徴量と、音声パターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、深層画像特徴量生成部３４と、深層動き特徴量生成部４０とにおいて、深層学習アルゴリズムにＣＮＮを用いる場合を例に説明したがこれに限定されるものではなく、他のニューラルネットワークを用いてもよい。

また、時系列ビジュアルパターン学習部３６と、時系列動きパターン学習部４２とにおいて、時系列データを扱う深層学習アルゴリズムにＲＮＮを用いる場合を例に説明したがこれに限定されるものではなく、他の時系列データを扱うことが可能なニューラルネットワークを用いてもよい。

１０入力部
２０、２２０演算部
２８蓄積部
３０映像取得部
３２フレーム画像生成部
３４深層画像特徴量生成部
３６時系列ビジュアルパターン学習部
３８低レベル動き特徴量生成部
４０深層動き特徴量生成部
４２時系列動きパターン学習部
４４、２４４パターン統合部
１００、２００映像パターン学習装置
２４０深層音声特徴量生成部
２４２時系列音声パターン学習部

Claims

映像のラベルを識別するためのモデルを学習する映像パターン学習装置であって、
前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、
前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、
前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、
前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、
前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、
前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、
前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、
を含む映像パターン学習装置。
前記深層学習アルゴリズムにはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用い、前記時系列データを扱う深層学習アルゴリズムにはＲＮＮ（Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）を用いる請求項１に記載の映像パターン学習装置。
前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、
前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、
前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項１又は請求項２に記載の映像パターン学習装置。
前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を１つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項１〜請求項３の何れか１項に記載の映像パターン学習装置。
映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、
フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、
低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、
深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、
深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、
時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、
時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、
パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、
を含む映像パターン学習方法。
深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、
時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、
前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項５に記載の映像パターン学習方法。
前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を１つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項５又は請求項６に記載の映像パターン学習方法。
コンピュータを、請求項１〜請求項４のいずれか１項に記載の映像パターン学習装置の各部として機能させるためのプログラム。