JP2009122829A

JP2009122829A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2009122829A
Application number: JP2007294313A
Authority: JP
Inventors: Yoko Komori; 陽子小森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2009-06-04
Also published as: US8055062B2; US20090123062A1

Abstract

【課題】ビデオデータの映像内容を精度よく識別する。
【解決手段】ビデオデータ識別装置７０は、HMMを用いた時系列識別部１１、処理対象のビデオデータから非時系列特徴量を抽出する非時系列特徴量抽出部７１−１乃至７１−Ｍ、およびＮＮを用いたパターン識別部７２から構成される。入力パターン識別部７２は、時系列識別部１１から入力されるＮ個の尤度値と、非時系列特徴量抽出部７１−１乃至７１−Ｍから入力されるＭ個の非時系列特徴量とを基にした（Ｎ＋Ｍ）次元の入力パターンに対応するシーンを識別結果として出力する。本発明は、時系列データを分類する装置に適用できる。
【選択図】図５

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えばテレビジョン番組に代表されるビデオデータの映像内容を識別する場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。

例えばテレビジョン番組のダイジェスト版を自動的に生成したり、ハイライトシーンを自動的に抽出したりするために用いる手段として、その映像内容を識別する方法が提案されている。

テレビジョン番組などの時系列のビデオデータの映像内容を識別する場合、確率モデルの一つであり、時系列データを処理対象とできる隠れマルコフモデル（以下、HMM(Hidden Markov Model)と称する）を用いる方法がある（例えば、非特許文献１参照）。

非特許文献１には、野球中継番組の映像内容を、HMMを用いて識別する方法が記載されている。具体的には、野球中継番組の映像内容（ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど）に対応するHMMを予め学習によって生成しておき、野球中継番組のビデオデータを学習済みの各HMMに供給し、出力される尤度値が最大であるHMMに対応するシーンを、野球中継番組の映像内容として識別するようになされている。

ここで、各HMMは、入力されるビデオデータが対応するシーンであることの尤度値を出力するものである。例えばホームランシーンに対応するHMMは、入力されるビデオデータがホームランシーンであることの尤度値を出力する。

Nguyen Huu Bach、篠田浩一、古井貞、「隠れマルコフモデルを用いた野球放送の自動的インデクシング」、画像の認識・理解シンポジウム（MIRU2005）、２００５年７月

上述したHMMを用いた従来の映像識別では、その映像内容を識別することができる。しかしながら、映像内容を誤って識別してしまうこともあるので、より高い精度で映像内容を識別できる手法の出現が望まれている。

本発明はこのような状況に鑑みてなされたものであり、ビデオデータの映像内容を精度よく識別できるようにするものである。

本発明の一側面である情報処理装置は、時系列入力データをＮ個のクラスに分類する情報処理装置において、前記時系列入力データの時系列特徴量を抽出する時系列特徴量抽出手段と、抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちの任意のクラスに属することの尤度値を算出する前記Ｎ個の算出手段と、算出された前記Ｎ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定する判定手段とを含むことを特徴とする。

前記時系列入力データはビデオデータであり、前記Ｎ個のクラスは、前記ビデオデータの映像内容としての異なるＮ種類のシーンであるようにすることができる。

本発明の一側面である情報処理装置は、前記時系列入力データの非時系列特徴量を抽出する非時系列特徴量抽出手段をさらに含むことができ、前記判定手段は、算出された前記Ｎ個の尤度値と抽出されたＭ個の非時系列特徴量を含む（Ｎ＋Ｍ）次元のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定するようにすることができる。

前記確率モデルは隠れマルコフモデルであり、前記パターン識別部はニューラルネットワークであるようにすることができる。

本発明の一側面である情報処理方法は、時系列入力データをＮ個のクラスに分類する情報処理装置の情報処理方法において、前記時系列入力データの時系列特徴量を抽出し、抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちの任意のクラスに属することの尤度値を算出し、算出された前記Ｎ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定するステップを含むことを特徴とする。

本発明の一側面であるプログラムは、時系列入力データをＮ個のクラスに分類する情報処理装置の制御用のプログラムであって、前記時系列入力データの時系列特徴量を抽出し、抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちの任意のクラスに属することの尤度値を算出し、算出された前記Ｎ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定するステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とする。

本発明の一側面においては、時系列入力データの時系列特徴量が抽出され、抽出された時系列特徴量を予め学習されている確率モデルに適用することにより、時系列入力データがＮ個のクラスのうちの任意のクラスに属することの尤度値が算出される。さらに、算出されたＮ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかが判定される。

本発明の一側面によれば、時系列入力データを精度よく分類することができる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本発明の第１の実施の形態であるビデオデータ識別装置の構成例を示している。このビデオデータ識別装置１０は、時系列に入力されるテレビジョン番組などのビデオデータを処理対称とし、その時系列の映像内容を識別するものであり、時系列識別部１１およびパターン識別部１２から構成される。

以下、野球中継番組のビデオデータを処理対象として、その映像内容（ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど）を識別する場合を例に説明する。

時系列識別部１１は、例えばHMMを用いてビデオデータを識別するものであり、時系列特徴量抽出部２１、および複数のシーン別HMM識別部２２−１乃至２２−Ｎから構成される。

時系列特徴量抽出部２１は、ビデオデータを所定の期間（例えば、数秒単位、数フレーム単位など）に区切り、各期間の時系列特徴量として、動き量、画像ヒストグラム、主成分分析による特徴量、フラクタル特徴量、フレーム間輝度差分特徴量などを抽出する。抽出された時系列特徴量はシーン別HMM識別部２２−１乃至２２−Ｎに供給される。

シーン別HMM識別部２２−１は、ビデオデータの映像内容として想定される１つのシーン（例えば、ピッチングシーン）に対応して予め学習されたもの（後述）であり、時系列特徴量抽出部２１から入力される時系列特徴量が対応するシーン（いまの場合、ピッチングシーン）のものであることの尤度値を算出する。

シーン別HMM識別部２２−２は、ビデオデータの映像内容として想定される１つのシーン（例えば、ホームランシーン）に対応して予め学習されたもの（後述）であり、時系列特徴量抽出部２１から入力される時系列特徴量が対応するシーン（いまの場合、ホームランシーン）のものであることの尤度値を算出する。

同様に、シーン別HMM識別部２２−３乃至２２−Ｎも、ビデオデータの映像内容として想定されるそれぞれ異なる１つのシーンに対応して予め学習されたものであり、時系列特徴量抽出部２１から入力される時系列特徴量が対応するシーンのものであることの尤度値を算出する。

したがって、時系列識別部１１からは、入力されるビデオデータの映像内容が、想定されるＮ種類のシーンであるかを示す情報として、Ｎ種類の尤度値が出力されることになる。

パターン識別部１２は、例えば、ニューラルネットワーク（以下、ＮＮと称する）を用いてパターン識別を実行するものであり、入力パターン生成部３１、およびシーン判定部３２から構成される。

入力パターン生成部３１は、時系列識別部１１のシーン別HMM識別部２２−１乃至２２−Ｎから入力されるＮ個の尤度値を基にしてＮ次元の入力パターンを生成し、シーン判定部３２に出力する。予め学習されているシーン判定部３２は、入力パターン生成部３１から入力されるＮ次元の入力パターンのＮ種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。なお、シーン判定部３２の学習は、学習用ビデオデータ（時系列のシーンが人によって識別されているもの）を用い、例えばバックプロパゲーションアルゴリズムによって行うことができる。

次に、図２は、学習用ビデオデータを用いて図１のシーン別HMM識別部２２−１乃至２２−Ｎを学習させる時系列学習装置４０の構成例を示している。

この時系列学習装置４０は、時系列特徴量抽出部４１、操作部４２、セレクタ４３、およびシーン別HMM学習部４４−１乃至４４−Ｎから構成される。

時系列特徴量抽出部４１は、図１の時系列特徴量抽出部２１と同様、学習用ビデオデータを所定の期間（例えば、数秒単位、数フレーム単位など）に区切り、各期間の時系列特徴量として、動き量、画像ヒストグラム、主成分分析による特徴量、フラクタル特徴量、フレーム間輝度差分特徴量などを抽出してセレクタ４３に出力する。

操作部４２は、例えば学習用ビデオデータのシーンを識別するオペレータ（人）によって操作され、オペレータによるシーンの識別結果をセレクタ４３に通知する。セレクタ４３は、操作部４２からのオペレータによるシーンの識別結果に対応して、時系列特徴量抽出部４１から供給される時系列特徴量を、シーン別HMM学習部４４−１乃至４４−Ｎのいずれかに供給する。なお、シーン別HMM学習部４４−１乃至４４−Ｎは、それぞれ異なる映像内容（ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど）のうちの１つに対応付けられているものとする。

例えば、シーン別HMM学習部４４−１がピッチングシーン、シーン別HMM学習部４４−２がホームランシーン、シーン別HMM学習部４４−３が内野ゴロシーンに対応付けられているとする。そして、学習用ビデオデータを見たオペレータによってその映像内容がホームランシーンであると識別されて操作部４２が操作された場合、セレクタ４３は、そのシーンの時系列特徴量をシーン別HMM学習部４４−２に供給する。また、学習用ビデオデータを見たオペレータによってその映像内容が内野ゴロシーンであると識別されて操作部４２が操作された場合、セレクタ４３は、そのシーンの時系列特徴量をシーン別HMM学習部４４−３に供給する。

シーン別HMM学習部４４−１乃至４４−Ｎは、セレクタ４３を介して供給される時系列特徴量に基づいてHMMを学習する。この学習には、Baum-Welchアルゴリズムを用いることができる。そして、シーン別HMM学習部４４−１乃至４４−Ｎによる識別が所望の精度に達するまで異なる複数の学習用ビデオデータを用いて学習を繰り返し、所望の精度に達した場合、シーン別HMM学習部４４−１乃至４４−Ｎの最終的なHMMを、図１の時系列識別部１１のシーン別HMM認識部２２−１乃至２２−Ｎに適用される。

次に、ビデオデータ識別装置１０がビデオデータのシーンを精度よく識別できるようになるための事前の学習処理について、図３のフローチャートを参照して説明する。

初めにステップＳ１乃至３の処理により、時系列識別部１１のシーン別HMM識別部２２−１乃至２２−Ｎが学習される。

具体的には、ステップＳ１において、時系列学習装置４０の時系列特徴量抽出部４１は、学習用ビデオデータを所定の期間に区切り、各期間の時系列特徴量を抽出して、セレクタ４３に出力する。

ステップＳ２において、セレクタ４３は、操作部４２からのオペレータによるシーンの識別結果に対応して、時系列特徴量抽出部４１から供給された時系列特徴量を、シーン別HMM学習部４４−１乃至４４−Ｎのいずれかに供給する。シーン別HMM学習部４４−１乃至４４−Ｎは、セレクタ４３を介して供給される時系列特徴量に基づいてHMMを学習する。

ステップＳ３において、シーン別HMM学習部４４−１乃至４４−Ｎによる識別が所望の精度に達したか否かが判定され、所望の精度に達するまで、ステップＳ１乃至Ｓ３の処理が繰り返される。そして、ステップＳ３において、シーン別HMM学習部４４−１乃至４４−Ｎによる識別が所望の精度に達した場合、シーン別HMM学習部４４−１乃至４４−Ｎの最終的なHMMが、図１の時系列識別部１１のシーン別HMM認識部２２−１乃至２２−Ｎに適用される。処理はステップＳ４に進められる。

次にステップＳ４乃至８の処理により、パターン識別部１２のシーン判定部３２が学習される。

具体的には、ステップＳ４において、学習用ビデオデータから時系列特徴量が抽出されて、上述したステップＳ１乃至Ｓ３の処理で学習されたシーン別HMM認識部２２−１乃至２２−Ｎに供給される。

ステップＳ５において、シーン別HMM認識部２２−１乃至２２−Ｎは、供給された時系列特徴量がそれぞれ想定されたシーンに対応するものであることの尤度値を算出して、入力パターン生成部３１に出力する。ステップＳ６において、入力パターン生成部３１は、シーン別HMM識別部２２−１乃至２２−Ｎから入力されたＮ個の尤度値を基にしてＮ次元の入力パターンを生成してシーン判定部３２に出力する。

ステップＳ７において、シーン判定部３２は、入力パターン生成部３１から入力されたＮ次元の入力パターンと、学習用ビデオデータを見たオペレータによるシーン識別の結果とに基づいてＮＮを学習する。

ステップＳ８において、シーン判定部３２による識別が所望の精度に達したか否かが判定され、所望の精度に達するまで、ステップＳ４乃至Ｓ８の処理が繰り返される。そして、ステップＳ８において、シーン判定部３２による識別が所望の精度に達した場合、当該学習処理は終了される。

次に、以上説明した学習処理によって学習されたシーン別HMM識別部２２−１乃至２２−Ｎとシーン判別部３２を含むビデオデータ識別装置１０による、ビデオデータのシーン識別処理について、図４のフローチャートを参照して説明する。

ステップＳ１１において、時系列識別部１１の時系列特徴量抽出部２１は、処理対象のビデオデータを所定の期間に区切り、各期間の時系列特徴量を抽出する。ステップＳ１２において、時系列特徴量抽出部２１は、抽出した時系列特徴量をシーン別HMM識別部２２−１乃至２２−Ｎに供給する。シーン別HMM識別部２２−１乃至２２−Ｎは、供給された時系列特徴量が、対応するシーン（ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど）のものであることの尤度値を算出する。算出された尤度値は、パターン識別部１２の入力パターン生成部３１に供給される。

ステップＳ１３において、入力パターン生成部３１は、時系列識別部１１のシーン別HMM識別部２２−１乃至２２−Ｎから入力されるＮ個の尤度値を基にしてＮ次元の入力パターンを生成し、シーン判定部３２に出力する。

ステップＳ１４において、シーン判定部３２は、入力パターン生成部３１から入力されたＮ次元の入力パターンのＮ種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。

以上で、ビデオデータ識別装置１０によるシーン識別処理の説明を終了する。以上説明したように、ビデオデータ識別装置１０によれば、ビデオデータのシーンを、HMMを用いて識別するのではなく、複数のHMMから出力されるＮ個の尤度値のパターンを用いたパターン判定によって識別するので、HMMだけを用いて識別する場合に比較して誤識別を減少させて、識別精度の向上が期待できる。

次に、図５は、本発明の第２の実施の形態であるビデオデータ識別装置の構成例を示している。このビデオデータ識別装置７０は、図１のビデオデータ識別装置１０と同様の時系列識別部１１、処理対象のビデオデータから非時系列特徴量を抽出する非時系列特徴量抽出部７１−１乃至７１−Ｍ、およびパターン識別部７２から構成される。

非時系列特徴量抽出部７１−１乃至７１−Ｍは、処理対象のビデオデータを所定の期間（例えば、数秒単位、数フレーム単位など）に区切り、各期間の非時系列特徴量として、代表的な画像パターン、代表色、画面上の代表的な物体の有無情報などを抽出してパターン識別部７２に出力する。

パターン識別部７２は、例えば、ＮＮを用いてパターン識別を実行するものであり、入力パターン生成部８１、およびシーン判定部８２から構成される。

入力パターン生成部８１は、時系列識別部１１のシーン別HMM識別部２２−１乃至２２−Ｎから入力されるＮ個の尤度値と、非時系列特徴量抽出部７１−１乃至７１−Ｍから入力されるＭ個の非時系列特徴量とを基にして（Ｎ＋Ｍ）次元の入力パターンを生成し、シーン判定部８２に出力する。予め学習されているシーン判定部８２は、入力パターン生成部８１から入力される（Ｎ＋Ｍ）次元の入力パターンのＮ種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。なお、シーン判定部８２の学習は、学習用ビデオデータ（時系列のシーンが人によって識別されているもの）を用い、例えばバックプロパゲーションアルゴリズムによって行うことができる。

次に、ビデオデータ識別装置７０がビデオデータのシーンを精度よく識別できるようになるための事前の学習処理について、図６のフローチャートを参照して説明する。

初めに、上述した図６のステップＳ１乃至３の処理と同様のステップＳ３１乃至３３の処理により、時系列識別部１１のシーン別HMM識別部２２−１乃至２２−Ｎが学習される。

次にステップＳ３４乃至３９の処理により、パターン識別部７２のシーン判定部８２が学習される。

具体的には、ステップＳ３４において、学習用ビデオデータから時系列特徴量が抽出されて、上述したステップＳ３１乃至Ｓ３３の処理で学習されたシーン別HMM認識部２２−１乃至２２−Ｎに供給される。

ステップＳ３５において、シーン別HMM認識部２２−１乃至２２−Ｎは、供給された時系列特徴量がそれぞれ想定されたシーンに対応するものであることの尤度値を算出して、パターン識別部７２の入力パターン生成部８１に出力する。

ステップＳ３６において、非時系列特徴量抽出部７１−１乃至７１−Ｍは、学習用ビデオデータを所定の期間に区切り、各期間の非時系列特徴量を抽出してパターン識別部７２の入力パターン生成部８１に出力する。

ステップＳ３７において、入力パターン生成部８１は、シーン別HMM識別部２２−１乃至２２−Ｎから入力されたＮ個の尤度値と、非時系列特徴量抽出部７１−１乃至７１−Ｍから入力されたＭ個の非時系列特徴量を基にして（Ｎ＋Ｍ）次元の入力パターンを生成してシーン判定部８２に出力する。

ステップＳ３８において、シーン判定部８２は、入力パターン生成部８１から入力された（Ｎ＋Ｍ）次元の入力パターンと、学習用ビデオデータを見たオペレータによるシーン識別の結果とに基づいてＮＮを学習する。

ステップＳ３９において、シーン判定部８２による識別が所望の精度に達したか否かが判定され、所望の精度に達するまで、ステップＳ３４乃至Ｓ３９の処理が繰り返される。そして、ステップＳ３９において、シーン判定部８２による識別が所望の精度に達した場合、当該学習処理は終了される。

次に、以上説明した学習処理によって学習されたシーン別HMM識別部２２−１乃至２２−Ｎとシーン判別部８２を含むビデオデータ識別装置７０による、ビデオデータのシーン識別処理について、図７のフローチャートを参照して説明する。

ステップＳ５１において、時系列識別部１１の時系列特徴量抽出部２１は、処理対象のビデオデータを所定の期間に区切り、各期間の時系列特徴量を抽出する。ステップＳ５２において、時系列特徴量抽出部２１は、抽出した時系列特徴量をシーン別HMM識別部２２−１乃至２２−Ｎに供給する。シーン別HMM識別部２２−１乃至２２−Ｎは、供給された時系列特徴量が、対応するシーン（ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど）のものであることの尤度値を算出する。算出された尤度値は、パターン識別部７２の入力パターン生成部８１に供給される。

ステップＳ５３において、非時系列特徴量抽出部７１−１乃至７１−Ｍは、処理対象のビデオデータを所定の期間に区切り、各期間の非時系列特徴量を抽出してパターン識別部７２の入力パターン生成部８１に出力する。

ステップＳ５４において、入力パターン生成部８１は、シーン別HMM識別部２２−１乃至２２−Ｎから入力されたＮ個の尤度値と、非時系列特徴量抽出部７１−１乃至７１−Ｍから入力されたＭ個の非時系列特徴量を基にして（Ｎ＋Ｍ）次元の入力パターンを生成してシーン判定部８２に出力する。

ステップＳ５５において、シーン判定部８２は、入力パターン生成部８１から入力された（Ｎ＋Ｍ）次元の入力パターンのＮ種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。

以上で、ビデオデータ識別装置７０によるシーン識別処理の説明を終了する。以上説明したように、ビデオデータ識別装置１０によれば、ビデオデータのシーンを、HMMを用いて識別するのではなく、複数のHMMから出力されるＮ個の尤度値とＭ個の非時系列特徴量とのパターンを用いたパターン判定によって識別するので、HMMだけを用いて識別する場合に比較して誤識別を減少させて、識別精度の向上が期待できる。また、非時系列特徴量を用いたシーン識別が可能となる。

なお、本実施の形態においては、時系列識別部１１にHMMを用いたが、HMM以外の確率モデルを用いるようにしてもよい。また、パターン識別部１２および７２にはＮＮを用いたが、ＮＮ以外のパターン識別アルゴリズムを用いるようにしてもよい。

また、本発明は、ビデオデータのシーン識別のみならず、任意の種類の時系列データを分類する場合に適用することができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。

図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用したビデオデータ識別装置の第１の構成例を示すブロック図である。図１のシーン別HMM識別部を学習させる時系列学習装置の構成例を示すブロック図である。図１のビデオデータ識別装置に対応する学習処理を説明するフローチャートである。図１のビデオデータ識別装置によるシーン識別処理を説明するフローチャートである。本発明を適用したビデオデータ識別装置の第２の構成例を示すブロック図である。図５のビデオデータ識別装置に対応する学習処理を説明するフローチャートである。図５のビデオデータ識別装置によるシーン識別処理を説明するフローチャートである。汎用のコンピュータの構成例を示すブロックである。

符号の説明

１０ビデオデータ識別装置，１１時系列識別部，１２パターン識別部，２１時系列特徴量抽出部，２２シーン別HMM識別部，３１入力パターン生成部，３２シーン判定部，４０時系列学習装置，４１時系列特徴量抽出部，４２操作部，４３セレクタ，４４シーン別HMM学習部，７０ビデオデータ識別装置，７１時系列識別部，７２パターン識別部，８１入力パターン生成部，８２シーン判定部，１００コンピュータ，１０１ CPU，１１１リムーバブルメディア

Claims

時系列入力データをＮ個のクラスに分類する情報処理装置において、
前記時系列入力データの時系列特徴量を抽出する時系列特徴量抽出手段と、
抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちの任意のクラスに属することの尤度値を算出する前記Ｎ個の算出手段と、
算出された前記Ｎ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定する判定手段と
を含むことを特徴とする情報処理装置。
前記時系列入力データはビデオデータであり、
前記Ｎ個のクラスは、前記ビデオデータの映像内容としての異なるＮ種類のシーンである
ことを特徴とする請求項１に記載の情報処理装置。
前記時系列入力データの非時系列特徴量を抽出する非時系列特徴量抽出手段をさらに含み、
前記判定手段は、算出された前記Ｎ個の尤度値と抽出されたＭ個の非時系列特徴量を含む（Ｎ＋Ｍ）次元のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定する
ことを特徴とする請求項１に記載の情報処理装置。
前記確率モデルは隠れマルコフモデルであり、
前記パターン識別部はニューラルネットワークである
ことを特徴とする請求項１に記載の情報処理装置。
時系列入力データをＮ個のクラスに分類する情報処理装置の情報処理方法において、
前記時系列入力データの時系列特徴量を抽出し、
抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちの任意のクラスに属することの尤度値を算出し、
算出された前記Ｎ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定する
ステップを含むことを特徴とする情報処理方法。
時系列入力データをＮ個のクラスに分類する情報処理装置の制御用のプログラムであって、
前記時系列入力データの時系列特徴量を抽出し、
抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちの任意のクラスに属することの尤度値を算出し、
算出された前記Ｎ個の尤度値を含むＮ次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記Ｎ個のクラスのうちのいずれのクラスに属するかを判定する
ステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とするプログラム。