JP2009122829A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2009122829A
JP2009122829A JP2007294313A JP2007294313A JP2009122829A JP 2009122829 A JP2009122829 A JP 2009122829A JP 2007294313 A JP2007294313 A JP 2007294313A JP 2007294313 A JP2007294313 A JP 2007294313A JP 2009122829 A JP2009122829 A JP 2009122829A
Authority
JP
Japan
Prior art keywords
time
series
scene
input data
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007294313A
Other languages
English (en)
Inventor
Yoko Komori
陽子 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007294313A priority Critical patent/JP2009122829A/ja
Priority to US12/291,190 priority patent/US8055062B2/en
Publication of JP2009122829A publication Critical patent/JP2009122829A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ビデオデータの映像内容を精度よく識別する。
【解決手段】ビデオデータ識別装置70は、HMMを用いた時系列識別部11、処理対象のビデオデータから非時系列特徴量を抽出する非時系列特徴量抽出部71−1乃至71−M、およびNNを用いたパターン識別部72から構成される。入力パターン識別部72は、時系列識別部11から入力されるN個の尤度値と、非時系列特徴量抽出部71−1乃至71−Mから入力されるM個の非時系列特徴量とを基にした(N+M)次元の入力パターンに対応するシーンを識別結果として出力する。本発明は、時系列データを分類する装置に適用できる。
【選択図】図5

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えばテレビジョン番組に代表されるビデオデータの映像内容を識別する場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。
例えばテレビジョン番組のダイジェスト版を自動的に生成したり、ハイライトシーンを自動的に抽出したりするために用いる手段として、その映像内容を識別する方法が提案されている。
テレビジョン番組などの時系列のビデオデータの映像内容を識別する場合、確率モデルの一つであり、時系列データを処理対象とできる隠れマルコフモデル(以下、HMM(Hidden Markov Model)と称する)を用いる方法がある(例えば、非特許文献1参照)。
非特許文献1には、野球中継番組の映像内容を、HMMを用いて識別する方法が記載されている。具体的には、野球中継番組の映像内容(ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど)に対応するHMMを予め学習によって生成しておき、野球中継番組のビデオデータを学習済みの各HMMに供給し、出力される尤度値が最大であるHMMに対応するシーンを、野球中継番組の映像内容として識別するようになされている。
ここで、各HMMは、入力されるビデオデータが対応するシーンであることの尤度値を出力するものである。例えばホームランシーンに対応するHMMは、入力されるビデオデータがホームランシーンであることの尤度値を出力する。
Nguyen Huu Bach、篠田浩一、古井貞、「隠れマルコフモデルを用いた野球放送の自動的インデクシング」、画像の認識・理解シンポジウム(MIRU2005)、2005年7月
上述したHMMを用いた従来の映像識別では、その映像内容を識別することができる。しかしながら、映像内容を誤って識別してしまうこともあるので、より高い精度で映像内容を識別できる手法の出現が望まれている。
本発明はこのような状況に鑑みてなされたものであり、ビデオデータの映像内容を精度よく識別できるようにするものである。
本発明の一側面である情報処理装置は、時系列入力データをN個のクラスに分類する情報処理装置において、前記時系列入力データの時系列特徴量を抽出する時系列特徴量抽出手段と、抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記N個のクラスのうちの任意のクラスに属することの尤度値を算出する前記N個の算出手段と、算出された前記N個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定する判定手段とを含むことを特徴とする。
前記時系列入力データはビデオデータであり、前記N個のクラスは、前記ビデオデータの映像内容としての異なるN種類のシーンであるようにすることができる。
本発明の一側面である情報処理装置は、前記時系列入力データの非時系列特徴量を抽出する非時系列特徴量抽出手段をさらに含むことができ、前記判定手段は、算出された前記N個の尤度値と抽出されたM個の非時系列特徴量を含む(N+M)次元のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定するようにすることができる。
前記確率モデルは隠れマルコフモデルであり、前記パターン識別部はニューラルネットワークであるようにすることができる。
本発明の一側面である情報処理方法は、時系列入力データをN個のクラスに分類する情報処理装置の情報処理方法において、前記時系列入力データの時系列特徴量を抽出し、抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記N個のクラスのうちの任意のクラスに属することの尤度値を算出し、算出された前記N個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定するステップを含むことを特徴とする。
本発明の一側面であるプログラムは、時系列入力データをN個のクラスに分類する情報処理装置の制御用のプログラムであって、前記時系列入力データの時系列特徴量を抽出し、抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記N個のクラスのうちの任意のクラスに属することの尤度値を算出し、算出された前記N個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定するステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とする。
本発明の一側面においては、時系列入力データの時系列特徴量が抽出され、抽出された時系列特徴量を予め学習されている確率モデルに適用することにより、時系列入力データがN個のクラスのうちの任意のクラスに属することの尤度値が算出される。さらに、算出されたN個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかが判定される。
本発明の一側面によれば、時系列入力データを精度よく分類することができる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明の第1の実施の形態であるビデオデータ識別装置の構成例を示している。このビデオデータ識別装置10は、時系列に入力されるテレビジョン番組などのビデオデータを処理対称とし、その時系列の映像内容を識別するものであり、時系列識別部11およびパターン識別部12から構成される。
以下、野球中継番組のビデオデータを処理対象として、その映像内容(ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど)を識別する場合を例に説明する。
時系列識別部11は、例えばHMMを用いてビデオデータを識別するものであり、時系列特徴量抽出部21、および複数のシーン別HMM識別部22−1乃至22−Nから構成される。
時系列特徴量抽出部21は、ビデオデータを所定の期間(例えば、数秒単位、数フレーム単位など)に区切り、各期間の時系列特徴量として、動き量、画像ヒストグラム、主成分分析による特徴量、フラクタル特徴量、フレーム間輝度差分特徴量などを抽出する。抽出された時系列特徴量はシーン別HMM識別部22−1乃至22−Nに供給される。
シーン別HMM識別部22−1は、ビデオデータの映像内容として想定される1つのシーン(例えば、ピッチングシーン)に対応して予め学習されたもの(後述)であり、時系列特徴量抽出部21から入力される時系列特徴量が対応するシーン(いまの場合、ピッチングシーン)のものであることの尤度値を算出する。
シーン別HMM識別部22−2は、ビデオデータの映像内容として想定される1つのシーン(例えば、ホームランシーン)に対応して予め学習されたもの(後述)であり、時系列特徴量抽出部21から入力される時系列特徴量が対応するシーン(いまの場合、ホームランシーン)のものであることの尤度値を算出する。
同様に、シーン別HMM識別部22−3乃至22−Nも、ビデオデータの映像内容として想定されるそれぞれ異なる1つのシーンに対応して予め学習されたものであり、時系列特徴量抽出部21から入力される時系列特徴量が対応するシーンのものであることの尤度値を算出する。
したがって、時系列識別部11からは、入力されるビデオデータの映像内容が、想定されるN種類のシーンであるかを示す情報として、N種類の尤度値が出力されることになる。
パターン識別部12は、例えば、ニューラルネットワーク(以下、NNと称する)を用いてパターン識別を実行するものであり、入力パターン生成部31、およびシーン判定部32から構成される。
入力パターン生成部31は、時系列識別部11のシーン別HMM識別部22−1乃至22−Nから入力されるN個の尤度値を基にしてN次元の入力パターンを生成し、シーン判定部32に出力する。予め学習されているシーン判定部32は、入力パターン生成部31から入力されるN次元の入力パターンのN種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。なお、シーン判定部32の学習は、学習用ビデオデータ(時系列のシーンが人によって識別されているもの)を用い、例えばバックプロパゲーションアルゴリズムによって行うことができる。
次に、図2は、学習用ビデオデータを用いて図1のシーン別HMM識別部22−1乃至22−Nを学習させる時系列学習装置40の構成例を示している。
この時系列学習装置40は、時系列特徴量抽出部41、操作部42、セレクタ43、およびシーン別HMM学習部44−1乃至44−Nから構成される。
時系列特徴量抽出部41は、図1の時系列特徴量抽出部21と同様、学習用ビデオデータを所定の期間(例えば、数秒単位、数フレーム単位など)に区切り、各期間の時系列特徴量として、動き量、画像ヒストグラム、主成分分析による特徴量、フラクタル特徴量、フレーム間輝度差分特徴量などを抽出してセレクタ43に出力する。
操作部42は、例えば学習用ビデオデータのシーンを識別するオペレータ(人)によって操作され、オペレータによるシーンの識別結果をセレクタ43に通知する。セレクタ43は、操作部42からのオペレータによるシーンの識別結果に対応して、時系列特徴量抽出部41から供給される時系列特徴量を、シーン別HMM学習部44−1乃至44−Nのいずれかに供給する。なお、シーン別HMM学習部44−1乃至44−Nは、それぞれ異なる映像内容(ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど)のうちの1つに対応付けられているものとする。
例えば、シーン別HMM学習部44−1がピッチングシーン、シーン別HMM学習部44−2がホームランシーン、シーン別HMM学習部44−3が内野ゴロシーンに対応付けられているとする。そして、学習用ビデオデータを見たオペレータによってその映像内容がホームランシーンであると識別されて操作部42が操作された場合、セレクタ43は、そのシーンの時系列特徴量をシーン別HMM学習部44−2に供給する。また、学習用ビデオデータを見たオペレータによってその映像内容が内野ゴロシーンであると識別されて操作部42が操作された場合、セレクタ43は、そのシーンの時系列特徴量をシーン別HMM学習部44−3に供給する。
シーン別HMM学習部44−1乃至44−Nは、セレクタ43を介して供給される時系列特徴量に基づいてHMMを学習する。この学習には、Baum-Welchアルゴリズムを用いることができる。そして、シーン別HMM学習部44−1乃至44−Nによる識別が所望の精度に達するまで異なる複数の学習用ビデオデータを用いて学習を繰り返し、所望の精度に達した場合、シーン別HMM学習部44−1乃至44−Nの最終的なHMMを、図1の時系列識別部11のシーン別HMM認識部22−1乃至22−Nに適用される。
次に、ビデオデータ識別装置10がビデオデータのシーンを精度よく識別できるようになるための事前の学習処理について、図3のフローチャートを参照して説明する。
初めにステップS1乃至3の処理により、時系列識別部11のシーン別HMM識別部22−1乃至22−Nが学習される。
具体的には、ステップS1において、時系列学習装置40の時系列特徴量抽出部41は、学習用ビデオデータを所定の期間に区切り、各期間の時系列特徴量を抽出して、セレクタ43に出力する。
ステップS2において、セレクタ43は、操作部42からのオペレータによるシーンの識別結果に対応して、時系列特徴量抽出部41から供給された時系列特徴量を、シーン別HMM学習部44−1乃至44−Nのいずれかに供給する。シーン別HMM学習部44−1乃至44−Nは、セレクタ43を介して供給される時系列特徴量に基づいてHMMを学習する。
ステップS3において、シーン別HMM学習部44−1乃至44−Nによる識別が所望の精度に達したか否かが判定され、所望の精度に達するまで、ステップS1乃至S3の処理が繰り返される。そして、ステップS3において、シーン別HMM学習部44−1乃至44−Nによる識別が所望の精度に達した場合、シーン別HMM学習部44−1乃至44−Nの最終的なHMMが、図1の時系列識別部11のシーン別HMM認識部22−1乃至22−Nに適用される。処理はステップS4に進められる。
次にステップS4乃至8の処理により、パターン識別部12のシーン判定部32が学習される。
具体的には、ステップS4において、学習用ビデオデータから時系列特徴量が抽出されて、上述したステップS1乃至S3の処理で学習されたシーン別HMM認識部22−1乃至22−Nに供給される。
ステップS5において、シーン別HMM認識部22−1乃至22−Nは、供給された時系列特徴量がそれぞれ想定されたシーンに対応するものであることの尤度値を算出して、入力パターン生成部31に出力する。ステップS6において、入力パターン生成部31は、シーン別HMM識別部22−1乃至22−Nから入力されたN個の尤度値を基にしてN次元の入力パターンを生成してシーン判定部32に出力する。
ステップS7において、シーン判定部32は、入力パターン生成部31から入力されたN次元の入力パターンと、学習用ビデオデータを見たオペレータによるシーン識別の結果とに基づいてNNを学習する。
ステップS8において、シーン判定部32による識別が所望の精度に達したか否かが判定され、所望の精度に達するまで、ステップS4乃至S8の処理が繰り返される。そして、ステップS8において、シーン判定部32による識別が所望の精度に達した場合、当該学習処理は終了される。
次に、以上説明した学習処理によって学習されたシーン別HMM識別部22−1乃至22−Nとシーン判別部32を含むビデオデータ識別装置10による、ビデオデータのシーン識別処理について、図4のフローチャートを参照して説明する。
ステップS11において、時系列識別部11の時系列特徴量抽出部21は、処理対象のビデオデータを所定の期間に区切り、各期間の時系列特徴量を抽出する。ステップS12において、時系列特徴量抽出部21は、抽出した時系列特徴量をシーン別HMM識別部22−1乃至22−Nに供給する。シーン別HMM識別部22−1乃至22−Nは、供給された時系列特徴量が、対応するシーン(ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど)のものであることの尤度値を算出する。算出された尤度値は、パターン識別部12の入力パターン生成部31に供給される。
ステップS13において、入力パターン生成部31は、時系列識別部11のシーン別HMM識別部22−1乃至22−Nから入力されるN個の尤度値を基にしてN次元の入力パターンを生成し、シーン判定部32に出力する。
ステップS14において、シーン判定部32は、入力パターン生成部31から入力されたN次元の入力パターンのN種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。
以上で、ビデオデータ識別装置10によるシーン識別処理の説明を終了する。以上説明したように、ビデオデータ識別装置10によれば、ビデオデータのシーンを、HMMを用いて識別するのではなく、複数のHMMから出力されるN個の尤度値のパターンを用いたパターン判定によって識別するので、HMMだけを用いて識別する場合に比較して誤識別を減少させて、識別精度の向上が期待できる。
次に、図5は、本発明の第2の実施の形態であるビデオデータ識別装置の構成例を示している。このビデオデータ識別装置70は、図1のビデオデータ識別装置10と同様の時系列識別部11、処理対象のビデオデータから非時系列特徴量を抽出する非時系列特徴量抽出部71−1乃至71−M、およびパターン識別部72から構成される。
非時系列特徴量抽出部71−1乃至71−Mは、処理対象のビデオデータを所定の期間(例えば、数秒単位、数フレーム単位など)に区切り、各期間の非時系列特徴量として、代表的な画像パターン、代表色、画面上の代表的な物体の有無情報などを抽出してパターン識別部72に出力する。
パターン識別部72は、例えば、NNを用いてパターン識別を実行するものであり、入力パターン生成部81、およびシーン判定部82から構成される。
入力パターン生成部81は、時系列識別部11のシーン別HMM識別部22−1乃至22−Nから入力されるN個の尤度値と、非時系列特徴量抽出部71−1乃至71−Mから入力されるM個の非時系列特徴量とを基にして(N+M)次元の入力パターンを生成し、シーン判定部82に出力する。予め学習されているシーン判定部82は、入力パターン生成部81から入力される(N+M)次元の入力パターンのN種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。なお、シーン判定部82の学習は、学習用ビデオデータ(時系列のシーンが人によって識別されているもの)を用い、例えばバックプロパゲーションアルゴリズムによって行うことができる。
次に、ビデオデータ識別装置70がビデオデータのシーンを精度よく識別できるようになるための事前の学習処理について、図6のフローチャートを参照して説明する。
初めに、上述した図6のステップS1乃至3の処理と同様のステップS31乃至33の処理により、時系列識別部11のシーン別HMM識別部22−1乃至22−Nが学習される。
次にステップS34乃至39の処理により、パターン識別部72のシーン判定部82が学習される。
具体的には、ステップS34において、学習用ビデオデータから時系列特徴量が抽出されて、上述したステップS31乃至S33の処理で学習されたシーン別HMM認識部22−1乃至22−Nに供給される。
ステップS35において、シーン別HMM認識部22−1乃至22−Nは、供給された時系列特徴量がそれぞれ想定されたシーンに対応するものであることの尤度値を算出して、パターン識別部72の入力パターン生成部81に出力する。
ステップS36において、非時系列特徴量抽出部71−1乃至71−Mは、学習用ビデオデータを所定の期間に区切り、各期間の非時系列特徴量を抽出してパターン識別部72の入力パターン生成部81に出力する。
ステップS37において、入力パターン生成部81は、シーン別HMM識別部22−1乃至22−Nから入力されたN個の尤度値と、非時系列特徴量抽出部71−1乃至71−Mから入力されたM個の非時系列特徴量を基にして(N+M)次元の入力パターンを生成してシーン判定部82に出力する。
ステップS38において、シーン判定部82は、入力パターン生成部81から入力された(N+M)次元の入力パターンと、学習用ビデオデータを見たオペレータによるシーン識別の結果とに基づいてNNを学習する。
ステップS39において、シーン判定部82による識別が所望の精度に達したか否かが判定され、所望の精度に達するまで、ステップS34乃至S39の処理が繰り返される。そして、ステップS39において、シーン判定部82による識別が所望の精度に達した場合、当該学習処理は終了される。
次に、以上説明した学習処理によって学習されたシーン別HMM識別部22−1乃至22−Nとシーン判別部82を含むビデオデータ識別装置70による、ビデオデータのシーン識別処理について、図7のフローチャートを参照して説明する。
ステップS51において、時系列識別部11の時系列特徴量抽出部21は、処理対象のビデオデータを所定の期間に区切り、各期間の時系列特徴量を抽出する。ステップS52において、時系列特徴量抽出部21は、抽出した時系列特徴量をシーン別HMM識別部22−1乃至22−Nに供給する。シーン別HMM識別部22−1乃至22−Nは、供給された時系列特徴量が、対応するシーン(ピッチングシーン、ホームランシーン、内野ゴロシーン、四球シーン、三振シーンなど)のものであることの尤度値を算出する。算出された尤度値は、パターン識別部72の入力パターン生成部81に供給される。
ステップS53において、非時系列特徴量抽出部71−1乃至71−Mは、処理対象のビデオデータを所定の期間に区切り、各期間の非時系列特徴量を抽出してパターン識別部72の入力パターン生成部81に出力する。
ステップS54において、入力パターン生成部81は、シーン別HMM識別部22−1乃至22−Nから入力されたN個の尤度値と、非時系列特徴量抽出部71−1乃至71−Mから入力されたM個の非時系列特徴量を基にして(N+M)次元の入力パターンを生成してシーン判定部82に出力する。
ステップS55において、シーン判定部82は、入力パターン生成部81から入力された(N+M)次元の入力パターンのN種類のシーン毎の尤度値を算出し、その最大値に対応するシーンを映像内容の識別結果として出力する。
以上で、ビデオデータ識別装置70によるシーン識別処理の説明を終了する。以上説明したように、ビデオデータ識別装置10によれば、ビデオデータのシーンを、HMMを用いて識別するのではなく、複数のHMMから出力されるN個の尤度値とM個の非時系列特徴量とのパターンを用いたパターン判定によって識別するので、HMMだけを用いて識別する場合に比較して誤識別を減少させて、識別精度の向上が期待できる。また、非時系列特徴量を用いたシーン識別が可能となる。
なお、本実施の形態においては、時系列識別部11にHMMを用いたが、HMM以外の確率モデルを用いるようにしてもよい。また、パターン識別部12および72にはNNを用いたが、NN以外のパターン識別アルゴリズムを用いるようにしてもよい。
また、本発明は、ビデオデータのシーン識別のみならず、任意の種類の時系列データを分類する場合に適用することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明を適用したビデオデータ識別装置の第1の構成例を示すブロック図である。 図1のシーン別HMM識別部を学習させる時系列学習装置の構成例を示すブロック図である。 図1のビデオデータ識別装置に対応する学習処理を説明するフローチャートである。 図1のビデオデータ識別装置によるシーン識別処理を説明するフローチャートである。 本発明を適用したビデオデータ識別装置の第2の構成例を示すブロック図である。 図5のビデオデータ識別装置に対応する学習処理を説明するフローチャートである。 図5のビデオデータ識別装置によるシーン識別処理を説明するフローチャートである。 汎用のコンピュータの構成例を示すブロックである。
符号の説明
10 ビデオデータ識別装置, 11 時系列識別部, 12 パターン識別部, 21 時系列特徴量抽出部, 22 シーン別HMM識別部, 31 入力パターン生成部, 32 シーン判定部, 40 時系列学習装置, 41 時系列特徴量抽出部, 42 操作部, 43 セレクタ, 44 シーン別HMM学習部, 70 ビデオデータ識別装置,71 時系列識別部, 72 パターン識別部, 81 入力パターン生成部, 82 シーン判定部, 100 コンピュータ, 101 CPU, 111 リムーバブルメディア

Claims (6)

  1. 時系列入力データをN個のクラスに分類する情報処理装置において、
    前記時系列入力データの時系列特徴量を抽出する時系列特徴量抽出手段と、
    抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記N個のクラスのうちの任意のクラスに属することの尤度値を算出する前記N個の算出手段と、
    算出された前記N個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定する判定手段と
    を含むことを特徴とする情報処理装置。
  2. 前記時系列入力データはビデオデータであり、
    前記N個のクラスは、前記ビデオデータの映像内容としての異なるN種類のシーンである
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記時系列入力データの非時系列特徴量を抽出する非時系列特徴量抽出手段をさらに含み、
    前記判定手段は、算出された前記N個の尤度値と抽出されたM個の非時系列特徴量を含む(N+M)次元のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記確率モデルは隠れマルコフモデルであり、
    前記パターン識別部はニューラルネットワークである
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 時系列入力データをN個のクラスに分類する情報処理装置の情報処理方法において、
    前記時系列入力データの時系列特徴量を抽出し、
    抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記N個のクラスのうちの任意のクラスに属することの尤度値を算出し、
    算出された前記N個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定する
    ステップを含むことを特徴とする情報処理方法。
  6. 時系列入力データをN個のクラスに分類する情報処理装置の制御用のプログラムであって、
    前記時系列入力データの時系列特徴量を抽出し、
    抽出された前記時系列特徴量を予め学習されている確率モデルに適用することにより、前記時系列入力データが前記N個のクラスのうちの任意のクラスに属することの尤度値を算出し、
    算出された前記N個の尤度値を含むN次元以上のパターンを、予め学習されているパターン識別部に適用することにより、前記時系列入力データが前記N個のクラスのうちのいずれのクラスに属するかを判定する
    ステップを含む処理を情報処理装置のコンピュータに実行させることを特徴とするプログラム。
JP2007294313A 2007-11-13 2007-11-13 情報処理装置、情報処理方法、およびプログラム Pending JP2009122829A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007294313A JP2009122829A (ja) 2007-11-13 2007-11-13 情報処理装置、情報処理方法、およびプログラム
US12/291,190 US8055062B2 (en) 2007-11-13 2008-11-06 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007294313A JP2009122829A (ja) 2007-11-13 2007-11-13 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2009122829A true JP2009122829A (ja) 2009-06-04

Family

ID=40623755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007294313A Pending JP2009122829A (ja) 2007-11-13 2007-11-13 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US8055062B2 (ja)
JP (1) JP2009122829A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019169011A (ja) * 2018-03-25 2019-10-03 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
WO2024024294A1 (ja) * 2022-07-26 2024-02-01 一般社団法人持続可能社会推進機構 推定装置、推定方法、推定システム、及び推定プログラム
JP7537519B2 (ja) 2020-12-28 2024-08-21 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102566555B (zh) * 2012-02-10 2013-12-04 安徽建筑工业学院 基于模式识别的白色家电工作状态监测方法
KR102523967B1 (ko) * 2016-03-25 2023-04-21 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법 및 그것을 포함하는 데이터 처리 시스템
CN110213610B (zh) * 2019-06-13 2021-05-28 北京奇艺世纪科技有限公司 一种直播场景识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006064749A1 (ja) * 2004-12-16 2006-06-22 Sharp Kabushiki Kaisha 動画像再生方法および動画像再生装置
JP2006332720A (ja) * 2005-05-23 2006-12-07 Casio Comput Co Ltd ダイジェスト作成装置およびダイジェスト作成処理のプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPP603798A0 (en) * 1998-09-18 1998-10-15 Canon Kabushiki Kaisha Automated image interpretation and retrieval system
US6714594B2 (en) * 2001-05-14 2004-03-30 Koninklijke Philips Electronics N.V. Video content detection method and system leveraging data-compression constructs
JP4398777B2 (ja) * 2004-04-28 2010-01-13 株式会社東芝 時系列データ分析装置および方法
US20100017381A1 (en) * 2008-07-09 2010-01-21 Avoca Semiconductor Inc. Triggering of database search in direct and relational modes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006064749A1 (ja) * 2004-12-16 2006-06-22 Sharp Kabushiki Kaisha 動画像再生方法および動画像再生装置
JP2006332720A (ja) * 2005-05-23 2006-12-07 Casio Comput Co Ltd ダイジェスト作成装置およびダイジェスト作成処理のプログラム

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
CSNG200001013024; 上田 修功: '最小分類誤り基準に基づくニューラルネットワーク識別機の最適線形統合法' 電子情報通信学会論文誌 第J82-D-II巻, 第3号, 19990325, p.522-530, 社団法人電子情報通信学会 *
CSNG200401266008; 小澤 誠一: 'モジュール構造ニューラルネットの研究動向' 計測と制御 第41巻, 第12号, 20021210, p.888-893, 社団法人計測自動制御学会 *
CSNG200600241003; Nguyen HUU BACH, 他2名: '隠れマルコフモデルを用いた野球放送の自動的インデクシング' 電子情報通信学会技術研究報告 第104巻, 第450号, 20041112, p.13-18, 社団法人電子情報通信学会 *
CSNJ201110016010; 宮崎 太郎, 他5名: '野球中継番組を対象とした音響情報を用いたシーン認識' 日本音響学会 2006年 春季研究発表会講演論文集CD-ROM , 20060307, p.19-20 *
JPN6012046065; 宮崎 太郎, 他5名: '野球中継番組を対象とした音響情報を用いたシーン認識' 日本音響学会 2006年 春季研究発表会講演論文集CD-ROM , 20060307, p.19-20 *
JPN6012046066; 小澤 誠一: 'モジュール構造ニューラルネットの研究動向' 計測と制御 第41巻, 第12号, 20021210, p.888-893, 社団法人計測自動制御学会 *
JPN6012046068; 上田 修功: '最小分類誤り基準に基づくニューラルネットワーク識別機の最適線形統合法' 電子情報通信学会論文誌 第J82-D-II巻, 第3号, 19990325, p.522-530, 社団法人電子情報通信学会 *
JPN6012046069; Hsin-Chia Fu, et al.: 'Divide-and-Conquer Learning and Modular Perceptron Networks' IEEE Transactions on Neural Networks volume.12, no.2, 200103, p.250-263 *
JPN6012046071; Nguyen HUU BACH, 他2名: '隠れマルコフモデルを用いた野球放送の自動的インデクシング' 電子情報通信学会技術研究報告 第104巻, 第450号, 20041112, p.13-18, 社団法人電子情報通信学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019169011A (ja) * 2018-03-25 2019-10-03 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
JP7107498B2 (ja) 2018-03-25 2022-07-27 株式会社知能フレームワーク研究所 予兆検知システムおよびプログラム
JP7537519B2 (ja) 2020-12-28 2024-08-21 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム
WO2024024294A1 (ja) * 2022-07-26 2024-02-01 一般社団法人持続可能社会推進機構 推定装置、推定方法、推定システム、及び推定プログラム

Also Published As

Publication number Publication date
US8055062B2 (en) 2011-11-08
US20090123062A1 (en) 2009-05-14

Similar Documents

Publication Publication Date Title
JP4742193B2 (ja) 年齢推定装置、年齢推定方法及びプログラム
US8606022B2 (en) Information processing apparatus, method and program
US20150235079A1 (en) Learning device, learning method, and program
JP2007325277A (ja) 協調フレームワークのサポートシステム、監視ビデオのマイニングのサポート方法、及びプログラム
JP5214760B2 (ja) 学習装置、方法及びプログラム
US11935298B2 (en) System and method for predicting formation in sports
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
JP2009122829A (ja) 情報処理装置、情報処理方法、およびプログラム
TW201123026A (en) Methods and systems for gesture recognition, and computer program products thereof
WO2022002242A1 (zh) 一种场景识别方法和系统、电子设备、介质
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
JP5214679B2 (ja) 学習装置、方法及びプログラム
JP7156383B2 (ja) 情報処理装置、情報処理方法、プログラム
JP2006331271A (ja) 代表画像抽出装置及び代表画像抽出プログラム
JP2011013731A (ja) 情報処理装置、情報処理方法、およびプログラム
US8165387B2 (en) Information processing apparatus and method, program, and recording medium for selecting data for learning
Ponce-López et al. Gesture and action recognition by evolved dynamic subgestures
Mohammadi et al. Human activity recognition using an ensemble of support vector machines
CN103310222A (zh) 图像处理器及图像处理方法
AU2011265494A1 (en) Kernalized contextual feature
JP7268739B2 (ja) 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
CN108596068B (zh) 一种动作识别的方法和装置
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
Yin et al. Abnormal behavior recognition using self-adaptive hidden markov models
KR102646430B1 (ko) 분류기를 학습시키는 방법 및 이를 이용한 예측 분류 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121108