JP4349574B2 - 動画像データのシーン分割装置 - Google Patents

動画像データのシーン分割装置 Download PDF

Info

Publication number
JP4349574B2
JP4349574B2 JP2004062866A JP2004062866A JP4349574B2 JP 4349574 B2 JP4349574 B2 JP 4349574B2 JP 2004062866 A JP2004062866 A JP 2004062866A JP 2004062866 A JP2004062866 A JP 2004062866A JP 4349574 B2 JP4349574 B2 JP 4349574B2
Authority
JP
Japan
Prior art keywords
shot
image data
moving image
scene
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004062866A
Other languages
English (en)
Other versions
JP2005252859A (ja
Inventor
勝 菅野
康之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004062866A priority Critical patent/JP4349574B2/ja
Publication of JP2005252859A publication Critical patent/JP2005252859A/ja
Application granted granted Critical
Publication of JP4349574B2 publication Critical patent/JP4349574B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は動画像データのシーン分割装置に関し、特に非圧縮または圧縮された動画像データを解析し、それらを様々なショット種別に分類した結果に基づいて、ショットよりも意味的に上位の概念を持つシーン分割を行う動画像データのシーン分割装置に関する。また、非圧縮または圧縮された動画像データを、様々なシーン種別へ分割することにより、動画像データの効率的な検索、分類や閲覧を提供することが可能な、動画像データのシーン分割装置に関する
動画像データのショット分類に関する従来技術としては、本出願人の特許出願である特願2003-51514において、ショットを「アクション」クラス、「ドラマチック」クラス、「会話」クラス、「汎用」クラスなどに分類する手段、スローシーン、ズームシーン、パンシーンなどの意味的な概念を持たないシーン種別、及びコマーシャルシーンやハイライトシーンなどの意味的な概念を持つシーン種別に分類する手段が開示されている。
また、シーン分割手法としては、特開平10-257436号公報や特開2000-56420号公報において、分割されたショット毎の類似度を用いてシーンに統合する装置が開示されている。また、特開平9-44639号公報や特開2002-125178号公報においては、ショットの特徴量として色情報のヒストグラムを用い、また前記特開平10-257436号公報においては、ショットの代表フレームを用いてファジィ推論により類似度を求めている。更に、特開2000-69420号公報では、CM検出によるシーン区切り判定と、音声の類似度やカメラの動き情報に基づくシーン統合する装置を開示している。
ここで、ショットとは1つのカメラワークで撮影された、連続するフレームの集合であり、シーンとは意味的につながりのある、連続するショットの集合であるとする。
特開平10-257436号公報 特開2000-56420号公報 特開平9-44639公報 特開2002-125178号公報 特開2000-69420号公報
従来技術はショット単位に分類を行っており、あるショット種別に属するショットを検索、閲覧しようとした場合に、分類の粒度が細かいため用途によっては検索・閲覧結果が膨大になるため、検索、閲覧効率が低下する可能性がある。また、ショット単位で分類した際、隣接または周辺のショットにおけるショット種別を考慮していなかったため、時間的に孤立したショットが孤立ショット(周辺のショット種別と異なるショット種別)に分類される可能性があり、分類精度の低下を招いていた。
また、従来のシーン分割技術としては、色や動き、音声といったいずれも信号レベルの特徴値を判定要素として用いているため、例えば同一シーンに複数の色特性が存在する場合や、同一シーンで異なるカメラワークが含まれたり、会話シーン中に効果音が入るなど異なる音声特徴が含まれたりする場合には、正確にシーンが分割できない可能性がある。
本発明は、前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮された動画像データを、画像特徴やオーディオ特徴を用いて様々なショット種別へ分類し、その分類結果に基づいてシーン分割する装置を提供することにある。また、他の目的は、ショット単位の信号レベルの特徴を評価するのではなく、より高度な概念(ショット種別)に分類してからショットを集約することにより、従来技術よりも正確なシーン分割を可能とする動画像データのシーン分割装置を提供することにある。
前記した目的を達成するために、本発明は、非圧縮または圧縮された動画像データのシーン分割装置において、動画像データのショット分割を行うショット分割手段と、動画像データの動き情報および動画像データに付随するオーディオデータを解析する動き情報・オーディオデータ解析手段と、動画像データのショット長、画像内の動き情報、オーディオデータの少なくとも一つを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段と、該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割するシーン分割手段とを具備した点に第1の特徴がある。
本発明によれば、映画やドラマなどの動画像データにおいてはシーンとシーンの変化点に風景のシーンが表れることが多いことに着目して、動画像から風景ショットを検出し、該風景ショットをシーンの分割点とするようにしたので、動画像データのシーン分割を簡単かつ正確に行うことができるようになる。また、このため、動画像データの中から所望のシーンを簡単にかつ精度良く検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。
また、本発明によれば、非圧縮または圧縮された動画像データの信号的な特徴を利用して、入力された動画像データを様々なショット種別へ自動かつ正確に分類できるほか、シーン分割することが可能となる。
以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データシーン分割装置の構成図である。
まず、非圧縮または圧縮された動画像データはショット分割部1でショット単位に分割され、ショット長Lsが取得される。次いで、動き情報解析部2において、ショットの動画像データから動き情報(動き強度、動き方向統一性など)が抽出され、またオーディオ解析部3において、付随するオーディオデータからオーディオ情報が抽出される。これらの処理については、特願2003-51514で開示されている手段などを用いることができる。したがって、その詳細な説明は省略するが、簡単に説明すると、下記のようになる。
すなわち、動き情報解析部2は、圧縮された動画像データに対しては、ショット内に存在する予測符号化画像が持つ動きベクトル値を用いて、ショットにおける動き強度の値MIsを計算する。動き強度MIsについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度(Motion Intensity)」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、1から5までの整数で表現される(1が最低、5が最高)。
一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度MIsの値を計算する。この時、ショットとしての動き強度MIsは、対象とした予測符号化画像における動き強度の値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。
オーディオ解析部3は、オーディオパワー計算部を含み、該オーディオパワー計算部は入力されたショット内のオーディオデータのオーディオ信号のパワーPsあるいは帯域毎のオーディオパワーPsbを計算する。帯域毎のオーディオパワーPsbを計算する場合は、任意の帯域幅を選択することができる外、帯域毎に重み付けを行うことができる。これらの総和を、ショット内のオーディオパワーPsとする。該Psは以下のように表される。
Figure 0004349574
ここで、Isbはオーディオパワーを計算する最低帯域の帯域番号、hsbは最高帯域の帯域番号、w[i]は帯域iにおけるオーディオパワーPsb[i]に対する重み付けである。該オーディオパワーPsを基に、サブバンドエネルギーSEsを求めることができる。
映画やドラマなどの動画像データにおいては、シーンとシーンの変化点に、遷移後のシーンの情景を説明するために風景を撮影した単数または連続した複数のショットが挿入されることが多い。従って、前記動き情報解析部2およびオーディオ解析部3に加えて、風景ショット判定部4を設ける。該風景ショット判定部4においては、画面内の動き情報を少なくとも用いて風景ショットを検出する。次に、該風景ショット判定部4の判定結果を用いることにより、シーン分割部5において、シーンの分割点を検出することができる。該シーン分割部5ではシーン情報が決定される。
前記動き情報解析部2は、前記動き強度に加え、動きの統一性を抽出する。これは、画面内の動き(カメラ、オブジェクト)の方向がどの程度一定であるかを示す指標である。動き方向の統一性を評価することにより、カメラが風景をゆっくりパン/チルトしているショットを識別することが可能となる。すなわち、画面内の動き方向が、ある評価尺度により統一性を有することが識別できれば、オブジェクト(被写体)の動きが少なく、カメラが比較的静止した風景をゆっくりとしたカメラワークで撮影していることが分かる。その他、パンシーンの判定には本発明者などの特許出願である特願2002-285667で開示されている手段などを用いることもできる。
次に、図2のフローチャートを参照して、前記風景ショット判定部4の動作を説明する。該風景ショット判定部4は、入力されたショット長Ls、動き情報としての動き強度MIs、動き方向の統一性MDCs、およびオーディオ情報としてのサブバンドエネルギーSEsなどを評価する。ここで、動き方向の統一性MDCsは、MPEG−7で定義されている動きアクティビティ記述子(Motion Activity)の支配的方向属性(Dominant Direction)などを用いることができるが、ここでは以下の式のように、画面内に存在する動きベクトルを任意数方向に分類し、その最も頻度が高い方向が全ての動きベクトルに占める割合として定義することもできる。
MDCs=最頻方向に一致する動きベクトル数/動きベクトルの総数
ここでは、動きベクトルの方向を8方向(45度単位)などとすることができる。
前述の通り、動き方向の統一性MDCsはカメラが風景を撮影するようなショットで大きくなり、被写体を大きく写したショットや被写体の動きが早いショットでは小さくなる。従って、ショット長Lsがある閾値THL(例えば、1.5秒)よりも大きく(ショット長Ls>THL)、動き強度MIsがある閾値THI(例えば、1.1)よりも小さく(動き強度MIs<THI)、動き方向の統一性MDCsがある閾値THMDC(例えば、0.2)よりも大きく(動き方向の統一性MDCs>THMDC)、かつサブバンドエネルギーSEsがある閾値THSE(例えば、2.2)よりも小さい場合(サブバンドエネルギーSEs<THSE)、ステップS2に進んで、該当するショットを風景ショットであると判定する。
なお、前記のようにショット長、動き情報、オーディオ情報を閾値処理することもできるが、予めこれらを特徴ベクトルとして入力した分類器(決定木など)を学習させ、入力されたショットを各種ショット種別に分類することもできる。
次に、本発明の第2の実施形態を、図3を参照して説明する。この実施形態は、従来装置の次の問題を解消するものである。すなわち、従来装置では、各ショットにおけるショット種別の判定のみを行っており、隣接または周辺のショットのショット種別を考慮していないため、例えば「アクション」クラスが連続する区間に単一の「会話」クラスが判定される場合があったため、分類精度が低下していたことが問題として挙げられる。また、この実施形態は、前記風景ショットを加味して、ショット種別補正およびショット統合を行うようにしたものである。なお、図3中の図1と同一または同等物には、同じ符号が付されている。
図において、11はショット種別分類処理部、12はショット種別補正処理部、13はショット統合部である。
ここで、前記ショット種別補正処理部12の動作を、図4のフローチャートを参照して説明する。該ショット種別補正処理部12は、以下の処理により、誤分類されたショットを補正する。ここで、Stype(n)は、n番目のショットのショット種別を表す。
ステップS10では、まずiを初期化(i=1)し、ステップS11では、第i番目のショットiの種別Stype(i)が入力する。ステップS12では、該ショットiが、風景ショットではなく、Stype(i)≠Stype(i−1)かつStype(i−1)=Stype(i+1)であるか否かを判断する。該判断が肯定であればステップS13に進んで、Stype(i)=Stype(i−1)と修正する。一方、該ステップS12の判断が否定であれば、ステップS13をスキップしてステップS14に進む。ステップS14では、全部のショットの処理が終了したか否かの判断を行い、この判断が否定の時にはステップS15に進んで,iを1インクリメントする。以下、前記と同じ動作を、ステップS14の判断が肯定になるまで、すなわち動画像データが終了するまで行う。
該ステップS14の判断が肯定になると、ステップS16でiを初期化(i=1)し、ステップS17に進み、再度第i番目のショットiの種別が入力する。ステップS18では、該ショットiが風景ショットではなく、Stype(i)≠Stype(i−1)かつStype(i)≠Stype(i+1)であるか否かを判断する。この判断が肯定の場合にはステップS19に進み、Stype(i)=Stype(i−1)と修正する。一方、前記ステップS18の判断が否定の時にはステップS20に進む。ステップS20では、全ショットの処理が終了したか否かの判断がなされ、この判断が否定の時にはステップS21に進んで、iを1インクリメントする。次いで、ステップS17に戻り、前記した処理を再度行う。以上の処理が繰り返し行われ、前記ステップS20の判断が肯定になると、ショット種別補正処理は終了する。
また、前記ショット種別補正処理部12は、多数決処理により、隣接するショット種別と異なるショット種別を補正するようにしてもよい。
図5は、図3のショット種別分類処理部11、ショット種別補正処理部12、およびショット統合部13により処理されるショットの具体例を示す。
図5(a)はシーン分割される動画像データを示し、同図(b)はショット分割されたショットを示す。同図(c)は前記ショット種別分類処理部11でショット分類されたショットを示す。図示の例では、「会話、アクション、会話」という系列のショット、「アクション、会話、アクション」という系列のショット、「アクション、風景、アクション」という系列のショット等が示されている。
同図(d)は前記ショット種別補正処理部12でショット種別補正されたショットを示す。該ショット種別補正処理部12の動作により、前記「会話、アクション、会話」という系列のショットは「会話、会話、会話」と補正される。また、「アクション、会話、アクション」という系列のショットは、「アクション、アクション、アクション」と補正される。
すなわち、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別が同一の場合に、全て同一のショット種別に補正する。また、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別も同一でない場合に、対象となるショットのショット種別を時間的に前のショット種別に補正する。
一方、「アクション、風景、アクション」という系列のショットは、風景ショットはシーンの分割点であるのでそのままに保持される。
次に、同図(e)は前記ショット統合部13でショット統合されたシーンを示す。図示から分かるように、同じ種別のショットは統合されて、一つのシーンとされる。なお、単独または連続して複数で出現する風景ショットはシーン分割点であるとし、該シーンの統合処理は行わない。風景ショットの開始時が、シーン分割点とされる。
以上の処理によって、補正されたジャンル種別の集合において、同一ショット種別が連続する区間はシーンと判定され、ショット種別が変化する点はシーン分割点とされる。また、単一のショットから構成されるシーンは回避される。
次に、図6を参照して、本発明の第3実施形態を説明する。なお、図6中の図3と同一または同等物には、同じ符号が付されている。この実施形態では、ショット種別分類処理部11への入力として、ショット分割部1からのショット長Ls、オーディオ解析部3からのオーディオ種別ACLSおよびサブバンドエネルギーSEsを入力する。
オーディオ種別ACLSの取得手段としては、特開平10-247093号公報で開示されている手段などを用いることができる。ショット種別分類処理部11で得られたショット種別Stypeは、ショット種別系列解析部21によりショット種別の系列を決定する。ショット種別系列解析部21では、HMM(隠れマルコフモデル)などの時系列シンボルを表現するモデルなどを用いて、ショット種別Stypeの確からしさを調べることができる。これにより、孤立したショット種別の補正を行う。ショット統合部13は、前記図5の(d)から(e)への過程と同様の処理により、ショット統合を行ってシーン情報を出力する。
ショット統合部13で得られたシーン情報は、シーン情報記述部22で少なくとも時間情報と共に記述され、MPEG−7などの記述フォーマットを用いることにより、シーン記述ファイルとして出力される。
本発明は、入力動画像データが映画コンテンツであってもよい。この場合、分類されるショット種別が、少なくともアクション、会話、風景、その他であり、風景ショット種別をシーンの分割点とし、アクション、会話、その他ショット種別のショットを前記ショット種別補正手段により補正し、少なくともアクションシーン、会話シーンおよびその他シーンに統合することができる。
本発明の第1の実施形態の概略の構成を示すブロック図である。 風景ショット判定部の処理を示すフローチャートである。 本発明の第2の実施形態の概略の構成を示すブロック図である。 ショット種別補正処理部の処理を示すフローチャートである。 該第2の実施形態の処理の要部の具体例の説明図である。 本発明の第3の実施形態の概略の構成を示すブロック図である。
符号の説明
1・・・ショット分割部、2・・・動き情報解析部、3・・・オーディオ解析部、4・・・風景ショット判定部、5・・・シーン分割部、11・・・ショット種別分類処理部、12・・・ショット種別補正処理部、13・・・ショット統合部、21・・・ショット種別系列解析部、22・・・シーン情報記述部。

Claims (4)

  1. 非圧縮または圧縮された動画像データのシーン分割装置において、
    動画像データのショット分割を行うショット分割手段と、
    動画像データの動き情報および動画像データに付随するオーディオデータを解析する動き情報・オーディオデータ解析手段と、
    動画像データのショット長、画像内の動き情報、オーディオデータの少なくとも一つを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段と、
    該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割するシーン分割手段とを具備したことを特徴とする動画像データのシーン分割装置。
  2. 請求項1に記載された動画像データのシーン分割装置において、
    前記動き情報として、動き方向の統一性を用いることを特徴とする動画像データのシーン分割装置。
  3. 請求項2に記載された動画像データのシーン分割装置において、
    前記動き方向の統一性は、画面内に存在する動きベクトルを任意数方向に分類し、その最も頻度が高い方向が全ての動きベクトルに占める割合として求められることを特徴とする動画像データのシーン分割装置。
  4. 請求項1ないし請求項のいずれかに記載された動画像データのシーン分割装置において、
    前記シーンに分割された情報を、少なくとも時間情報と共に記述するシーン情報記述手段を具備したことを特徴とする動画像データのシーン分割装置。
JP2004062866A 2004-03-05 2004-03-05 動画像データのシーン分割装置 Expired - Fee Related JP4349574B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004062866A JP4349574B2 (ja) 2004-03-05 2004-03-05 動画像データのシーン分割装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004062866A JP4349574B2 (ja) 2004-03-05 2004-03-05 動画像データのシーン分割装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009133053A Division JP4979029B2 (ja) 2009-06-02 2009-06-02 動画像データのシーン分割装置

Publications (2)

Publication Number Publication Date
JP2005252859A JP2005252859A (ja) 2005-09-15
JP4349574B2 true JP4349574B2 (ja) 2009-10-21

Family

ID=35032905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004062866A Expired - Fee Related JP4349574B2 (ja) 2004-03-05 2004-03-05 動画像データのシーン分割装置

Country Status (1)

Country Link
JP (1) JP4349574B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2257057B1 (en) * 2008-03-19 2019-05-08 National University Corporation Hokkaido University Dynamic image search device and dynamic image search program
JP5465620B2 (ja) 2010-06-25 2014-04-09 Kddi株式会社 映像コンテンツに重畳する付加情報の領域を決定する映像出力装置、プログラム及び方法
JP2018514844A (ja) * 2015-03-11 2018-06-07 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 細胞画像および映像の深層畳み込みネットワークベースの分類のためのシステムおよび方法
CN111717217B (zh) * 2020-06-30 2022-11-08 重庆大学 一种基于概率修正的驾驶员意图识别方法

Also Published As

Publication number Publication date
JP2005252859A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
JP4381310B2 (ja) メディア処理システム
US7336830B2 (en) Face detection
US7515739B2 (en) Face detection
JP5174445B2 (ja) コンピュータにより実施される映像のシーン境界の検出方法
US7359440B2 (en) Method and system for extracting key frames from video using a triangle model of motion based on perceived motion energy
US8384791B2 (en) Video camera for face detection
KR20210134528A (ko) 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
KR100957902B1 (ko) 영상 요약 장치
JP2006508601A5 (ja)
US20060198554A1 (en) Face detection
GB2395779A (en) Face detection
US20050129275A1 (en) Object detection
US20050129277A1 (en) Object detection
US20050128306A1 (en) Object detection
Bae et al. Dual-dissimilarity measure-based statistical video cut detection
KR20210011707A (ko) Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치
Zhu et al. Video scene segmentation and semantic representation using a novel scheme
JP4349574B2 (ja) 動画像データのシーン分割装置
JP4979029B2 (ja) 動画像データのシーン分割装置
US20070101354A1 (en) Method and device for discriminating obscene video using time-based feature value
US7313185B2 (en) Sequential motion pattern representation
KR101362768B1 (ko) 객체 검출 방법 및 장치
JP5054608B2 (ja) コンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4730813B2 (ja) 動画像データの分類装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090716

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees