JP4606278B2 - 映像構造化方法及び装置及びプログラム - Google Patents

映像構造化方法及び装置及びプログラム Download PDF

Info

Publication number
JP4606278B2
JP4606278B2 JP2005259457A JP2005259457A JP4606278B2 JP 4606278 B2 JP4606278 B2 JP 4606278B2 JP 2005259457 A JP2005259457 A JP 2005259457A JP 2005259457 A JP2005259457 A JP 2005259457A JP 4606278 B2 JP4606278 B2 JP 4606278B2
Authority
JP
Japan
Prior art keywords
video
motion vector
segment type
segment
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005259457A
Other languages
English (en)
Other versions
JP2007072789A (ja
Inventor
俊和 狩塚
聡 嶌田
正志 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005259457A priority Critical patent/JP4606278B2/ja
Publication of JP2007072789A publication Critical patent/JP2007072789A/ja
Application granted granted Critical
Publication of JP4606278B2 publication Critical patent/JP4606278B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像コンテンツの管理性向上のための映像構造化技術、インデクシング技術に係り、特に、撮影者がカメラ付き携帯電話やディジタルカメラ、ディジタルビデオ等で撮影した未編集映像素材コンテンツ(以下、個人が撮影した映像を、パーソナル映像と呼ぶ)を動き情報を用いて分割するための映像構造化方法及び装置及びプログラムに関する。
映像をセグメントに分割する手段の従来技術としては、映像制作の過程、すなわち、編集情報を用いて分割する方法と、色や動き等の映像の内容が類似しているシーンを同一のセグメントとして分割する方法に大別される。
映像編集者の意図に沿って分割する方法の代表的な技術として、映像コンテンツにおいて、編集映像のカットの検出、テロップが表示される区間の検出、カメラワークが発生した区間の検出、音楽が発生した区間、音声が発生した区間を検出し、それぞれのイベントが発生した区間をセグメントとして分割する方法である。当該方法は、編集におけるイベントを利用することから、特に、編集済みの映像コンテンツに対して有効に機能する方法である(例えば、特許文献1参照)。
映像の内容が類似しているシーンを同一のセグメントとして分類する方法の代表的な従来技術として、MPEGの動き補償ベクトルを利用してカメラワークの検出を行い、映像を分割する方法がある(例えば、非特許文献1参照)。
また、映像の色情報の変化量に注目して、映像を定常的な状態と推移的な状態に分割する方法がある(例えば、非特許文献2参照)。
特開平11−224266号公報 土橋健太郎、小館亮之、西塔隆二、富永英義、"MPEG2動きベクトルを用いたカメラワーク検出の検討"、電子情報通信学会、画像符号化シンポジウム PCSJ2000(2000) 堤富士雄、"ウェアラブルな視覚記憶補助装置のための映像分割手法"、WISS2001 pp.155-160 (2001)
しかしながら、上記の従来技術において、撮影者がカメラ付携帯電話やディジタルカメラ、ディジタルビデオ等で撮影した未編集映像素材コンテンツをセグメントに分割する場合、そもそも、カット点やテロップが存在しないため、編集情報を用いて映像をセグメントに分割することはできない。
また、カメラワークや色情報を用いて、映像の内容が類似しているシーンを同一のセグメントとして分割する手法の場合においても、カメラワーク等の動きで分割することはできるが、映像の情報で最も重要である被写体の動きを考慮しておらず、被写体の動き等に基づいた分類は行えていない。
また、映像から被写体の動きに注目する場合においても、背景から被写体を抽出しなければならず、一般に、計算量のコストが高くなるという問題がある。また、撮影者が、三脚等を用いずに撮影したような手振れや不安定なカメラワークがある映像から、背景と被写体を分離することは困難である。
本発明は、上記の点に鑑みなされたもので、高圧縮・低品質で手振れがあるようなパーソナル映像を対象に、計算コストを低く抑えながら、カメラワークと実環境中の動物体の有無の組み合わせで6種別のセグメントに分割することが可能な映像構造化方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップ(ステップ100)と、
記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップ(ステップ101)と、
入力された映像のフレーム画像を内部領域と外部領域とに分割し、分割された2つの領域毎に、動きベクトルから動きを表す特徴量それぞれにN個ずつ算出し、内部領域のN個の特徴量と外部領域のN個の特徴量を合せた2N個の特徴量を各フレーム画像毎に得る特徴量算出ステップ(ステップ102)と、
2N個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップ(ステップ103)と、
フレーム単位のセグメント種別に基づいて、入力映像を分割し(ステップ104)、分割された映像及びセグメント情報を記憶手段に格納する(ステップ105)映像分割ステップと、を行う。
また、本発明(請求項2)は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップと、
記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップと、
算出された動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出ステップと、
特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップと、
予め定めたフレーム数からなる最小区間に映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、最小区間のサブショット種別に基づいて、入力映像を分割し、分割された映像及びセグメント情報を記憶手段に格納する映像分割ステップと、を行う
また、本発明(請求項3)は、請求項1または2の映像構造化方法であって、
特徴量算出ステップ(ステップ102)において、
特徴量として、動きベクトルの大きさと方向の、平均、分散(標準偏差)、平均の変化量、分散(標準偏差)の変化量の、いずれか一つ以上組み合わせて利用し、識別する。
図2は、本発明の原理構成図である。
本発明(請求項4)は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
読み込まれた映像データを一時的に保持する映像一時記憶手段2と、
分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段7と、
分析対象である映像を読み込んで、一時的に映像一時記憶手段2に格納する映像読込手段1と、
映像一時記憶手段2から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段3と、
入力された映像のフレーム画像を内部領域と外部領域とに分割し、分割された2つの領域毎に、動きベクトルから動きを表す特徴量それぞれにN個ずつ算出し、内部領域のN個の特徴量と外部領域のN個の特徴量を合せた2N個の特徴量を各フレーム画像毎に得る特徴量算出手段4と、
2N個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段5と、
フレーム単位のセグメント種別に基づいて、入力映像を分割し、分割された映像及びセグメント情報を映像・セグメント情報記憶手段7に格納する映像分割手段6と、を有する。
また、本発明(請求項5)は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
読み込まれた映像データを一時的に保持する映像一時記憶手段と、
分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段と、
分析対象である映像を読み込んで、一時的に映像一時記憶手段に格納する映像読込手段と、
映像一時記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段と、
算出された動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出手段と、
特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段と、
予め定めたフレーム数からなる最小区間に映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、最小区間のサブショット種別に基づいて、入力映像を分割し、分割された映像及びセグメント情報を映像・セグメント情報記憶手段に格納する映像分割手段と、
を有する
また、本発明(請求項6)は、請求項4または5の映像構造化装置の特徴量算出手段4において、
特徴量として、動きベクトルの大きさと方向の、平均、分散(標準偏差)、平均の変化量、分散(標準偏差)の変化量の、いずれか一つ以上組み合わせて利用し、識別する手段を含む。
本発明(請求項7)は、コンピュータを、
請求項4乃至6のいずれか1項に記載の映像構造化装置として機能させるプログラムである。

上記のように本発明によれば、一般的に管理することが煩雑なパーソナル映像を対象に、カメラワークと動物体の有無によって映像を分割することで、映像に関して最も重要な情報である動き情報によるインデクシングが可能となる。これにより、代表画像の選出や、映像内へのメタデータ付与の効率化、映像の一覧性の向上等、その実用的な効果は多大である。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における映像構造化装置の構成を示す。
同図に示す映像構造化装置は、映像読込部1、映像一時格納部2、動きベクトル算出部3、特徴量算出部4、サブショット種別識別部5、映像分割部6、映像・セグメント情報格納部7、学習データ格納部8から構成される。
映像読込部1は、分析対象のワンショットのパーソナル映像を読み込み、映像一時格納部2に格納する。ここで、分析対象のパーソナル映像は、既にショット毎に管理され、ディスク装置等の記憶手段に格納されているものとする。なお、ショットとは、カメラの録画ボタンのオンからオフまで撮影された一連の映像のことを示す。当該映像構造化装置に入力される映像は、ショット単位で行われ、特にこのような映像を「ワンショット映像」と呼ぶ。システムによっては、分割された映像のセグメントのことを、特に「サブショット」と定義し、サブショットの種別を「サブショット種別」と定義する。
動きベクトル算出部3は、映像一時格納部2に格納された映像をフレーム単位で逐次読み出して、当該フレームの動きベクトルを算出する。
特徴量算出部4は、動きベクトル算出部3で算出された動きベクトルからサブショット種別を判定する特徴量を算出する。ここで、ローカルモーションとグローバルモーションの要素を特徴量に盛り込むため、フレーム画像を、予め定めた領域に分割して、その領域毎に分割して、その領域毎に特徴量を算出する。当該特徴量算出部4では、動物体を背景から抽出することなく、予め定められた領域毎に特徴量を算出するため、計算量コストを抑えることができる。
サブショット種別識別部5は、学習データ格納部8に格納されている学習データを参照して、特徴量算出部4で算出された特徴量を用いてフレーム単位のセグメント種別を識別する。
学習データ格納部8は、あらゆる被写体の種類や、手振れに関する学習データを保持する。これにより、あらゆる被写体の種類や手振れに対してロバストに識別することが可能となる。
映像分割部6は、フレーム単位のセグメント種別を用いて映像を分割し、映像・セグメント情報格納部7に格納する。
図4は、本発明の一実施の形態におけるワンショット映像をサブショットに分割した例を示す。
同図に示す例は、止まっていた被写体が動き出し、それをフォロー撮影し、被写体が止まる所までを撮影した映像である。この映像の場合、4つのサブショットを含むことになる。
上記の構成により、映像構造化装置は、入力としてワンショットの映像を受け取ると、撮影者のカメラワークと映像内の動物体の有無に基づいたサブショット種別に映像コンテンツを自動的に分割する。
次に、上記の構成における動作を詳細に説明する。
最初に、パーソナル映像のサブショットを定義する。図4は、本発明の一実施の形態におけるサブショット種別を示す図である。
本実施の形態では、図4のように、サブショットはω0〜ω5までの6つの種別を持つ。縦軸は、カメラワークの種別である。カメラワークは、無い場合、有る場合、ズームの場合の3分類である。カメラワークが有る場合は、パン、チルト、ドリー、ブーム、トラックを含む。縦軸は、実世界に動物体が無い場合、有る場合の2分類としている。以下に各カテゴリの説明と例を示す。
ω0:カメラワーク無し、動物体無し;
(例)注目オブジェクトを単に撮影している場合、また動きだすことを待っている場合等;
ω1:カメラワーク無し、動物体有り;
(例)注目オブジェクトがフレーム内で動いている場合等;
ω2:カメラワーク有り、動物体無し;
(例)風景や、建物やその場の雰囲気を撮影するため、パンやチルトをする場合等;
ω3:カメラワーク有り、動物体無し;
(例)注目オブジェクトの動きに合わせてカメラを動かしている場合等;
ω4:カメラワーク有り、動物体有り(フォロー無し)
(例)風景や、建物やその場の雰囲気を撮影するため、パンやチルトをする場合に、フォローしていない動物体が含まれている場合等;
ω5:ズーム区間;
(例)注目オブジェクトがあり、そのオブジェクトにズーム・インする場合、その場全体をフレームに収めるためズームアウトする場合等;
ズームの場合は、その行為自体に大きな撮影者の意図が含まれるため、動物体の有無で細かく分類していない。
図6は、本発明の一実施の形態における動作のフローチャートである。
ステップ201) 映像読込部1が、入力された分析対象のワンショットの映像を読み込み、映像一時格納部2へ蓄積する。
ステップ202) 動きベクトル算出部3が、映像一時格納部2から映像をフレーム単位で、逐次読み出し、フレームの動きベクトルを算出する。本実施の形態では、特徴点のフレームの対応関係を逐次算出することで動きベクトルを算出する。他の方法として、ブロックマッチングによって算出する方法もある。
特徴点の対応付けの具体的な方法を以下に示す。映像の総フレーム数をN枚とする、i番目のフレーム画像をImg(i),i+1番目のフレーム画像をImg(i+1)とする。但し、i=1,2,…,N−1である。Img(i)から、M個の特徴点Pij=(pxij,pyij)(i=1,2,…,N−1,j=1,2,…,M)を検出する。特徴点検出は、従来手法である、コーナー、物体の輪郭など画像の濃度分布の変化が大きい点を抽出する。例えば、従来技術であるHarrisオペレータ等を用いればよい。Img(i+1)における対応点Qij=(qxij,qyij)(i=1,2,…,N−1,j=1,2,…,M)の検出は、Img(i)におけるPijの近傍の濃度分布を参照し、Img(i+1)において、濃度分布と相関の高い位置を求めることにより実現することができる。
ここで、算出された自然特徴点の組から、以下の式(1)、からImg(i)とImg(i+1)の間の動きベクトルVij(i=1,2,…,N−1,j=1,2,…,M)を算出する。
ij=(vxij,vyij)=(qxij−pxij,qyij−pyij) …式(1)
(但し、i=1,2,…,N−1,j=1,2,…,M)
算出された動きベクトルVijと、動きベクトルの開始点Pijを出力する。それぞれi=1,2,…,N−1、j=1,2,…,Mとし、iとjはVijとPijの間で対応付いているものとする。最終的に、動きベクトル算出部3内のメモリにVijとPijを出力する。
ステップ203) 特徴量算出部4は、動きベクトル算出部3のメモリから読み出されたVijとPij(i=1,2、…,N−1,j=1,2,…M)を入力とする。特徴量算出部4では、動きベクトルからフレーム単位のセグメント種別を識別するための特徴量を算出する。
本実施の形態では、特徴量として、
・動きベクトルの大きさの平均、
・動きベクトルの大きさの標準偏差、
・動きベクトルの方向の標準偏差、
・動きベクトルの方向の平均の変化量
の4つを採用する。
特徴量を計算する際、人間が撮影する際の心理として、注目オブジェクトである被写体を、フレームの真ん中付近に位置するように撮影するという性質を利用する。具体的にはフレームを図7のように、フレーム内を内側と外側に分けて特徴量を計算することで、ローカルモーションとグローバルモーションの要素を特徴量に盛り込む。以下、フレームの内側部分を「内部領域」、フレームの外側部分を「外部領域」と呼ぶこととする。領域の定義は任意であるが、本実施の形態では、形がフレーム画像と相似の矩形、大きさがフレーム画像の50%、位置がフレーム画像の中心と矩形の中心が一致するように設置し、矩形の内部を「内部領域」、外側を「外部領域」と定義している。ここで、実験的に学習データを用いて、矩形の大きさを変えてサブショット識別を行った場合、最も識別率が高い結果が得られた比率を採用することもできる。
動きベクトルがフレームの内部領域か、外部領域かを判定するには、動きベクトルの始点であるPijが、フレームの内部領域か、外部領域にあるかどうかで判定する。
ここで、算出する特徴量を定義する。扱う領域内に含まれる特徴点の個数をK(k<M)とする。i番目のフレーム画像の扱う領域内に含まれる特徴点のk番目の特徴点の動きベクトルは、
ik=(vxik,vyik) (i=1,2,…,N−1, k=1,2,…K)
式(1)
であるとする。
である。
以上の4つの特徴量を定義する。フレームの内部領域の特徴量の個数をKinner,外部領域の特徴量の個数をKouterとして、上記の式(2)から式(5)のKと入れ替えた値を特徴量とする。その結果フレーム毎に、内部領域4次元、外部領域4次元、計8次元の特徴量が得られる。特徴量に対して、ショットの全てのフレームで特徴量を算出する。全てのフレームの特徴量を算出した後、特徴量のスケールをあわせるために、各特徴量毎に平均値を、中心に分散が等しくなるように正規化処理を行ったものを実際に使用する特徴量として出力する。出力される特徴量をTi(i=1,2,…,N−1)とし、特徴量算出部4内のメモリ(図示せず)に出力する。
ステップ204) フレーム総数をNとする。
ステップ205) ループカウンタiを初期化する(i=1)。
以下では、サブショット種別識別部5においては、特徴量算出部4において算出された特徴量Tiを入力として、フレーム毎にサブショット種別を判定する。判定方法としては、閾値で行う方法もあるが、ホームビデオの場合、撮影された映像には、予測不可能な手振れや被写体があるため、一定の閾値処理で識別することは難しい。そこで、本実施の形態では、学習データを用いる手法を採用する。本実施の形態では、識別方法として最もシンプルな最近傍決定則にて行う。他の手法としては、判別分析等が考えられる。
学習データは、手作業により各サブショットに分類される映像を収集し、ステップ203、ステップ204において前述した動きベクトル算出部3と、特徴量算出部4による同様の特徴量算出の処理を、予め施し特徴量を求めている。この学習データを学習データ格納部8に予め保持しておく。
ステップ206) サブショット種別識別部5は、学習データ格納部8から学習データを読み出し、学習データ群を、8次元の識別空間にマッピングしておく。
ステップ207) サブショット種別識別部5は、i番目のフレームの特徴量を特徴量算出部4内のメモリ(図示せず)から読み出す。
ステップ208) サブショット種別識別部5は、識別空間にマッピングされた識別対象と、ユークリッド距離が最も近い学習データを算出する。
ステップ209) サブショット種別識別部5は、最もユークリッド距離が近い学習データの属するサブショット種別を、識別対象のサブショット種別とする。この際、誤判定を防ぐため、ユークリッド距離の最も近い上位a個(aは予め定めておく)の学習データ点を抽出し、多数決によって種別を判定する方法も考えられる。また、ユークリッド距離が予め定めた閾値εよりも大きい場合、信頼性が低いと判定できるため、リジェクト処理を行うことも考えられる。
ステップ210) 全てのフレームの識別を行ったかを判定し、判定すべき識別対象がある場合はステップ211に移行し、全てのフレームの識別を行った場合はステップ212に移行する。このとき、各フレームのサブショット種別Ωi(i=1,2,…,N)を出力する。但し、Ωiはω0、ω1、ω2、ω3、ω4、ω5のいずれかである。
ステップ211) i=i+1とし、ステップ207に移行する。
ステップ212) 映像分割部6は、各フレームのサブショット種別Ωi(i=1,2,…,N)を入力とし、入力されたワンショット映像をサブショットに分割する。図8は、本発明の一実施の形態における映像分割部におけるサブショット分割の例を示す。フレーム毎においては、図8に示すように所々雑音が入り、サブショットが大量にできてしまう可能性がある。そこで、予め定めたフレーム数b毎に、時系列順に区切る。この区間のことをサブショット最小区間と呼ぶ。図8では、b=8としている例である。このサブショット最小区間内に含まれる、b個のフレームサブショット種別を用いて、多数決によって、サブショット最小区間のサブショット種別を判定する。ここで雑音とは、サブショット最小区間において、ω1と多数決により判定されている区間において、フレーム間のサブショット種別がω0と判定されているフレームが雑音となる。また、同様に、サブショット最小区間において、ω2と判定されている区間において、フレーム間のサブショット種別がω3と判定されているフレームが雑音となる。
多数決で決まらない場合には、前後のサブショット最小区間の識別結果を採用することや、サブショット種別に優先順位を予め付けておく、前後のサブショット最小区間とマージして多数決を行う等の、ルールを予め設定しておくことができる。本実施の形態では、多数決でも決まらない場合、一つ前のセグメント最小区間の識別結果を採用することとする。もし、ワンショット映像の一番先頭のサブショット最小区間が、多数決で決まらない場合、そのサブショット種別はω0とする。全てのサブショット最小区間において同様の処理を行い、結果Ω’jを映像分割部6内のメモリ(図示せず)に出力する。ここで、サブショット最小区間の数をUとすると、j=1,2,…,Uである。
ステップ213) 映像分割部6は、サブショット最小区間のサブショット種別Ω’jをメモリから取得し、前後の種別が同じ場合はマージを行い、反対に切り替わった場合は、切り替わった点をサブショットの分割点と定め、サブショットのin点、out点のフレーム番号を記録する。サブショットのin点、out点の情報と、映像とともに映像・セグメントを、映像・セグメント情報格納部7に格納する。図9は、本発明の一実施の形態における映像のセグメント情報の例を示す。
以上述べた処理により、高圧縮・低品質で手振れがあるようなパーソナル映像を対象に、計算コストを低く抑えられ、カメラワークと実環境中の動物体の有無の組み合わせで6種別のセグメントに大まかに分割することが可能となる。
なお、上記の動作をプログラムとして構築し、映像構造化装置として利用されるコンピュータにインストールして実行する、または、ネットワークを介して流通させることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、映像構造化技術やインデクシング技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における映像構造化装置の構成図である。 本発明の一実施の形態におけるワンショット映像をサブショットに分割した例である。 本発明の一実施の形態におけるサブショット種別を示す図である。 本発明の一実施の形態における動作のフローチャートである。 本発明の一実施の形態における内部領域と外部領域の例である。 本発明の一実施の形態におけるサブショット分割の例である。 本発明の一実施の形態における映像セグメント情報の例である。
符号の説明
1 映像読込手段、映像読込部
2 映像一時記憶手段、映像一時格納部
3 動きベクトル算出手段、動きベクトル算出部
4 特徴量算出手段、特徴量算出部
5 セグメント種別識別手段、サブショット種別識別部
6 映像分割手段、映像分割部
7 映像・セグメント情報記憶手段、映像・セグメント情報格納部
8 学習データ格納部

Claims (7)

  1. カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
    分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップと、
    前記記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップと、
    入力された前記映像のフレーム画像を内部領域と外部領域とに分割し、分割された2つの領域毎に、前記動きベクトルから動きを表す特徴量それぞれにN個ずつ算出し、内部領域のN個の特徴量と外部領域のN個の特徴量を合せた2N個の特徴量を各フレーム画像毎に得る特徴量算出ステップと、
    前記2N個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップと、
    フレーム単位のセグメント種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を記憶手段に格納する映像分割ステップと、
    を行うことを特徴とする映像構造化方法。
  2. カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
    分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップと、
    前記記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップと、
    算出された前記動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出ステップと、
    前記特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップと、
    予め定めたフレーム数からなる最小区間に前記映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、前記最小区間のサブショット種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を記憶手段に格納する映像分割ステップと、
    を行うことを特徴とする映像構造化方法。
  3. 前記特徴量算出ステップにおいて、
    前記特徴量として、前記動きベクトルの大きさと方向の、平均、分散(標準偏差)、平均の変化量、分散(標準偏差)の変化量の、いずれか一つ以上組み合わせて利用し、識別する、
    請求項1または2の映像構造化方法。
  4. カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
    読み込まれた映像データを一時的に保持する映像一時記憶手段と、
    分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段と、
    分析対象である映像を読み込んで、一時的に前記映像一時記憶手段に格納する映像読込手段と、
    前記映像一時記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段と、
    入力された前記映像のフレーム画像を内部領域と外部領域とに分割し、分割された2つの領域毎に、前記動きベクトルから動きを表す特徴量それぞれにN個ずつ算出し、内部領域のN個の特徴量と外部領域のN個の特徴量を合せた2N個の特徴量を各フレーム画像毎に得る特徴量算出手段と、
    前記2N個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段と、
    フレーム単位のセグメント種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を前記映像・セグメント情報記憶手段に格納する映像分割手段と、
    を有することを特徴とする映像構造化装置。
  5. カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
    読み込まれた映像データを一時的に保持する映像一時記憶手段と、
    分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段と、
    分析対象である映像を読み込んで、一時的に前記映像一時記憶手段に格納する映像読込手段と、
    前記映像一時記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段と、
    算出された前記動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出手段と、
    前記特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段と、
    予め定めたフレーム数からなる最小区間に前記映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、前記最小区間のサブショット種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を前記映像・セグメント情報記憶手段に格納する映像分割手段と、
    を有することを特徴とする映像構造化装置。
  6. 前記特徴量算出手段は、
    前記特徴量として、前記動きベクトルの大きさと方向の、平均、分散(標準偏差)、平均の変化量、分散(標準偏差)の変化量の、いずれか一つ以上組み合わせて利用し、識別する手段を含む、
    請求項4または5の映像構造化装置。
  7. コンピュータを、
    請求項4乃至6のいずれか1項に記載の映像構造化装置として機能させることを特徴とする映像構造化プログラム。
JP2005259457A 2005-09-07 2005-09-07 映像構造化方法及び装置及びプログラム Expired - Fee Related JP4606278B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005259457A JP4606278B2 (ja) 2005-09-07 2005-09-07 映像構造化方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005259457A JP4606278B2 (ja) 2005-09-07 2005-09-07 映像構造化方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007072789A JP2007072789A (ja) 2007-03-22
JP4606278B2 true JP4606278B2 (ja) 2011-01-05

Family

ID=37934172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005259457A Expired - Fee Related JP4606278B2 (ja) 2005-09-07 2005-09-07 映像構造化方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4606278B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200401808A1 (en) * 2018-07-18 2020-12-24 Tencent Technology (Shenzhen) Company Ltd Method and device for identifying key time point of video, computer apparatus and storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5181325B2 (ja) * 2007-08-08 2013-04-10 国立大学法人電気通信大学 カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法
JP5256803B2 (ja) 2008-03-19 2013-08-07 株式会社メガチップス トランスコーダ
JP5039976B2 (ja) * 2008-03-24 2012-10-03 株式会社メガチップス トランスコーダ
JP2012227645A (ja) * 2011-04-18 2012-11-15 Nikon Corp 画像処理プログラム、画像処理方法、画像処理装置、撮像装置
JP7461189B2 (ja) 2020-03-24 2024-04-03 東芝テック株式会社 処理装置、処理方法及びコンピュータプログラム
CN113301385B (zh) * 2021-05-21 2023-02-28 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161072A (ja) * 1995-12-13 1997-06-20 Tsushin Hoso Kiko 映像信号の構造情報を抽出する映像処理装置
JP2677312B2 (ja) * 1991-03-11 1997-11-17 工業技術院長 カメラワーク検出方法
JPH11224266A (ja) * 1997-11-10 1999-08-17 Nippon Telegr & Teleph Corp <Ntt> 電子映像文書作成利用方法及びプログラム格納媒体
JP3131560B2 (ja) * 1996-02-26 2001-02-05 沖電気工業株式会社 動画像処理システムにおける動画像情報検出装置
JP2002305683A (ja) * 2001-04-04 2002-10-18 Olympus Optical Co Ltd 撮像装置および撮像プログラムを記録した記録媒体
JP2004128550A (ja) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc 動画像データのシーン分類装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2677312B2 (ja) * 1991-03-11 1997-11-17 工業技術院長 カメラワーク検出方法
JPH09161072A (ja) * 1995-12-13 1997-06-20 Tsushin Hoso Kiko 映像信号の構造情報を抽出する映像処理装置
JP3131560B2 (ja) * 1996-02-26 2001-02-05 沖電気工業株式会社 動画像処理システムにおける動画像情報検出装置
JPH11224266A (ja) * 1997-11-10 1999-08-17 Nippon Telegr & Teleph Corp <Ntt> 電子映像文書作成利用方法及びプログラム格納媒体
JP2002305683A (ja) * 2001-04-04 2002-10-18 Olympus Optical Co Ltd 撮像装置および撮像プログラムを記録した記録媒体
JP2004128550A (ja) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc 動画像データのシーン分類装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200401808A1 (en) * 2018-07-18 2020-12-24 Tencent Technology (Shenzhen) Company Ltd Method and device for identifying key time point of video, computer apparatus and storage medium
US11803749B2 (en) * 2018-07-18 2023-10-31 Tencent Technology (Shenzhen) Company Ltd Method and device for identifying key time point of video, computer apparatus and storage medium

Also Published As

Publication number Publication date
JP2007072789A (ja) 2007-03-22

Similar Documents

Publication Publication Date Title
US10706892B2 (en) Method and apparatus for finding and using video portions that are relevant to adjacent still images
Lai et al. Semantic-driven generation of hyperlapse from 360 degree video
US10062412B2 (en) Hierarchical segmentation and quality measurement for video editing
Su et al. Pano2vid: Automatic cinematography for watching 360 videos
Arev et al. Automatic editing of footage from multiple social cameras
JP6694829B2 (ja) ルールに基づくビデオ重要度解析
AU2009243442B2 (en) Detection of abnormal behaviour in video objects
US8594488B1 (en) Methods and systems for video retargeting using motion saliency
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP4606278B2 (ja) 映像構造化方法及び装置及びプログラム
US9159362B2 (en) Method and system for detecting and recognizing social interactions in a video
Abdollahian et al. Camera motion-based analysis of user generated video
EP1542153A1 (en) Object detection
US10657657B2 (en) Method, system and apparatus for detecting a change in angular position of a camera
JP2010009425A (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
Hasan et al. CAMHID: Camera motion histogram descriptor and its application to cinematographic shot classification
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
Cricri et al. Multimodal extraction of events and of information about the recording activity in user generated videos
WO1999005865A1 (en) Content-based video access
Choudhary et al. Real time video summarization on mobile platform
CN114598810A (zh) 全景视频的自动剪辑方法、全景相机、计算机程序产品及可读存储介质
Apostolidis et al. A motion-driven approach for fine-grained temporal segmentation of user-generated videos
Helm et al. HISTORIAN: A Large-Scale Historical Film Dataset with Cinematographic Annotation
AU2016277643A1 (en) Using face detection metadata to select video segments
US20190108402A1 (en) Method, system and apparatus for selecting frames of a video sequence

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees