JP5209593B2 - 映像編集装置,映像編集方法および映像編集プログラム - Google Patents

映像編集装置,映像編集方法および映像編集プログラム Download PDF

Info

Publication number
JP5209593B2
JP5209593B2 JP2009279253A JP2009279253A JP5209593B2 JP 5209593 B2 JP5209593 B2 JP 5209593B2 JP 2009279253 A JP2009279253 A JP 2009279253A JP 2009279253 A JP2009279253 A JP 2009279253A JP 5209593 B2 JP5209593 B2 JP 5209593B2
Authority
JP
Japan
Prior art keywords
video
semantic content
context
section
video segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009279253A
Other languages
English (en)
Other versions
JP2011124681A (ja
Inventor
豪 入江
隆 佐藤
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009279253A priority Critical patent/JP5209593B2/ja
Publication of JP2011124681A publication Critical patent/JP2011124681A/ja
Application granted granted Critical
Publication of JP5209593B2 publication Critical patent/JP5209593B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は,処理対象となる入力映像に対して,映像区間のコンテキストを考慮した映像編集を,短い処理時間で実施する装置およびその方法と,その映像編集方法の実現に用いられる映像編集プログラムとに関する。
近年,通信を利用した映像の配信と共有が活発化している。ここで配信・共有される映像は,主に一般のユーザ,すなわち,プロフェッショナルではない人物によって作成されたものがほとんどであり,消費者生成メディア(CGM:Consumer Generated Media),あるいはユーザ生成コンテンツ(UGC:User Generated Content)などと呼ばれる。以降,本稿では,CGMと呼ぶものとする。
CGMは,現状,まだまだプロフェッショナルが制作した映像に比べて,品質の高くないものが多いといえる。この主要な原因は,プロフェッショナルな作者と,CGMを作成する一般のユーザ(作者)が利用する設備,および,これらを利用するスキルにある。撮像機器(ビデオカメラ)に着目すれば,プロフェッショナルの場合は,鮮明な撮像が可能な高性能な業務用ビデオカメラを所有しているが,一般のユーザの場合には,市販のものを利用している。一般ユーザは,カメラワークなどの撮影技術についても訓練されていないため,撮影された映像の質にも大きな差異が生じてくる。
特に大きな差異を引き起こすのは,映像編集である。映像は,画像と音の時系列データである。一般に,撮影した映像がそのままの形で流通することは稀であり,下記のような編集工程を経て公開される。
・部分区間を削除する(シーンの取捨選択)
・時間順序を並び替える
・別の映像(シーン)を挿入する
映像編集の目的は,撮影直後の整理されていない映像を,「視聴に適する形」に整理することである。例えば,主張点を明確にするために,冗長で無駄だと感じられるシーンを削除したり,内容の理解を助けるために,あえて時間順序を入れ替えたりといった場合がある。
映像を編集する際に最も重要な点は,視聴者に対してわかりやすい,整理されている,あるいは,楽しむことができるものとして制作するということである。このような編集は,ある程度専門的な知識や判断が必要となるため,訓練を積んだ映像作成者,編集者などのプロフェッショナルによるものでなければ,十分な効果を得ることができないのが現状となっており,一般のユーザには効果的な編集を実現することは難しい。
このような現状から,昨今,一般のユーザの編集を支援し,高いレベルの映像編集を自動的に実施できる技術がますます求められている。
本発明に関連する先行技術として,下記の特許文献1には,映像の情報を分析して,感情的な区間を検出し,感情的な区間をわかりやすくユーザに提示して,編集を支援する映像編集技術が開示されている。
特開2009−111938号公報
特許文献1で開示された映像編集技術は,重要な映像シーンの一つである,感情的な区間をわかりやすく提示することを行っており,これによりユーザにとって利用しやすい編集支援ツールを提供していた。
しかしながら,この映像編集技術は,あるシーンが感情的であるか否かを判断し,これに基づいてシーンの選別をしているにすぎず,編集の結果生成される映像の「コンテキスト(文脈)」を無視している。映像は,時間軸を持ったメディアであり,最初から再生し,タイムラインに沿って順に視聴することにより,意味を持つものである。すなわち,映像は,時間方向に沿ったコンテキストを持ったメディアであるといえる。当然,このことは映像を編集する際にも考慮されて然るべきである。
わかりやすい一例をあげる。例えば,編集される前の元の映像では,「(1) :男Aが歩いている」「(2) :向かい側から歩いてきた男Bが,男Aに向けて飛んでくる野球ボールに気が付いた」「(3) :向かい側から歩いてきた男Bが,すれちがい際に男Aを突き飛ばした」というコンテキストを持っていたとしよう。男Bは,男Aにボールが当たらないよう,緊急的に突き飛ばしたシーンである。もし,編集された結果生成された映像に,(2) のシーンがなく,「(1) :男Aが歩いている」,「(3) :向かい側から歩いてきた男Bが,すれちがい際に男Aを突き飛ばした」という流れだったとしたら,全く別の意味を持つ内容に変わってしまうように感じられるだろう。
上記のような,意味内容に影響を及ぼすケースに限らなくても,重要なコンテキストは存在する。例えば,非常に楽しく,笑えるシーンがあったとしよう。直後に,そのシーン単体としては悲しい,泣けるシーンが来るように編集されていたとした場合,そのシーンを視聴した視聴者が悲しい,泣ける気持ちになることは稀であろう。また,例えば,ずっと楽しいシーンが続くように編集されていたとすると,視聴者は次第に飽きてしまい,楽しさも薄れてくると推測できるであろう。
以上のように,映像の自動編集において,コンテキストを考慮することは最も重要な課題の一つであると考えられる。
本発明は,この課題を解決すべく,処理対象の映像に対して,生成される編集映像のコンテキストを考慮しながら編集映像を自動生成し,出力する映像編集技術の提供を目的とするものである。
この目的を達成するために,本発明は,映像を小区間に区切り,各小区間に各意味内容との尤度を付与していく。その意味的尤度から小区間をクラスタリングする。各クラスタの代表小区間について,映像としての繋がりの関係から映像の意味的な変化度合い(コンテキスト類似度)を所定の式に従って算出する。その意味的な変化度合いの平均をとれば,映像全体の意味的な変化度合いとなる。一つのクラスタ(代表区間)を取り除いた場合(取り除くものの候補は複数)を比較し,好み(意味的変化を望むか望まないか)によって,取り除くクラスタを決めていく。これにより,目的とする映像編集を行う。
詳しくは,以下のとおりである。本発明の映像編集装置は,映像内容の持つ意味を予め定められた特定の単語によって表現した意味内容カテゴリと,映像区間の画像特徴もしくは音特徴またはその双方からなる映像区間特徴量との確率的な関係を示す尤度モデルの情報を記憶する意味内容カテゴリ辞書と,入力映像を映像区間に分割する映像区間分割部と,前記各映像区間から映像区間特徴量を抽出する映像区間特徴量抽出部と,抽出された映像区間特徴量に基づいて,前記意味内容カテゴリ辞書を参照し,該映像区間に対する各意味内容カテゴリの尤度を出力する意味内容尤度計算部と,前記尤度に基づいて前記映像区間をクラスタリングし,生成された各映像区間クラスタから一つ以上の代表映像区間を選出するクラスタリング部と,前記選出された代表映像区間の組み合わせから得られる複数の候補代表映像区間の並びについて,少なくとも前記尤度を用いて映像区間の繋がりにおける意味的な変化度合いを示すコンテキスト類似度を算出し,算出したコンテキスト類似度をもとに全体として意味的な変化度合いが大きい候補代表映像区間の並びまたは意味的な変化度合いが小さい候補代表映像区間の並びのいずれかを編集映像に用いる候補代表映像区間群として選出する編集対象映像区間選出部と,前記選出された候補代表映像区間群の映像区間をつなぎ合わせることにより編集映像を生成して出力する編集映像出力部とを備える。
以上の各処理手段が動作することで実現される本発明の映像編集方法はコンピュータプログラムでも実現できるものであり,このコンピュータプログラムは,適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり,ネットワークを介して提供されたりしてもよく,本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
このように構成される映像編集装置では,処理対象の映像を入力すると,その処理対象の映像の持つ画像情報および/または音情報から映像区間ごとに映像区間特徴量を抽出し,意味内容カテゴリの尤度を計算する。特徴量としては,例えば,明るさ特徴,色特徴,動き特徴,テクスチャ特徴,カット特徴,オブジェクト特徴,画像イベント特徴,音高特徴,音量特徴,スペクトル特徴,リズム特徴,発話特徴,音楽特徴,音イベント特徴などがあり,これらのうち少なくとも一つを特徴量として抽出する。
また,ある意味内容カテゴリに対して,その他の意味内容カテゴリとの関連度合いを計算して,コンテキストの類似度計算に用いるために記憶しておく。
続いて,以下の[処理1]〜[処理6]までの処理段階を繰り返す。
[処理1]:前記尤度に基づいて,全ての映像区間をクラスタリングして映像区間クラスタを生成し,各映像区間クラスタから一つ以上の代表映像区間を選出する。
[処理2]:代表映像区間の並びにおける各代表映像区間位置に対して,それよりも過去に位置する代表映像区間位置の映像区間特徴,および,前記尤度と前記関連度合いに基づいて,意味内容カテゴリに帰属する予測確率を計算する。
[処理3]:代表映像区間の並びにおける各代表映像区間位置に対して,それ以前に位置する代表映像区間位置の映像区間特徴,および,前記尤度と前記関連度合いに基づいて,意味内容カテゴリに帰属する事後確率を計算する。
[処理4]:前記予測確率と前記事後確率との類似度を,コンテキスト類似度として計算する。
[処理5]:前記コンテキスト類似度の代表映像区間の並び全体に渡る平均を求め,その平均が最大または最小となるような代表映像区間の並びを選出する。
[処理6]:終了条件が満たされていなければ,選出された代表映像区間群を,新たな映像区間群とみなして,[処理1]に戻る。終了条件が満たされていれば,得られた代表映像区間をつなぎ合わせ,編集映像として出力する。
以上の[処理2]〜[処理4]の処理手続きにより,過去のコンテキストに依存した意味内容帰属確率(予測確率,事後確率)と,その類似度を計算することによって,それまでのコンテキストに合った映像編集や,それまでのコンテキストとは異なる映像編集を実現することができ,コンテキストを考慮した映像の自動編集が可能となる。
本発明によれば,ユーザは,映像を入力するだけで,コンテキストを考慮した映像編集を自動的に実行することができるようになる。これにより,訓練を積んでいる映像作成者や編集者の人手を介することなく,高度な編集映像を実現することができる。
また,従来の映像編集においてコンテキストを考慮しようとした場合,さまざまな映像区間の組合せを考え,映像区間の選定を行わなければならないため,処理時間がかかる。より具体的には,映像区間の数Nに対して,Nの階乗オーダ以上の計算コストを見込むため,多項式時間で終了しない問題となる。本発明の処理手続きでは,
(1)段階的に映像区間の絞り込みを行う,
(2)意味内容の近い映像区間をクラスタリングする,
という二つの手続きを導入することによって,多項式時間で終了する処理手続きとなっている。
したがって,本発明のユーザは,コンテキストを考慮した編集映像を,短い時間で自動的に得ることができる。
本発明の一実施形態に係る映像編集装置の構成例を示す図である。 映像編集装置が実行する映像編集処理のフローチャートである。 映像区間のクラスタリングと代表映像区間抽出の一例を示す図である。 代表映像区間を篩う一例を示す図である。
以下,図面を用いて,本発明の実施の形態を詳細に説明する。
図1は,本発明の一実施形態に係る映像編集装置の装置構成の一例を示す図である。図1において,映像編集装置1は,CPU,メモリ,外部記憶装置などからなるコンピュータのハードウェアとソフトウェアプログラムとによって,編集対象となる映像10を入力し,編集結果の編集映像19を出力する装置であり,映像入力部11と,映像記憶部12と,映像区間分割部13と,映像区間特徴量抽出部14と,意味内容尤度計算部15と,クラスタリング部16と,編集対象映像区間選出部17と,編集映像出力部18と,意味内容カテゴリ辞書20と,意味内容関連度計算部21と,意味内容関連度記憶部22とを備える。
編集対象映像区間選出部17は,類似度計算部170と,代表映像区間篩部174とを有しており,類似度計算部170は,コンテキスト予測確率計算部171と,コンテキスト事後確率計算部172と,コンテキスト類似度計算部173とを有している。
映像入力部11は,編集の処理対象となる映像10を入力して,それを映像記憶部12に格納する。映像区間分割部13は,処理対象の映像を複数の映像区間に分割する。映像区間特徴量抽出部14は,処理対象の映像区間の持つ画像情報や音情報に基づいて各区間の持つ特徴量を抽出して出力する。
意味内容尤度計算部15は,映像区間特徴量抽出部14の抽出した映像区間特徴量に基づいて,意味内容カテゴリ辞書20に予め設定されて登録されている一つ以上の意味内容カテゴリのそれぞれに対して,映像区間が意味内容カテゴリにどの程度帰属しているかを尤度として計算し,出力する。
意味内容関連度計算部21は,予め意味内容カテゴリ辞書20に登録されている任意の意味内容カテゴリを入力として受け取り,当該意味内容カテゴリとその他の意味内容カテゴリとの関連度合いを計算し,意味内容関連度記憶部22に格納する。
なお,意味内容カテゴリ辞書20と意味内容関連度記憶部22は,予め映像編集装置1またはそれとは別の装置により,学習用サンプル映像等を用いて意味内容カテゴリについての学習を行うことによって作成しておくことができる。
クラスタリング部161は,意味内容尤度計算部15が出力した尤度に基づいて,映像区間をクラスタリングする。さらに,各クラスタの中から代表となる映像区間を一つ以上,代表映像区間として出力する。
編集対象映像区間選出部17は,編集映像に用いる候補代表映像区間群を選出する。そのため,類似度計算部170におけるコンテキスト予測確率計算部171は,クラスタリング部16が出力した代表映像区間を再生時間順序に並べたときの,各代表映像区間位置におけるコンテキスト予測確率を,それよりも過去の代表映像区間位置における映像区間特徴に基づいて計算し,出力する。
コンテキスト事後確率計算部172は,クラスタリング部16が出力した代表映像区間を再生時間順序に並べたときの,各代表映像区間位置におけるコンテキスト事後確率を,それ以前の代表映像区間位置における映像区間特徴に基づいて計算し,出力する。
コンテキスト類似度計算部173は,コンテキスト予測確率計算部171が出力したコンテキスト予測確率,および,コンテキスト事後確率計算部172が出力したコンテキスト事後確率の類似度を計算し,出力する。
代表映像区間篩部174は,コンテキスト類似度計算部173が出力した類似度に基づいて,一つ以上の除去する代表映像区間を決定し,残りの代表映像区間を出力する。
編集映像出力部18は,終了条件が満たされたとき,代表映像区間篩部174が出力した代表映像区間をつなぎ合わせ,編集映像19として出力する。
このようにして,映像編集装置1は,映像作成者や編集部の人手を介することなく,処理対象の映像を編集するように処理する。
図2に,このように構成される映像編集装置1が実行する映像編集処理のフローチャートを示す。このフローチャートを用いて,映像編集装置1が行う映像編集処理の一例について詳述する。
なお,以下で説明する映像編集処理では,予め作成された意味内容カテゴリ辞書20に格納された意味内容カテゴリの情報と,意味内容関連度計算部21によって予め計算された意味内容関連度記憶部22に記憶された意味内容関連度の情報を用いるが,これらの詳細については,以下の処理手順の説明に合わせて説明する。
まず,ステップS201で,処理対象となる映像を入力し,ステップS202で,入力した映像の映像区間分割を行う。この映像区間分割は,予め決定しておいた一定の間隔で分割するものとしてもよいし,例えば,下記の参考文献1に記載される方法など,映像が不連続に切れる点であるカット点によって分割するものとしてもよい。
[参考文献1]:Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, "Structured Video Computing", IEEE Multimedia, pp.34-43, 1994.
次に,ステップS203では,映像区間中の画像・音情報から,映像区間特徴量の抽出を行う。映像区間特徴量は,画像から抽出するものと,音から抽出するものとがある。いずれも,例えば,50msなどの微小な区間(フレーム)から抽出したものの統計量を,区間内で計算することによって抽出する。
例えば,画像から抽出する特徴としては,明るさ特徴,色特徴,動き特徴,テクスチャ特徴,カット特徴,オブジェクト特徴,画像イベント特徴がある。
明るさ特徴,色特徴,動き特徴などは,それぞれ,ピクセル毎の明度,RGB値,動きベクトルを計算することによって求めることができる。テクスチャ特徴としては,濃淡ヒストグラムの統計量(コントラスト)やパワースペクトルなどを求めればよい。また,これらは,一枚の画像全体に対する平均や分散などの統計量を用いるものとしてもよいし,あるいは,例えば8×8,16×16などの小さなピクセル領域ごとにヒストグラムを取り,ベクトルとして抽出するものとしてもよい。
カット特徴とは,シーンの切り替わり(カット)の有無,あるいは,頻度を表す特徴量である。厳密には単一の画像から抽出することができないため,近傍の画像を用いて求めることとなる。
オブジェクト特徴とは,画像に収められている物体である。本実施形態では,その物体が何であるかを同定するような物体認識はしないで,物体認識に用いられる局所特徴をオブジェクト特徴として利用する。局所特徴としては,例えば,下記の参考文献2に記載されるSIFT (Scale Invariant Feature Transform)や,下記の参考文献3に記載されるSURF (Speeded Up Robust Features) などを用いることができる。
[参考文献2]:D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, pp.91-110, 2004 .
[参考文献3]:H. Bay, T. Tuytelaars, and L.V. Gool, "SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006.
また,オブジェクト特徴として,特定の物体に焦点を当て,検出するといった方法を用いることも考えられる。例えば,顔の出現やその表情を得るといったアプローチが代表的である。顔を検出する方法としては,例えば,下記の参考文献4に記載される方法などを用いればよい。さらに表情も認識する場合には,下記の参考文献5に記載される方法などを用いればよい。
[参考文献4]:H.A. Rowley, S. Baluja, and T. Kanade, "Neural Network-based Face Detection", IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.203-208, 1996 .
[参考文献5]:I. Cohen, N. Sebe, A. Garg, L.S. Chen, and T.S. Huang, "Facial Expression Recognition from Video Sequences: Temporal and Static Modeling", Computer Vision and Image Understanding, vol.91, issues 1-2, pp.160-187, 2003.
画像イベント特徴とは,映像中に生起する事象のことである。例えば,急激なカメラワークや,テロップの出現などがある。例えば,急激なカメラワークを用いる場合には,上記の参考文献1に記載される方法などを用いることによって検出することができる。また,テロップを用いる場合には,下記の参考文献6に記載される方法などを用いることによって検出することができる。
[参考文献6]:桑野秀豪, 倉掛正治, 小高和己, “映像データ検索のためのテロップ文字抽出法”, 電子情報通信学会技術研究報告, PRMU, 96(385), pp.39-46, 1996 .
一方,音情報から抽出する特徴量としては,音高特徴,音量特徴,スペクトル特徴,リズム特徴,発話特徴,音楽特徴,音イベント特徴などがある。
音高特徴は,例えば,ピッチを取るものとすればよく,下記の参考文献7に記載される方法などを用いて抽出することができる。
[参考文献7]:古井貞熙, “ディジタル音声処理, 4. 9ピッチ抽出”, pp.57-59, 1985.
音量特徴としては,音声波形データの振幅値を用いるものとしてもよいし,短時間パワースペクトルを求め,任意の帯域の平均パワーを計算して用いるものとしてもよい。
スペクトル特徴としては,例えば,メル尺度ケプストラム係数(Mel-Frequency Cepstral Coefficients: MFCC)を用いることができる。
リズム特徴としては,例えば,テンポを抽出すればよい。テンポを抽出するには,例えば,下記の参考文献8に記載される方法などを用いることができる。
[参考文献8]:E.D. Scheirer, "Tempo and Beat Analysis of Acoustic Musical Signals", Journal of Acoustic Society America, Vol.103, Issue 1, pp.588-601, 1998.
発話特徴,音楽特徴は,それぞれ,発話の有無,音楽の有無を表す。発話・音楽の存在する区間を発見するには,例えば,下記の参考文献9に記載される方法などを用いればよい。
[参考文献9]:K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, "Video Handling with Music and Speech Detection", IEEE Multimedia, vol.5, no.3, pp.17-25, 1998.
音イベント情報としては,例えば,笑い声や大声などの感情的な音声,あるいは,銃声や爆発音などの環境音の生起などを用いるものとすればよい。このような音イベントを検出するには,例えば,下記の参考文献10(特許文献)に記載される方法などを用いればよい。
[参考文献10]:WO/2008/032787
続いて,ステップS204では,ステップS203で得た映像区間特徴量に基づいて,全ての映像区間に対して,意味内容尤度を計算する。
まず,ここでは,意味内容カテゴリについて説明する。意味内容カテゴリとは,映像内容の持つ意味を少数の単語によって表現したものであり,オブジェクト,イベント,概念,感情などを表すものである。
例えば,映像区間にサッカーのゴールシーンが収められている場合には,当該区間の意味内容カテゴリとして,「ボール(オブジェクト)」,「ゴール(イベント)」,「サッカー(概念)」,「歓喜(感情)」などがふさわしいだろう。また,旅行でハイキングをしている様子を収めた映像区間には,「木(オブジェクト)」,「山(オブジェクト)」,「歩行(イベント)」,「ハイキング(概念)」などが適当である。
これらのオブジェクト,イベント,概念,感情などを,予め意味内容カテゴリとして設定し,意味内容カテゴリ辞書20に登録しておく。また,意味内容カテゴリ辞書20に,多数のサンプル映像を学習することによって得られた各意味内容カテゴリと映像区間特徴量との確率的な関係を示す尤度モデルの情報を登録しておく。
ステップS204で算出する意味内容尤度は,映像区間iが与えられたとき,これがどの意味内容カテゴリに所属しているらしいかを,各意味内容カテゴリに属する尤もらしさとして確率的に推定した値である。意味内容尤度は,ステップS203で抽出した映像区間特徴量と,意味内容カテゴリ辞書20に予め設定された意味内容カテゴリそれぞれとの関係を設定したモデル(尤度モデル)を用いて計算する。この尤度モデルは,例えばある意味内容カテゴリに属する映像区間の映像区間特徴量をガウス分布やポアソン分布などの確率密度関数でモデル化して得てもよいし,映像区間特徴が離散的な場合には,条件付確率テーブルや多項分布などでモデル化してもよい。
上記のモデルは,全て確率モデルであるため,例えば人手によって,予め与えられた意味内容カテゴリのラベルに基づいて,学習することになる。例えば,サッカーの様子を撮影した映像区間iに,人手によって,「サッカー」のラベルが付与されているとする。このとき,意味内容カテゴリ「サッカー」に対して,当該映像区間iの映像区間特徴量xi が出現しやすくなるようにモデルを学習する。この学習には,例えば,最尤推定法などの公知の方法を用いればよい。ラベルが複数与えられている場合であっても,同様に各ラベルごとにモデルを学習すればよい。
得られた尤度モデルを,以下の数式で表す。
p(xi |ci ) …式(1)
ここで,xi はある映像区間iの映像区間特徴量,ci はある映像区間iの意味内容カテゴリであり,双方ともに確率変数である。xi は,ステップS203で計算された特徴量の値をとる。ci は,各意味内容カテゴリを指し示す。例えば,ci =「サッカー」,ci =「歩行」などである。
意味内容尤度を計算する際には,各意味内容カテゴリに対して,p(xi |ci )の式を計算すればよい。
ここでは,ある映像区間iについて,その意味内容尤度を計算する手順について説明する。例えば,意味内容カテゴリが5カテゴリ設定されているとしよう。例えば,次のものとする。
・意味内容カテゴリ1:「サッカー」
・意味内容カテゴリ2:「スポーツ」
・意味内容カテゴリ3:「海」
・意味内容カテゴリ4:「ハイキング」
・意味内容カテゴリ5:「水泳」
まず,ステップS203において,映像区間iの映像区間特徴量xi が求められている。ステップS204では,各意味内容カテゴリ1〜5のそれぞれに対して,この映像区間特徴量xi と式(1) のp(xi |ci )に基づいて,意味内容尤度を計算するのである。仮に映像区間iがサッカーの様子を撮影したものであるとしよう。上記のカテゴリの例では,p(xi |ci =サッカー) ,および,p(xi |ci =スポーツ) の意味内容尤度は高く計算される。反対に,サッカーの映像には,「海」が含まれていることは稀であり,また,「ハイキング」や「水泳」とも異なることから,p(xi |ci =海) ,p(xi |ci =ハイキング) ,p(xi |ci =水泳) の意味内容尤度は低く計算される。このようにして,ある映像区間iにおける各意味内容カテゴリの尤度が計算される。
また,ここで,p(xi |ci )の式について,Bayesのルールから,
p(ci |xi )={p(xi |ci )p(ci )}/p(xi ) …式(2)
が成立することにも注意されたい。
続いて,ステップS205〜S208では,編集対象映像区間選出部17により編集映像19の生成に用いる映像区間の選出を行うが,ここでのコンテキスト類似度の計算に用いる意味内容カテゴリ間の関連度合いについて説明する。
意味内容関連度計算部21は,予め設定した一つ以上の意味内容カテゴリ同士の関連度合いを計算し,意味内容関連度記憶部22に格納する。この意味内容カテゴリ間の関連度合いとは,次のようなものである。
映像区間は連続しているため,ある映像区間iの一つ前には,映像区間i−1が存在する。これら二つの映像区間の意味内容カテゴリをそれぞれci ,ci-1 と表したとき,これらの条件付確率テーブルci |ci-1 を求め,これを意味内容カテゴリ間の関連度合いとする。
この条件付確率テーブルは,意味内容尤度を学習した際に用いた意味内容カテゴリのラベルを用いて学習すればよい。例えば,映像区間iに付与されている意味内容カテゴリのラベルが「サッカー」,映像区間i−1に付与されている意味内容カテゴリのラベルが「スポーツ」であったとしよう。このとき,“ci-1 が「スポーツ」であったとき,ci が「サッカー」である”という頻度が1あるとみなすことができる。
ラベルが複数与えられているような場合には,計算量のために各意味内容カテゴリ間に独立性を仮定し,各ペアごとに頻度を計数すればよい。例えば,上記の例において,さらに,映像区間iに「スポーツ」,映像区間i−1に「ボール」が付与されていたとしよう。このとき,“ci-1 が「ボール」であったとき,ci が「サッカー」である”,また“ci-1 が「ボール」であったとき,ci が「スポーツ」である”,また“ci-1 が「スポーツ」であったとき,ci が「スポーツ」である”のそれぞれの頻度も,1あるとみなすのである。
このような計数を,ラベルの得られている映像(区間)全体に渡って行う。この結果,生成される条件付確率テーブルci |ci-1 は,行数,列数ともに意味内容カテゴリと同数となる。
得られた条件付確率テーブルを,以下の数式で表す。
p(ci |ci-1 ) …式(3)
この条件付確率テーブルによれば,ある意味内容カテゴリci-1 が与えられたとき,その他の全ての意味内容カテゴリci との関連度合い(確率)を計算することができる。例えば,ci-1 =「サッカー」であるとしよう。このとき,その他のカテゴリ,例えば,ci =「ボール」や,ci =「スポーツ」の出現する確率は,p(ci =ボール|ci-1 =サッカー) ,p(ci =スポーツ|ci-1 =サッカー) を参照することによって得ることができる。
以上のような条件付確率テーブルの情報が,意味内容関連度計算部21によって算出され,意味内容関連度記憶部22に記憶される。
続いて,ステップS205では,ステップS204で計算した意味内容尤度に基づいて,映像区間のクラスタリングを行い,各クラスタの中から一つ以上の代表となる映像区間を代表映像区間として出力する。
このクラスタリング処理による効果として,後の映像区間を篩にかける際,全ての映像区間について計算を行わないで,少数のクラスタを代表する代表映像区間に対してだけ計算を実施すれば済むようになる点があげられる。したがって,短い時間での自動編集を実行できるようになるのである。
図3に,映像区間数が15,クラスタ数が4のときのクラスタリングと代表映像区間抽出の一例を示す。
クラスタリングは,K−means法やmean shift,階層型クラスタリング,affinity propagationなど,さまざまな公知の方法が存在するが,これらの方法を利用するために必要な要素は,任意の二つの映像区間の類似性を定義することである。したがって,ここでは,意味内容尤度と意味内容関連度に基づく類似性の定義について述べる。
視聴者の観点で考えれば,同じような意味内容を持つ映像区間ばかりを視聴しても飽きてしまうため,意味内容の観点で類似性を判断し,クラスタリングする方が望ましい。そこで,各映像区間の意味内容の確率を計算し,これを類似度として定義する。
例えば,ある映像区間iにおける意味内容カテゴリci の確率p(ci |xi ) は,式(2) によって計算することができる。同様に,映像区間i−1における意味内容カテゴリci-1 の確率p(ci-1 |xi-1)も,式(2) によって求めることができる。したがって,これら二つの確率密度の類似度を,映像区間の間の類似度として定義すればよい。
確率密度間の類似度として代表的なものに,負のカルバック―ライブラーダイバージェンス,あるいは,カルバック―ライブラーダイバージェンスの逆数がある。逆数は,例えば以下の数式で表現される。
i,i-1 =1/{KL[p(ci |xi )‖p(ci-1 |xi-1 )]} …式(4)
ただし,
KL[p(x)‖q(x)]=Σx p(x) log{p(x)/q(x)} …式(5)
である(Σx はxについての総和)。カルバック―ライブラーダイバージェンスは,対称性が成立しない。すなわち,上記式(5) にある,二つの確率分布p(x)とq(x)とを入れ替えると,出力される値が変わってしまう。クラスタリングに用いる類似度としては,対称性が成立しないことに不都合がある場合があるため,負のイェンセン−シャノンダイバージェンス,あるいは,イェンセン−シャノンダイバージェンスの逆数を用いる方が好ましい。
i,i-1 =1/{JS[p(ci |xi )‖p(ci-1 |xi-1 )]} …式(6)
ただし,
JS[p(x)‖q(x)]
=λKL[p(x)‖q(x)]+(1−λ)KL[q(x)‖p(x)] …式(7)
ここで,λ=0.5としたとき,対称性が成立する。
この例では,隣り合う二つの映像区間iとi−1についての類似度計算の例を述べているが,式(4) および式(6) は,隣り合う映像区間に限らなくても計算可能である。
これらの式によって求められた類似度si,i-1 に基づいて,先に述べた公知のクラスタリング法,例えば,下記の参考文献11に記載されるaffinity propagationによってクラスタリングを行えばよい。affinity propagationを用いる利点は,特にK−means法と比べて3点ある。
(1)K−meansの場合,クラスタリングする前に,クラスタ数を設定する必要がある。affinity propagationでは,事前にクラスタ数を与える必要はない。
(2)K−meansの場合,生成されたクラスタの中心は,必ずしもある映像区間とはならない。affinity propagationの場合,必ずある映像区間を指す。このため,代表映像区間をクラスタ中心として決定することができる。
(3)K−meansの場合,クラスタリング結果が,通常ランダムに選定される初期値に大きく依存するため,複数回の試行の後,最もよいクラスタリング結果を得るなどの工夫を必要とする。affinity propagationの場合,クラスタリング結果は初期値に依存しないので,一度の試行のみで済む。
[参考文献11]:B.J. Frey, and D. Deuck,“Clustering by Passing Messages Between Data Points”, Science, vol.315, pp.972-976, 2007.
また,参考文献12に記載されるTime−Constrained Clusteringを適用する方法を取ってもよい。
[参考文献12]:M.M. Yeung, and B.-L. Yeo,“Time-Constrained Clustering for Segmentation of Video into Story Unites ”,International Conference on Pattern Recognition, vol.3, pp.375-380, 1996.
続いて,ステップS206では,コンテキスト予測確率とコンテキスト事後確率に基づいてコンテキスト類似度を計算し,ステップS207では,このコンテキスト類似度に基づいて,一つ以上の除去する代表映像区間を決定し,残りの代表映像区間を出力する。
元の代表映像区間群をSとおく。図4に,元の代表映像区間数が4であるときの代表映像空間を篩にかける一例を示す。この処理では,コンテキスト類似度の平均fが最も高くなる,あるいは,もっとも低くなるような代表映像区間を含むクラスタを一つ,除去する。クラスタには,代表映像区間に類似した意味内容を持つ映像区間が0個以上格納されているため,これらの映像区間が編集映像から除去されることとなる。
まず,各クラスタの代表映像区間を,再生時刻順序順に並べる。今,仮に代表映像区間数をMとしたとき,これを,時間順にK1 ,K2 ,K3 ,…,KM と表すこととする。図4の例では,代表映像区間数が4である。この元の代表映像区間群をSとおくこととする。
次に,代表映像区間群Sから,一つだけ代表映像区間を除いた候補代表映像区間群を生成する。図4の例では,K1 からK4 までの4つの代表映像区間が存在するので,K1 を除いたS/K1 からK4 を除いたS/K4 までの4つの候補代表映像区間群が生成される。
次に,各候補代表映像区間群に対して,平均コンテキスト類似度fを計算する。ここでは,図4に示す4つの候補代表映像区間群のうち,K2 を除去したS/K2 についての平均コンテキスト類似度f(S/K2 )を求める例を示す。他の候補代表映像区間群についても同様に計算可能であることは言うまでもない。
平均コンテキスト類似度f(S/K2 )を計算するためには,各代表区間K1 ,K3 ,K4 のコンテキスト類似度t1 ,t3 ,t4 を計算する必要がある。今,K2 がないため,便宜上K1 をK′1 ,K3 をK′2 ,K4 をK′3 と置き換えて説明する。まず,各コンテキスト類似度tj の計算方法を述べる。
代表映像区間K′j におけるコンテキスト予測確率とコンテキスト事後確率を計算する。これには,それ以前の代表映像区間K′1 ,…,K′j-1 までに計算してきた過去のコンテキスト予測確率とコンテキスト事後確率を用いる必要がある。
代表映像区間K′j の映像区間特徴量をxj ,意味内容カテゴリをcj と表す。まず,コンテキスト予測確率を,下記の式(8) に基づいて計算する。
p(cj |x1 ,x2 ,…,xj-1
=Σp(cj |cj-1 )p(cj-1 |x1 ,x2 ,…,xj-1 ) …式(8)
(ただし,Σはcj-1 に関する総和)
ここで,右辺に現れるp(cj-1 |x1 ,x2 ,…,xj-1 )は,K′j-1 のコンテキスト事後確率である。
続いて,コンテキスト事後確率を下記の数式に基づいて計算する。
p(cj |x1 ,x2 ,…,xj
={p(xj |cj )p(cj |x1 ,x2 ,…,xj-1 )}/Σ{(p(xj |cj )p(cj |x1 ,x2 ,…,xj-1 )} …式(9)
(ただし,Σはcj に関する総和)
ここで,p(cj |x1 ,x2 ,…,xj-1 )は,式(8) で求めたコンテキスト予測確率である。
以上を,K′1 から順に,K′3 まで計算していくことによって,全ての代表映像区間におけるコンテキスト予測確率とコンテキスト事後確率を計算することができる。なお,K′1 のコンテキスト予測確率は,過去のコンテキスト事後確率が存在しないために,通常,計算することはできない。そこで,K′1 のコンテキスト予測確率については,例えば一様分布など任意の確率分布を与えるものとしてよい。
続いて,各代表映像区間のコンテキスト類似度tj を求める。代表映像区間jのコンテキスト類似度tj は,コンテキスト予測確率とコンテキスト事後確率の類似度として定義する。双方とも確率分布であるので,式(4) や式(6) によって類似度を求める。
j =Σ{p(cj |x1 ,x2 ,…,xj ) log{p( cj |x1 ,x2 ,…,xj )/p(cj |x1 ,x2 ,…,xj-1 )}} …式(10)
(ただし,Σはcj に関する総和)
このコンテキスト類似度tj は,代表映像区間K′j のコンテキスト類似度であるが,K′1 から順に計算することで,他の代表映像区間についても同様に計算することができる。
最後に,候補代表映像区間群S/K2 について,平均コンテキスト類似度f(S/K2 )を計算する。これは,単純に各代表映像区間類似度tj の算術平均をとるものとしてもよいし,重みづけ平均をとるものとしてもよい。
以上のようにして,全ての候補代表映像区間群に対する平均コンテキスト類似度fを計算する。
全ての候補代表映像区間群の平均コンテキスト類似度が計算されたのち,その中で最大/最小になる候補代表映像区間群を選出し,新しい代表映像区間群S′として採用・出力する。
この際,最大にするか,あるいは最小にするかは,どのような編集映像を作成したいかに依存する。同一コンテキストを持つ(コンテキストが一貫した)編集映像を作成したい場合には,平均が低くなるようにすればよく,さまざまなコンテキストを持つ編集映像を作成したい場合には,平均が高くなるようにすればよい。
以上説明した処理ステップのうち,ステップS205〜ステップS207を,終了条件が満たされるまで繰り返し実行する(ステップS208)。終了条件は,例えば編集映像の時間長がある映像区間以下となったときとしてもよいし,コンテキスト類似度の平均値の値が一定値以上または一定値以下となったときなどとしてもよい。
この繰り返し処理の効果は,次のように言及できる。通常,コンテキストを考慮した編集映像を生成する場合,全てのあり得る映像区間の組合せの中から編集映像を生成する必要があり,いわゆる組合せ爆発の問題が起こる。より具体的には,映像区間数をNとおいたとき,計算オーダとしてO(N!)を超える計算量が必要となり,現実的な時間で計算を終了することができない。
これに対し,本実施形態による繰り返し処理では,段階的に削減された,より見込みのある代表映像区間群の中から編集映像を生成できるようになるため,多項式時間という劇的に短い時間で,コンテキストを考慮した編集映像を生成することができるようになるのである。
ステップS205のクラスタリング処理は,通常,一度のみ実施すればよい場合もあり,本実施形態の例においても,一度のみとしても処理の整合性を欠くことはない。しかしながら,繰り返しに含めることによる効果もあり,これは以下のように述べることができる。
クラスタリングのプロセスにおいては,対象となるデータの数に応じて,生成するクラスタ数は適応的に決定する(affinity propagationなどを利用した場合には自動決定することができる)のが通常である。簡単な例を挙げれば,データ数が10個しかないときに,9つのクラスタを生成してもあまり意味はなく,例えば,2つや3つなどと設定されるべきであろう。また,データ数が100万あるときに,2つや3つのクラスタ数では,あまりに大雑把なクラスタが生成されるため,もう少し多数のクラスタを設定する必要があるであろう。
本実施形態では,クラスタリング対象となる映像区間を段階的に削減するが,このクラスタリング処理を繰り返しの中に含めることによって,各段階における映像区間数に応じた,意味のあるクラスタ数の決定が可能になる。
また,上記の処理の例では,候補代表映像区間群を生成する際,元の代表映像区間群から一つ削除した場合についてだけ扱った。しかしながら,処理の方法としては,図4で説明したような映像区間の削除だけでなく,映像区間を加える,あるいは,時間順序を入れ替えることによって,候補代表映像区間群を生成してもよい。本実施形態を用いることによって,映像区間を削除するという編集だけでなく,より一般的な編集行為を支援できることも特筆すべき効果の一つである。
最後に,ステップS209で,終了条件が満たされたとき,ステップS207が出力した代表映像区間をつなぎ合わせ,編集映像19として出力する。
以上が,本発明の実施形態の一例における映像編集方法の説明である。この映像編集装置で実施される処理プロセスを,コンピュータで読み取り可能なプログラムとして記述することも可能であることはいうまでもない。
以上,本発明の実施形態の一例における映像編集装置について詳細に説明した。本発明は説明した実施形態の一例に限定されるものでなく,特許請求の範囲に記載した技術的範囲において各種の変形を行うことが可能である。
例えば,本発明は,IPTVやデジタルサイネージ,VOD(Video on Demand) などといった様々な映像配信・通信サービスに用いることができる。具体的には,映像広告効果を高めるアレンジメント,映像プレイリストの自動生成などのアプリケーションサービスを実現することができる。
1 映像編集装置
10 映像
11 映像入力部
12 映像記憶部
13 映像区間分割部
14 映像区間特徴量抽出部
15 意味内容尤度計算部
16 クラスタリング部
17 編集対象映像区間選出部
170 類似度計算部
171 コンテキスト予測確率計算部
172 コンテキスト事後確率計算部
173 コンテキスト類似度計算部
174 代表映像区間篩部
18 編集映像出力部
19 編集映像
20 意味内容カテゴリ辞書
21 意味内容関連度計算部
22 意味内容関連度記憶部

Claims (7)

  1. 入力映像から自動的に編集映像を生成し,出力する映像編集装置であって,
    映像内容の持つ意味を予め定められた特定の単語によって表現した意味内容カテゴリと,映像区間の画像特徴もしくは音特徴またはその双方からなる映像区間特徴量との確率的な関係を示す尤度モデルの情報を記憶する意味内容カテゴリ辞書と,
    入力映像を映像区間に分割する映像区間分割部と,
    前記各映像区間から映像区間特徴量を抽出する映像区間特徴量抽出部と,
    抽出された映像区間特徴量に基づいて,前記意味内容カテゴリ辞書を参照し,該映像区間に対する各意味内容カテゴリの尤度を出力する意味内容尤度計算部と,
    前記尤度に基づいて前記映像区間をクラスタリングし,生成された各映像区間クラスタから一つ以上の代表映像区間を選出するクラスタリング部と,
    前記選出された代表映像区間の組み合わせから得られる複数の候補代表映像区間の並びについて,少なくとも前記尤度を用いて映像区間の繋がりにおける意味的な変化度合いを示すコンテキスト類似度を算出し,算出したコンテキスト類似度をもとに全体として意味的な変化度合いが大きい候補代表映像区間の並びまたは意味的な変化度合いが小さい候補代表映像区間の並びのいずれかを編集映像に用いる候補代表映像区間群として選出する編集対象映像区間選出部と,
    前記選出された候補代表映像区間群の映像区間をつなぎ合わせることにより編集映像を生成して出力する編集映像出力部とを備える
    ことを特徴とする映像編集装置。
  2. 請求項1記載の映像編集装置において,
    前記意味内容カテゴリ辞書に格納された各意味内容カテゴリごとに,サンプル映像の学習によって得られた他の意味内容カテゴリとの関連度合いを記憶する意味内容関連度記憶部を備え,
    前記編集対象映像区間選出部は,
    前記候補代表映像区間の並びにおける各映像区間位置に対して,それよりも過去に位置する映像区間位置の映像区間特徴,前記尤度および前記意味内容関連度記憶部に記憶された関連度合いを入力として,当該位置の映像区間が各々の意味内容カテゴリに帰属する予測確率を計算する式を用いてコンテキスト予測確率を計算するコンテキスト予測確率計算部と,
    前記候補代表映像区間の並びにおける各映像区間位置に対して,それ以前に位置する映像区間位置の映像区間特徴,前記尤度および前記意味内容関連度記憶部に記憶された関連度合いを入力として,当該位置の映像区間が各々の意味内容カテゴリに帰属する事後確率を計算する式を用いてコンテキスト事後確率を計算するコンテキスト事後確率計算部と,
    前記コンテキスト予測確率と前記コンテキスト事後確率との類似度を,前記意味的な変化度合いを示すコンテキスト類似度として計算するコンテキスト類似度計算部と,
    前記候補代表映像区間の並びごとに,前記コンテキスト類似度計算部が算出した類似度の平均を求め,その平均が最大または最小となる候補代表映像区間の並びを選出する代表映像区間篩部とを有する
    ことを特徴とする映像編集装置。
  3. 請求項1または請求項2記載の映像編集装置において,
    前記編集対象映像区間選出部が選出した候補代表映像区間群に含まれる映像区間を,前記クラスタリング部によるクラスタリング対象の映像区間とし,所定の終了条件が満たされるまで,前記クラスタリング部による処理と前記編集対象映像区間選出部による処理とを繰り返す
    ことを特徴とする映像編集装置。
  4. 映像編集装置が,入力映像から自動的に編集映像を生成し,出力する映像編集方法であって,
    映像内容の持つ意味を予め定められた特定の単語によって表現した意味内容カテゴリと,映像区間の画像特徴もしくは音特徴またはその双方からなる映像区間特徴量との確率的な関係を示す尤度モデルの情報を記憶する意味内容カテゴリ辞書を用い,
    入力映像を映像区間に分割する映像区間分割処理と,
    前記各映像区間から映像区間特徴量を抽出する映像区間特徴量抽出処理と,
    抽出された映像区間特徴量に基づいて,前記意味内容カテゴリ辞書を参照し,該映像区間に対する各意味内容カテゴリの尤度を出力する意味内容尤度計算処理と,
    前記尤度に基づいて前記映像区間をクラスタリングし,生成された各映像区間クラスタから一つ以上の代表映像区間を選出するクラスタリング処理と,
    前記選出された代表映像区間の組み合わせから得られる複数の候補代表映像区間の並びについて,少なくとも前記尤度を用いて映像区間の繋がりにおける意味的な変化度合いを示すコンテキスト類似度を算出し,算出したコンテキスト類似度をもとに全体として意味的な変化度合いが大きい候補代表映像区間の並びまたは意味的な変化度合いが小さい候補代表映像区間の並びのいずれかを編集映像に用いる候補代表映像区間群として選出する編集対象映像区間選出処理と,
    前記選出された候補代表映像区間群の映像区間をつなぎ合わせることにより編集映像を生成して出力する編集映像出力処理とを実行する
    ことを特徴とする映像編集方法。
  5. 請求項4記載の映像編集方法において,
    前記意味内容カテゴリ辞書に格納された各意味内容カテゴリごとに,サンプル映像の学習によって得られた他の意味内容カテゴリとの関連度合いを意味内容関連度記憶部に記憶し,
    前記編集対象映像区間選出処理では,
    前記候補代表映像区間の並びにおける各映像区間位置に対して,それよりも過去に位置する映像区間位置の映像区間特徴,前記尤度および前記意味内容関連度記憶部に記憶された関連度合いを入力として,当該位置の映像区間が各々の意味内容カテゴリに帰属する予測確率を計算する式を用いてコンテキスト予測確率を計算するコンテキスト予測確率計算処理と,
    前記候補代表映像区間の並びにおける各映像区間位置に対して,それ以前に位置する映像区間位置の映像区間特徴,前記尤度および前記意味内容関連度記憶部に記憶された関連度合いを入力として,当該位置の映像区間が各々の意味内容カテゴリに帰属する事後確率を計算する式を用いてコンテキスト事後確率を計算するコンテキスト事後確率計算処理と,
    前記コンテキスト予測確率と前記コンテキスト事後確率との類似度を,前記意味的な変化度合いを示すコンテキスト類似度として計算するコンテキスト類似度計算処理と,
    前記候補代表映像区間の並びごとに,前記コンテキスト類似度計算処理が算出した類似度の平均を求め,その平均が最大または最小となる候補代表映像区間の並びを選出する代表映像区間篩処理とを実行する
    ことを特徴とする映像編集方法。
  6. 請求項4または請求項5記載の映像編集方法において,
    前記編集対象映像区間選出処理が選出した候補代表映像区間群に含まれる映像区間を,前記クラスタリング処理によるクラスタリング対象の映像区間とし,所定の終了条件が満たされるまで,前記クラスタリング処理と前記編集対象映像区間選出処理とを繰り返す
    ことを特徴とする映像編集方法。
  7. 請求項4,請求項5または請求項6記載の映像編集方法を,コンピュータに実行させるための映像編集プログラム。
JP2009279253A 2009-12-09 2009-12-09 映像編集装置,映像編集方法および映像編集プログラム Expired - Fee Related JP5209593B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009279253A JP5209593B2 (ja) 2009-12-09 2009-12-09 映像編集装置,映像編集方法および映像編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009279253A JP5209593B2 (ja) 2009-12-09 2009-12-09 映像編集装置,映像編集方法および映像編集プログラム

Publications (2)

Publication Number Publication Date
JP2011124681A JP2011124681A (ja) 2011-06-23
JP5209593B2 true JP5209593B2 (ja) 2013-06-12

Family

ID=44288173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009279253A Expired - Fee Related JP5209593B2 (ja) 2009-12-09 2009-12-09 映像編集装置,映像編集方法および映像編集プログラム

Country Status (1)

Country Link
JP (1) JP5209593B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101369270B1 (ko) * 2012-03-29 2014-03-10 서울대학교산학협력단 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
JP6320112B2 (ja) 2014-03-27 2018-05-09 キヤノン株式会社 情報処理装置、情報処理方法
US11438510B2 (en) 2016-03-22 2022-09-06 Jung Yoon Chun System and method for editing video contents automatically technical field
KR101828601B1 (ko) * 2016-03-22 2018-02-12 (주)잼투고 비디오 컨텐츠 자동 편집 시스템 및 자동 편집 방법
KR102361811B1 (ko) * 2016-03-22 2022-02-11 천종윤 비디오 컨텐츠 자동 편집 시스템 및 자동 편집 방법
CN111695505B (zh) * 2020-06-11 2024-05-24 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
KR20240056031A (ko) * 2022-10-21 2024-04-30 씨제이올리브네트웍스 주식회사 인공지능을 활용한 이미지 편집 서비스 제공 방법 및 이를 위한 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285243A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP3934274B2 (ja) * 1999-03-01 2007-06-20 三菱電機株式会社 動画要約装置および動画要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体および動画再生装置および動画再生プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003345809A (ja) * 2002-05-30 2003-12-05 Nec System Technologies Ltd データベース構築システム、パッセージ検索装置、データベース構築方法及びプログラム
JP3918772B2 (ja) * 2003-05-09 2007-05-23 日本電気株式会社 映像編集装置、映像編集方法、および映像編集プログラム
JP2006287319A (ja) * 2005-03-31 2006-10-19 Nippon Hoso Kyokai <Nhk> 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム

Also Published As

Publication number Publication date
JP2011124681A (ja) 2011-06-23

Similar Documents

Publication Publication Date Title
JP5209593B2 (ja) 映像編集装置,映像編集方法および映像編集プログラム
US10528821B2 (en) Video segmentation techniques
Smith et al. Harnessing ai for augmenting creativity: Application to movie trailer creation
Del Fabro et al. State-of-the-art and future challenges in video scene detection: a survey
KR100590537B1 (ko) 복수 영상의 요약 방법 및 장치
Essid et al. Smooth nonnegative matrix factorization for unsupervised audiovisual document structuring
US8467610B2 (en) Video summarization using sparse basis function combination
Han et al. An integrated baseball digest system using maximum entropy method
WO2012020668A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
KR101341808B1 (ko) 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
JP2009095013A (ja) ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
Wang et al. A multimodal scheme for program segmentation and representation in broadcast video streams
Xu et al. Fast summarization of user-generated videos: exploiting semantic, emotional, and quality clues
KR20080105387A (ko) 스포츠 동영상 요약 방법 및 장치
JP2000285243A (ja) 信号処理方法及び映像音声処理装置
Choroś Video structure analysis for content-based indexing and categorisation of TV sports news
Carbonneau et al. Real-time visual play-break detection in sport events using a context descriptor
JP2010039877A (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
Ainasoja et al. Keyframe-based Video Summarization with Human in the Loop.
Sigari et al. Sport video classification using an ensemble classifier
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム
Dash et al. A domain independent approach to video summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5209593

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees