JP4699476B2 - 映像要約装置 - Google Patents
映像要約装置 Download PDFInfo
- Publication number
- JP4699476B2 JP4699476B2 JP2007542242A JP2007542242A JP4699476B2 JP 4699476 B2 JP4699476 B2 JP 4699476B2 JP 2007542242 A JP2007542242 A JP 2007542242A JP 2007542242 A JP2007542242 A JP 2007542242A JP 4699476 B2 JP4699476 B2 JP 4699476B2
- Authority
- JP
- Japan
- Prior art keywords
- shot
- time
- cut point
- distance
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 205
- 238000001514 detection method Methods 0.000 claims description 159
- 238000000605 extraction Methods 0.000 claims description 39
- 238000005315 distribution function Methods 0.000 claims description 20
- 239000000463 material Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 61
- 230000005236 sound signal Effects 0.000 description 40
- 238000000034 method Methods 0.000 description 39
- 230000008569 process Effects 0.000 description 30
- 230000008859 change Effects 0.000 description 20
- 230000006835 compression Effects 0.000 description 18
- 238000007906 compression Methods 0.000 description 18
- 238000003672 processing method Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/4147—PVR [Personal Video Recorder]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/432—Content retrieval operation from a local storage medium, e.g. hard-disk
- H04N21/4325—Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/162—Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
- H04N7/163—Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing by receiver means only
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/87—Regeneration of colour television signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Television Signal Processing For Recording (AREA)
Description
重要なショットの判別処理は、以下の非特許文献1に開示されているように、例えば、多数の映像処理方法や音声処理方法など、非常に複雑な処理を用いるものが多く、リアルタイムでの判別や携帯機器への搭載は困難である。
このサムネイルには、各ショットの代表画像が用いられ、代表画像としては、各ショットの先頭の画像が用いられることが多い。
しかしながら、ショットの先頭画像が、必ずしも、そのショットを代表的に表している画像とは限らない。このため、ユーザがサムネイルの一覧を見ても、自分が視聴したいショットがどこにあるのか判別することができないことがある。
また、ショットの先頭画像が、必ずしも、そのショットを代表的に表している画像とは限らないため、ユーザがサムネイルの一覧を見ても、自分が視聴したいショットがどこにあるのか判別することができないことがある課題もあった。
また、ショット内に動きがある場合においても、その動きを統計的に分析することで、カット点とショット内の動きの変動を判別することができるため、適応的にカット点判定用の閾値を設定することが可能になり、その結果、従来の固定閾値を用いる場合と比べて、カット点の検出精度を高めることができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による映像要約装置を示す構成図であり、図において、カット点検出部1は映像信号を入力すると、その映像のカット点を検出する処理を実施する。なお、カット点検出部1はカット点検出手段を構成している。
ショット長計算部2はカット点検出部1によりカット点が検出された場合、そのカット点より1つ前のカット点(1つ前のカット点は、カット点検出部1により前回検出されたカット点)を起点とするショットのショット長を算出する処理を実施する。即ち、カット点検出部1によりカット点が検出されると、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する処理を実施する。ショット開始点バッファ3はショット開始点の時刻を記憶しているメモリである。
なお、ショット長計算部2及びショット開始点バッファ3からショット長算出手段が構成されている。
フレーム間距離算出部12は所定の評価関数を用いて、特徴量抽出部11により今回抽出された現在のフレームの特徴量と特徴量バッファ13に記憶されている直前のフレームの特徴量(特徴量抽出部11により前回抽出されたフレームの特徴量)とを比較し、それらの特徴量間の距離(非類似度)を算出する処理を実施する。以下、現在のフレームと直前のフレームとの特徴量間の距離を「フレーム間距離」と称する。
特徴量バッファ13は直前のフレームの特徴量を記憶し、フレーム間距離算出部12がフレーム間距離を算出すると、次回のフレーム間距離の算出に備えるため、現在記憶している直前のフレームの特徴量を、特徴量抽出部11により今回抽出された現在のフレームの特徴量に更新する。
なお、フレーム間距離算出部12及び特徴量バッファ13から距離算出手段が構成されている。
カット点判定用データバッファ15はカット点判定用データ算出部4により算出されたカット点判定用の閾値Thを記憶するメモリである。
なお、カット点判定用データ算出部14及びカット点判定用データバッファ15から閾値算出手段が構成されている。
カット点判定部16はフレーム間距離算出部12により算出されたフレーム間距離とカット点判定用データバッファ15に記憶されているカット点判定用の閾値Thを比較し、その比較結果からカット点を判別する処理を実施する。なお、カット点判定部16はカット点判別手段を構成している。
図4はこの発明の実施の形態1による映像要約装置の処理内容を示すフローチャートである。
カット点検出部1は、映像信号を入力すると、その映像のカット点を検出する処理を実施する。
以下、カット点検出部1におけるカット点の具体的な検出処理内容を説明するが、この実施の形態1におけるカット点検出部1は、従来の検出処理方法(例えば、隣接するフレームの輝度が、固定の閾値より大きくなると、そのフレームの変化点をカット点として検出する方法:日経エレクトロニクス No.892 2005.1.31号 51頁)と異なる検出処理方法を採用しているため、いかなる映像信号が入力される場合でも、カット点を正確に検出することができる特徴がある。
ただし、カット点検出部1は、映像のカット点を検出することができればよく、カット点の検出精度を問わない場合には、従来の検出処理方法を使用して、映像のカット点を検出するようにしてもよい。
フレームの特徴を表している特徴量としては、例えば、過去のフレームとの差分のほか、色のヒストグラム、色の配置情報、テクスチャ情報、動き情報などが挙げられるが、いずれの特徴量を用いてもよく、また、複数の特徴量を用いてもよい。
そして、フレーム間距離算出部12は、所定の評価関数を用いて、現在のフレームの特徴量と直前のフレームの特徴量とを比較し、それらの特徴量間の距離(非類似度)であるフレーム間距離を算出する(ステップST2)。
なお、フレーム間距離算出部12は、フレーム間距離を算出すると、特徴量バッファ13の記憶内容を現在のフレームの特徴量に更新する。
カット点判定部16は、そのフレーム間距離がカット点判定用の閾値Thより大きい場合、カット点であると判定し、その旨を示す判定結果を出力する(ステップST4)。
一方、そのフレーム間距離がカット点判定用の閾値Thより大きくない場合、カット点ではないと判定し、その旨を示す判定結果を出力する(ステップST5)。
ここでは、カット点判定部16はカット点判定用の閾値Thを用いて、カット点を判別しているが、例えば、ショット時間などを考慮して、カット点を判別するようにしてもよい。
一方、カット点判定部16の判定結果がカット点ではない旨を示す場合、フレーム間距離算出部12により算出されたフレーム間距離の統計量を求めて、その統計量からカット点判定用の閾値Thを算出し、カット点判定用データバッファ15の記憶内容を当該閾値Thで更新する(ステップST7)。
具体的には、以下のようにして、カット点判定用の閾値Thを算出する。
ここでは、説明の便宜上、各ショットのn−1番目のフレームと、n番目のフレームの距離をDistnとする。
この距離Distnがある閾値よりも大きいとき、i番目のショットにおけるn番目のフレームは、実際には、(i+1)番目の最初のフレームであると考えられる。即ち、i番目のショットにおけるn番目のフレームは、カット点であると考えられる。ただし、i番目のショットの最初のフレームは0番目のフレームであるとする。また、上記の閾値は、適応的に変動するものとして、Thi_nとする。
カット点判定用データ算出部14は、距離の平均値avgi(Distn)と距離の分散値vari(Distn)を算出すると、距離の平均値avgi(Distn)と距離の分散値vari(Distn)を下記の式(1)に代入して、閾値Thi_nを算出する。
Thi_n=avgi(Distn)+α・vari(Distn) (1)
また、平均値avgi(Distn)及び分散値vari(Distn)は、i番目のショットにおける全てのフレームの平均値及び分散値ではなく、1番目からn−1番目までのフレームの平均値及び分散値である。
0番目のフレームは、平均値や分散値の算出に用いずに、1番目のフレームから平均値や分散値の算出に用いている理由は、0番目のフレームの距離Dist0が、前のショットの最後のフレームとのフレーム間距離を表しているからである。
また、n番目のフレームは、平均値や分散値の算出に用いずに、n−1番目までのフレームを平均値や分散値の算出に用いている理由は、入力されたフレームについて、即座にカット点であるか否かを判別することができるからである。
一般に、現在のショットの次にショットが来るか否かを予測することは困難である。
似ているショットが続く場合、例えば、同一のスタジオ内において、カメラが切り替わる場合など、カット点であっても輝度値の変化が小さいことがある。
その一方で、同一のカットであっても、フラッシュや、人物の大きな動きなどがある場合、フレーム間の変化(輝度値の変化)が大きくなることがある。
図3は、このような場合の輝度値の変化を示す説明図である。
これに対して、この実施の形態1のカット点検出部1では、単なる輝度値の差以外に、特徴量を用いて汎用性を高めている。さらに、評価関数による評価結果である距離が大きい場合にカット点としているが、その閾値を適応的に設定することで、変化の大きなショットであれば、自動的に閾値が大きくなり、変化の小さなショットであれば、自動的に閾値が小さくなるため、カット点検出の大幅な精度向上と汎用性の向上が期待できる。
また、フレーム間距離を算出する際、必ずしも隣接したフレームではなく、2フレーム以上間隔を空けているフレーム間の距離を算出するようにして、算出処理の高速化を図るようにしてもよい。
このように、フレーム間隔をあけて距離の算出やカット点の検出を行う場合、時間的に圧縮された符号化映像におけるフレーム内符号化を用いたフレームを用いてもよい。
さらに、平均値及び分散値を計算する際、現在のフレームに近いフレームに対して重みを付けるなどの処理を実施して、ショット内における変動の様子の時間変化に対応するようにしてもよい。
即ち、ショット長計算部2は、ショットのショット長はi番目のショットの開始時刻と(i+1)番目のショットの開始時刻の差で求めることができるので、カット点検出部1におけるカット点判定部16の判定結果がカット点である旨を示す場合、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
そして、重要ショット判定部4は、そのショット長が予め設定された閾値Aより長い場合、カット点検出部1により検出されたカット点より1つ前のカット点を起点とするショットが重要ショットであると判定し、その判定結果を出力する(ステップST10)。
ここでは、重要ショット判定部4が、1つ前のカット点を起点とするショットが重要ショットであると判定しているが、1つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、1つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。
この実施の形態1では、特に会話が主体のコンテンツである場合、重要なナレーションや、台詞部分におけるショット長が長いことに基づいている。また、カット点が分かっている場合、計算負荷が非常に小さいことが特徴であり、計算能力の低い機器においても、重要ショットの判定が可能になる。
図5はこの発明の実施の形態2による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部21はユーザにより設定された要約視聴時間(ユーザが要約を視聴したいと考える時間)、映像コンテンツの時間的分割数及び映像コンテンツ長からコンテンツ分割時間間隔(映像コンテンツを分割する時間間隔)とショット視聴時間(1ショット当りの視聴時間)を設定する処理を実施する。なお、時間間隔設定部21は時間間隔設定手段を構成している。
最長ショット長バッファ23は最長ショット判定部22により判別された最長のショットのショット長を記憶しているメモリである。
最長ショット開始点バッファ24は最長ショット判定部22により判別された最長のショットの開始点の時刻(最長のショットが検出された時点のフレームの時刻)を記憶しているメモリである。
なお、最長ショット判定部22、最長ショット長バッファ23、最長ショット開始点バッファ24及び時間分割判定部25から最長ショット検出手段が構成されている。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、ショット視聴時間TPlayが0.5分(=30秒)となる。
なお、時間間隔設定部21が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
ショット長計算部2は、カット点検出部1がカット点を検出しなければ、特に処理を実施しないが、カット点検出部1がカット点を検出すると、上記実施の形態1と同様にして、そのカット点より1つ前のカット点を起点とするショットのショット長を算出する。
即ち、ショット長計算部2は、カット点検出部1がカット点を検出すると、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として最長ショット判定部22に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
即ち、時間分割判定部25は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部25が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。
また、この実施の形態2を録画装置や再生装置に適用すれば、重要ショットの開始時刻やショット再生の時間がわかるため、映像の自動編集や簡便な要約再生の視聴が可能になる。
図6はこの発明の実施の形態3による映像要約装置を示す構成図であり、図において、図5と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部31はユーザにより設定された要約視聴時間、映像コンテンツの時間的分割数及び映像コンテンツ長からコンテンツ分割時間間隔の初期値とショット基準視聴時間(1ショット当りの視聴時間)を設定する処理を実施する。
ショット代表範囲初期設定部32は時間間隔設定部31により設定されたコンテンツ分割時間間隔の初期値と映像コンテンツ長からショット代表範囲(ショット代表範囲は、ショット代表範囲開始点及び暫定ショット代表範囲終了点からなる)の初期値を設定する処理を実施する。
ショット代表範囲判定・再設定部34は現在のフレームの時刻がショット代表範囲の終了点を超えている場合、重要ショット再生時間を計算して出力するとともに、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。また、ショット代表範囲判定・再設定部34はショット代表範囲の更新データを生成して、時間分割点バッファ33の記憶内容を更新する。
なお、時間間隔設定部31、ショット代表範囲初期設定部32、時間分割点バッファ33及びショット代表範囲判定・再設定部34から時間間隔設定手段が構成されている。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
なお、時間間隔設定部31が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
PStart=0
PEnd_temp=TContent/Nshot=TSegment0
ここで、図7は映像コンテンツを分割した各々の分割範囲毎に重要なショットが存在する場合において、そのショットが代表する範囲を表している説明図である。
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
ショット長計算部2は、カット点検出部1がカット点を検出しなければ、特に処理を実施しないが、カット点検出部1がカット点を検出すると、上記実施の形態1と同様にして、そのカット点より1つ前のカット点を起点とするショットのショット長を算出する。
即ち、ショット長計算部2は、カット点検出部1がカット点を検出すると、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として最長ショット判定部22に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
PEnd=PNow+PShot_Start−PStart
TPlay=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻である。
更新後のショット代表範囲は、下記の通りである。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
なお、上記実施の形態2の場合、コンテンツの内容が時間的に均等に区切られている場合に有効であり、コンテンツのジャンル毎に、上記実施の形態2と実施の形態3を使い分けるのがよい。
図8はこの発明の実施の形態4による映像要約装置を示す構成図であり、図において、図2と同一符号は同一または相当部分を示すので説明を省略する。
距離判定部41はフレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する処理を実施する。即ち、フレーム間距離算出部12により算出されたフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大のフレーム間距離を検出した旨を示す検出情報を時間判定部43に出力するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する。
最大距離バッファ42は距離判定部41により判別された最大のフレーム間距離を記憶しているメモリである。
なお、距離判定部41及び最大距離バッファ42から最大距離検出手段が構成されている。
最大距離フレーム時刻バッファ44は最大の距離が判別された時点のフレームの時刻を記憶しているメモリである。
なお、時間判定部43及び最大距離フレーム時刻バッファ44から重要フレーム検出手段が構成されている。
特徴量抽出部11は、映像信号を入力すると、上記実施の形態1と同様に、その映像信号からフレームの特徴を表している特徴量を抽出する。
フレームの特徴を表している特徴量としては、例えば、過去のフレームとの差分のほか、色のヒストグラム、色の配置情報、テクスチャ情報、動き情報などが挙げられるが、いずれの特徴量を用いてもよく、また、複数の特徴量を用いてもよい。
そして、フレーム間距離算出部12は、所定の評価関数を用いて、現在のフレームの特徴量と直前のフレームの特徴量とを比較し、それらの特徴量間の距離(非類似度)であるフレーム間距離を算出する。
なお、フレーム間距離算出部12は、フレーム間距離を算出すると、特徴量バッファ13の記憶内容を現在のフレームの特徴量に更新する。
即ち、距離判定部41は、フレーム間距離算出部12がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大のフレーム間距離を検出した旨を示す検出情報を時間判定部43に出力する。
この際、距離判定部41は、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する。
そして、時間判定部43は、その時刻差が予め設定されたコンテンツ時間分割間隔より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するとともに、最大距離フレーム時刻バッファ44の記憶内容を現在のフレームの時刻に更新する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。
図10はこの発明の実施の形態5による映像要約装置を示す構成図であり、図において、図5と同一符号は同一または相当部分を示すので説明を省略する。
距離判定部51はカット点検出部1によりカット点が検出された場合、フレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する処理を実施する。即ち、フレーム間距離算出部12により算出されたフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ52の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する。
最大距離カット点開始時刻バッファ52は最大のフレーム間距離のカット点の開始時刻を記憶しているメモリである。
なお、距離判定部51、最大距離バッファ42及び最大距離カット点開始時刻バッファ52から最大距離検出手段が構成されている。
なお、時間分割判定部53は重要ショット検出手段を構成している。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態2と同様に、これらの入力情報にしたがって重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
また、カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様にして、フレーム間距離を算出する(図2を参照)。
即ち、距離判定部51は、カット点検出部1がカット点を検出したとき、フレーム間距離算出部12がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ52の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する処理を実施する。
即ち、時間分割判定部53は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。
図11はこの発明の実施の形態6による映像要約装置を示す構成図であり、図において、図6及び図10と同一符号は同一または相当部分を示すので説明を省略する。
ショット代表範囲判定・再設定部54は現在のフレームの時刻がショット代表範囲の終了点を超えている場合、重要ショット再生時間を計算して出力するとともに、最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する。また、ショット代表範囲判定・再設定部54はショット代表範囲の更新データを生成して、時間分割点バッファ33の記憶内容を更新する。
なお、時間間隔設定部31、ショット代表範囲初期設定部32、時間分割点バッファ33及びショット代表範囲判定・再設定部54から時間間隔設定手段が構成されている。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態3と同様に、これらの入力情報にしたがって重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
PStart=0
PEnd_temp=TContent/Nshot=TSegment0
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
また、カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様にして、フレーム間距離を算出する(図2を参照)。
下記のようにして、ショット代表範囲の終了点PEndと重要ショット再生時間TPlayを計算し、その重要ショット再生時間TPlayを出力する。
PEnd=PNow+PShot_Start−PStart
TPlay=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻である。
更新後のショット代表範囲は、下記の通りである。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
なお、上記実施の形態5の場合、コンテンツの内容が時間的に均等に区切られている場合に有効であり、コンテンツのジャンル毎に、上記実施の形態5と実施の形態6を使い分けるのがよい。
図12はこの発明の実施の形態7による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
距離平均算出部61はカット点検出部1のフレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離の平均値を算出する処理を実施する。なお、距離平均算出部61は平均値算出手段を構成している。
最小値バッファ63は最小値を記憶しているメモリであり、サムネイル候補画像バッファ64はキーフレーム候補判定部62から最小値検出信号を受けると、映像信号の映像をサムネイル候補画像として記憶するメモリである。
なお、キーフレーム候補判定部62、最小値バッファ63及びサムネイル候補画像バッファ64からサムネイル候補画像記憶手段が構成されている。
サムネイル作成部65はカット点検出部1がカット点を検出すると、サムネイル候補画像バッファ64に記憶されているサムネイル候補画像からサムネイルを作成する処理を実施する。なお、サムネイル作成部65はサムネイル作成手段を構成している。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
また、カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様にして、フレーム間距離を算出する(図2を参照)。
キーフレーム候補判定部62は、カット点検出部1が現在のフレームがカット点ではないと判定している場合において、距離平均算出部61がフレーム間距離の平均値を算出すると、フレーム間距離算出部12により算出されたフレーム間距離と平均値算出部61により算出された平均値の差分値を求め、その差分値と最小値バッファ63に記憶されている最小値を比較する。
サムネイル候補画像バッファ64は、キーフレーム候補判定部62から最小値検出信号を受けると、映像信号の映像をサムネイル候補画像として記憶する。
サムネイル作成部65は、カット点検出部1がカット点を検出すると、サムネイル候補画像バッファ64に記憶されているサムネイル候補画像を読出し、そのサムネイル候補画像からサムネイルを作成して出力する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。
また、パン・チルト・ズームや、人物の動きが落ち着いたときが、そのショットにおける重要な画像である場合が多い。
このとき、フレーム間距離Distnは小さくなり、それが長い時間続くと、フレーム間距離の平均値avgi(Distn)が小さくなっていく。
この実施の形態7では、|Distn−avgi(Distn)|が最小になるnの画像をi番目のショットにおける代表的な画像としている。
これにより、各ショットを代表する画像を効果的に検出することが可能になり、ユーザは、より簡単に映像コンテンツの中から視聴したいシーンを再生することが可能となる。
図13はこの発明の実施の形態8による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
重要ショット長バッファ71は重要ショット判別部4が重要ショットを検出すると、ショット長計算部2により計算された重要ショットのショット長を記憶するメモリである。なお、重要ショット長バッファ71は重要ショット長記憶手段を構成している。
重要ショット再生時間算出部72は重要ショット長バッファ71に記憶されている重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出する処理を実施する。なお、重要ショット再生時間算出部72は再生時間算出手段を構成している。
重要ショット判定部4は、ショット長計算部2がショット長を算出すると、上記実施の形態1と同様にして、そのショット長と予め設定された閾値Aを比較して、カット点検出部1により検出されたカット点より1つ前のカット点を起点とするショットが重要ショットであるか否かを判定し、その判定結果を出力する。
ここでは、重要ショット判定部4が上記実施の形態1と同様にして、重要ショットを検出するものについて示したが、重要ショットの検出方法は上記実施の形態1に記載の方法に限るものではなく、例えば、上記実施の形態2〜6に記載の方法を用いてもよい。
図14はこの発明の実施の形態9による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
重要ショット判定部81はショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する処理を実施する。なお、重要ショット判定部81は重要ショット判定手段を構成している。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
そして、重要ショット判定部81は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット(重要ショット)に決定することにより、重要ショットの開始点と再生時間を決定する。
具体的には、以下の通りである。
SLi=STi+1−STi
重要ショット判定部81は、上記のようにして、映像信号に含まれているm個のショットのショット長SLiを求めると、ショット長SLiが長い順にm個のショットをソートする。
ソート後のショット長をSSLiとすると、長い順にソートしているため、SSLi≧SSLi+1になる。
重要ショット判定部81は、各乗算結果αSSLiの総和と要約視聴時間TDijestを比較し、下記の不等式を満足する最も大きなkを求める。
重要ショット判定部81は、ショット長の閾値SLThを設定すると、映像信号に含まれているm個のショットのショット長SLiと閾値SLThを比較し、SLTh<SLiを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLiとする。これにより、要約再生する時間は、要約視聴時間TDijest以下になる。
このため、係数αの値は、コンテンツのジャンルや特徴、ユーザの所望に応じて使い分けるとよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図15はこの発明の実施の形態10による映像要約装置を示す構成図であり、図において、図1及び図14と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部91は映像コンテンツ長と、ユーザにより設定された所望の要約視聴時間と、ユーザにより設定もしくは自動的に設定された時間的分割数(コンテンツを時間的に分割する数)とから、コンテンツ分割時間間隔(コンテンツを時間的に分割する基準となる時間)と、基準分割要約視聴時間(分割された時間を要約視聴する基準となる時間)を算出する。なお、時間間隔設定部91は時間間隔設定手段を構成している。
時間分割点バッファ92はコンテンツが分割された時刻を記憶しているメモリである。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
TSegment=TContent/n
TS_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶するとともに、カット点の判定結果を重要ショット判定部81に出力する。
具体的には、以下の通りである。
まず、重要ショット判定部81は、現在のフレーム時刻TNowと時間分割点バッファ92に記憶されている前回の分割時間フレーム時刻TPreを参照する。
重要ショット判定部81は、下記に示すように、現在のフレーム時刻TNowと前回の分割時間フレーム時刻TPreの差がコンテンツ分割時間間隔TSegmentを超えている場合、カット点検出部1から出力されているカット点の判定結果を参照する。
TSegment≦TNow−TPre
SLi,j=STi,j+1−STi,j
重要ショット判定部81は、上記のようにして、分割区間内における映像中のn個のショットのショット長SLi,jを求めると、ショット長SLi,jが長い順にn個のショットをソートする。
ソート後のショット長をSSLi,jとすると、長い順にソートしているため、SSLi,j≧SSLi,j+1になる。
重要ショット判定部81は、各乗算結果αSSLi,jの総和と分割要約視聴時間TS_Dijest,iを比較し、下記の不等式を満足する最も大きなkを求める。
重要ショット判定部81は、ショット長の閾値SLTh,iを設定すると、i番目の区間において、映像信号に含まれているn個のショットのショット長SLi,jと閾値SLTh,iを比較し、SLTh,i<SLi,jを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLi,jとする。これにより、分割された映像中における要約再生する時間はTS_Dijest,i以下になる。
この実施の形態10では、分割区間に応じて、係数αの値を変えることも可能である。
例えば、番組前半のニュースコンテンツにおいて、番組前半のトップニュースでは、係数αを大きくして、最も重要と思われる部分を長く視聴し、後半の短いニュースの連続部分では、係数αを小さくして概要を視聴するなどの使い方が可能である。
また、ショット長やショット開始点などの時間情報としては、時刻、フレーム番号、映像圧縮データ中の時間情報など、いずれを用いてもよい。
図16はこの発明の実施の形態11による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
ショット統計処理部101はショット開始点バッファ3に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する処理を実施する。なお、ショット統計処理部101は重要ショット判定手段を構成している。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
具体的には、以下の通りである。
SLi=STi+1−STi
ショット統計処理部101は、上記のようにして、映像信号に含まれているm個のショットのショット長SLiを求めると、ショット長SLiはSLi>0であり、ショット長SLiが対数正規分布に従うと仮定する。
このとき、ショット長SLiがxである確率p(x)、即ち、分布確率p(x)は下記のようになる。
上式の平均値μと分散値σ2は、ショット長SLiから容易に算出することが可能である。
映像コンテンツ長はTContentであることから、分布確率p(x)は、下式のように表すことができる。
ショット統計処理部101は、ショット長の閾値SLThを設定すると、映像信号に含まれているm個のショットのショット長SLiと閾値SLThを比較し、SLTh<SLiを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLiとする。これにより、要約再生する時間は、およそ要約視聴時間TDijestになる。ただし、実際のショット長の分布と仮定した確率分布p(x)の差が大きい場合には補正してもよい。
μi=(SLi+(i−1)μi-1)/i
同様に、分散値σ2に関しても、順次、類似の計算をして更新を行うようにしてもよい。また、何らかの近似計算を行ってもよい。
また、この実施の形態11では、分布関数に対数正規分布を用いているが、例えば、正規分布など、他の分布関数を用いてもよい。
このため、係数αの値は、コンテンツのジャンルや特徴、ユーザの所望に応じて使い分けるとよい。
この実施の形態11を用いることで、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図19はこの発明の実施の形態12による映像要約装置を示す構成図であり、図において、図15及び図16と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
TSegment=TContent/n
TS_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶するとともに、カット点の判定結果をショット統計処理部101に出力する。
具体的には、以下の通りである。
まず、ショット統計処理部101は、現在のフレーム時刻TNowと時間分割点バッファ92に記憶されている前回の分割時間フレーム時刻TPreを参照する。
ショット統計処理部101は、下記に示すように、現在のフレーム時刻TNowと前回の分割時間フレーム時刻TPreの差がコンテンツ分割時間間隔TSegmentを超えている場合、カット点検出部1から出力されているカット点の判定結果を参照する。
TSegment≦TNow−TPre
SLi,j=STi,j+1−STi,j
このとき、ショット長SLiがxである確率p(x)、即ち、分布確率p(x)は下記のようになる。
このi番目の区間の長さはTSegment,iであることから、分布確率p(x)は、下式のように表すことができる。
ショット統計処理部101は、ショット長の閾値SLTh,iを設定すると、映像信号に含まれているn個のショットのショット長SLi,jと閾値SLTh,iを比較し、SLTh,i<SLi,jを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLi,jとする。これにより、要約再生する時間は、およそ分割要約視聴時間TS_Dijest,iになる。ただし、実際のショット長の分布と仮定した確率分布p(x)の差が大きい場合には補正してもよい。
μi,j=(SLi,j+(j−1)μi,j-1)/j
同様に、分散値σ2に関しても、順次、類似の計算をして更新を行うようにしてもよい。また、何らかの近似計算を行ってもよい。
また、この実施の形態12では、分布関数に対数正規分布を用いているが、例えば、正規分布など、他の分布関数を用いてもよい。
この実施の形態12では、分割区間に応じて、係数αの値を変えることも可能である。
例えば、番組前半のニュースコンテンツにおいて、番組前半のトップニュースでは、係数αを大きくして、最も重要と思われる部分を長く視聴し、後半の短いニュースの連続部分では、係数αを小さくして概要を視聴するなどの使い方が可能である。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図20はこの発明の実施の形態13による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
無音判定部111は映像中の音声信号が無音であるか否かを判定して、映像中の音声の無音点を検出する処理を実施する。なお、無音判定部111は無音点検出手段を構成している。
無音判定部111は、映像中の音声信号が無音であるか否かを判定して、映像中の音声の無音点を検出する。
無音判定部111は、映像中の音声の無音点を検出すると、その無音点がカット点であるとみなし、その検出結果をカット点の判定結果としてショット長計算部2に出力する。
無音点の検出方法として、例えば、音量と閾値を比較する方法などが考えられる。ただし、他の方法を用いてもよい。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
そして、重要ショット判定部4は、そのショット長が予め設定された閾値Aより長い場合、無音判定部111により検出された無音点(カット点)より1つ前の無音点(カット点)を起点とするショットが重要ショットであると判定し、その判定結果を出力する。
ここでは、重要ショット判定部4が、1つ前のカット点を起点とするショットが重要ショットであると判定しているが、1つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、1つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。
なお、この実施の形態13の映像要約装置では、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図21はこの発明の実施の形態14による映像要約装置を示す構成図であり、図において、図5と同一符号は同一または相当部分を示すので説明を省略する。
音量判定部112は映像中の音声信号の音量と閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する処理を実施する。なお、音量判定部112は音量低下点検出手段を構成している。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、ショット視聴時間TPlayが0.5分(=30秒)となる。
なお、時間間隔設定部21が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット長計算部2に出力する。
なお、この閾値は、コンテンツのジャンルによって変えてもよい。例えば、スポーツ中継であれば、閾値を高めに設定して、歓声の有無を検出する。あるいは、ニュース番組や音楽番組であれば、閾値をノイズレベル付近まで落とすことにより、無音部分を検出して、キャスターやリポーターなど音声、楽曲の切れ目などの部分の検出を行う。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
即ち、時間分割判定部25は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部25が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。
なお、この実施の形態14の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図22はこの発明の実施の形態15による映像要約装置を示す構成図であり、図において、図6及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態3と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
なお、時間間隔設定部31が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
PStart=0
PEnd_temp=TContent/Nshot=TSegment0
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット長計算部2に出力する。
なお、この閾値は、コンテンツのジャンルによって変えてもよい。例えば、スポーツ中継であれば、閾値を高めに設定して、歓声の有無を検出する。あるいは、ニュース番組や音楽番組であれば、閾値をノイズレベル付近まで落とすことにより、無音部分を検出して、キャスターやリポーターなど音声、楽曲の切れ目などの部分の検出を行う。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
PEnd=PNow+PShot_Start−PStart
TPlay=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻である。
更新後のショット代表範囲は、下記の通りである。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
なお、この実施の形態15の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図23はこの発明の実施の形態16による映像要約装置を示す構成図であり、図において、図14及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
そして、重要ショット判定部81は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット(重要ショット)に決定することにより、重要ショットの開始点と再生時間を決定する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態9と同様であるため、詳細な説明を省略する。
なお、この実施の形態16の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図24はこの発明の実施の形態17による映像要約装置を示す構成図であり、図において、図15及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態10と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
TSegment=TContent/n
TS_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3及び重要ショット判定部81に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態10と同様であるため、詳細な説明を省略する。
なお、この実施の形態17の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図25はこの発明の実施の形態18による映像要約装置を示す構成図であり、図において、図16及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態14と同様であるため、詳細な説明を省略する。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図26はこの発明の実施の形態19による映像要約装置を示す構成図であり、図において、図19及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態12と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
TSegment=TContent/n
TS_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3及びショット統計処理部101に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態12と同様であるため、詳細な説明を省略する。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図27はこの発明の実施の形態20による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
AVカット点判定部121はカット点検出部1と音量判定部112を搭載しており、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う処理を実施する。
図28はこの発明の実施の形態20による映像要約装置のAVカット点判定部121を示す構成図であり、図において、同期判定部122はカット点検出部1から出力された判定結果がカット点である旨を示し、かつ、音量判定部112から出力された判定結果がカット点である旨を示すとき、カット点である旨の最終判定を行う処理を実施する。
AVカット点判定部121のカット点検出部1は、映像信号を入力すると、上記実施の形態1と同様に、その映像のカット点を検出する。ただし、カット点の検出方法は、上記実施の形態1と異なる方法でもよい。
AVカット点判定部121の音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果として出力する。
即ち、同期判定部122は、カット点検出部1と音量判定部112が同一のタイミングでカット点を検出すれば、そのカット点を映像コンテンツ中のカット点とみなすが、カット点検出部1又は音量判定部112のいずれかがカット点を検出しても、いずれかがカット点を検出していなければ、当該カット点を映像コンテンツ中のカット点とみなさないようにする。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
そして、重要ショット判定部4は、そのショット長が予め設定された閾値Aより長い場合、AVカット点判定部121により検出されたカット点より1つ前のカット点を起点とするショットが重要ショットであると判定し、その判定結果を出力する。
ここでは、重要ショット判定部4が、1つ前のカット点を起点とするショットが重要ショットであると判定しているが、1つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、1つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図29はこの発明の実施の形態21による映像要約装置を示す構成図であり、図において、図5及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態2と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、ショット視聴時間TPlayが0.5分(=30秒)となる。
なお、時間間隔設定部21が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
ショット長計算部2は、AVカット点判定部121から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
即ち、時間分割判定部25は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部25が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図30はこの発明の実施の形態22による映像要約装置を示す構成図であり、図において、図6及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態3と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
なお、時間間隔設定部31が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
PStart=0
PEnd_temp=TContent/Nshot=TSegment0
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
ショット長計算部2は、AVカット点判定部121から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
PEnd=PNow+PShot_Start−PStart
TPlay=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻である。
更新後のショット代表範囲は、下記の通りである。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図31はこの発明の実施の形態23による映像要約装置を示す構成図であり、図において、図14及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う。
AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
そして、重要ショット判定部81は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット(重要ショット)に決定することにより、重要ショットの開始点と再生時間を決定する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態9と同様であるため、詳細な説明を省略する。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図32はこの発明の実施の形態24による映像要約装置を示す構成図であり、図において、図15及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態10と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
TSegment=TContent/n
TS_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
また、AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態10と同様であるため、詳細な説明を省略する。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図33はこの発明の実施の形態25による映像要約装置を示す構成図であり、図において、図16及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う。
AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態14と同様であるため、詳細な説明を省略する。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
図34はこの発明の実施の形態26による映像要約装置を示す構成図であり、図において、図19及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態10と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
TSegment=TContent/n
TS_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
また、AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態12と同様であるため、詳細な説明を省略する。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
Claims (14)
- 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記カット点より1つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、上記ショット長算出手段により算出されたショット長を判別材料にして、上記カット点判別手段により判別されたカット点より1つ前のカット点を起点とするショットが重要ショットであるか否かを判別する重要ショット判別手段とを備えた映像要約装置。
- 重要ショット判別手段は、ショット長算出手段により算出されたショット長が予め設定されたショット長より長い場合、カット点判別手段により判別されたカット点より1つ前のカット点を起点とするショットが重要ショット、1つ前のカット点を起点とするショットの次のショットが重要ショット、または、1つ前のカット点を起点とするショットと次のショットが重要ショットであると判別することを特徴とする請求項1記載の映像要約装置。
- 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記カット点より1つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、映像を分割する時間間隔を設定する時間間隔設定手段と、上記ショット長算出手段がショット長を算出する毎に、上記ショット長算出手段により現時点までに算出されたショット長を相互に比較して、上記時間間隔設定手段により設定された時間間隔の中でショット長が最長のショット、最長のショットの次のショット、または、最長のショットと次のショットを検出する最長ショット検出手段とを備えた映像要約装置。
- 時間間隔設定手段は、最長ショット検出手段により検出された最長のショットの開始時刻とショット長に応じて時間間隔を更新することを特徴とする請求項3記載の映像要約装置。
- 映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記距離算出手段が特徴量間の距離を算出する毎に、上記距離算出手段により現時点までに算出された特徴量間の距離を相互に比較して、最大の距離を検出する最大距離検出手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記最大距離検出手段により最大の距離が検出されたフレームの時刻を重要ショットの開始時刻として出力する重要ショット検出手段とを備えた映像要約装置。
- 時間間隔設定手段は、最大距離検出手段により最大の距離が検出されたフレームの時刻と最大の距離に応じて時間間隔を更新することを特徴とする請求項5記載の映像要約装置。
- 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記距離算出手段が特徴量間の距離を算出する毎に、上記距離算出手段により現時点までに算出された特徴量間の距離の平均値を算出する平均値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記平均値算出手段により算出された平均値の差分値が予め設定された最小値より小さい場合、上記映像信号の映像をサムネイル候補画像として記憶するサムネイル候補画像記憶手段と、上記カット点判別手段によりカット点が判別されると、上記サムネイル候補画像記憶手段により記憶されているサムネイル候補画像からサムネイルを作成するサムネイル作成手段とを備えた映像要約装置。
- 重要ショット判別手段により判別された重要ショットのショット長を記憶する重要ショット長記憶手段と、上記重要ショット長記憶手段により記憶された重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出する再生時間算出手段とを設けたことを特徴とする請求項1記載の映像要約装置。
- 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する重要ショット判定手段とを備えた映像要約装置。
- 映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する重要ショット判定手段とを備えた映像要約装置。
- 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、上記ショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する重要ショット判定手段とを備えた映像要約装置。
- 映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、上記ショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する重要ショット判定手段とを備えた映像要約装置。
- カット点判別手段は、映像のカット点を判別する際、映像中の音声の音量が閾値より小さい音量低下点を判別し、判別したカット点の中から上記音量低下点に同期しているカット点を判別することを特徴とする請求項1記載の映像要約装置。
- 重要ショット判定手段は、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定し、そのショットの再生時間を決定することを特徴とする請求項9記載の映像要約装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007542242A JP4699476B2 (ja) | 2005-10-27 | 2006-06-23 | 映像要約装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005313228 | 2005-10-27 | ||
JP2005313228 | 2005-10-27 | ||
PCT/JP2006/312634 WO2007049381A1 (ja) | 2005-10-27 | 2006-06-23 | 映像要約装置 |
JP2007542242A JP4699476B2 (ja) | 2005-10-27 | 2006-06-23 | 映像要約装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007049381A1 JPWO2007049381A1 (ja) | 2009-04-30 |
JP4699476B2 true JP4699476B2 (ja) | 2011-06-08 |
Family
ID=37967503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007542242A Expired - Fee Related JP4699476B2 (ja) | 2005-10-27 | 2006-06-23 | 映像要約装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20090279840A1 (ja) |
JP (1) | JP4699476B2 (ja) |
KR (1) | KR100957902B1 (ja) |
CN (1) | CN101292523B (ja) |
WO (1) | WO2007049381A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4946305B2 (ja) * | 2006-09-22 | 2012-06-06 | ソニー株式会社 | 音響再生システム、音響再生装置および音響再生方法 |
US20100201880A1 (en) * | 2007-04-13 | 2010-08-12 | Pioneer Corporation | Shot size identifying apparatus and method, electronic apparatus, and computer program |
JP2011053655A (ja) * | 2009-08-07 | 2011-03-17 | Sanyo Electric Co Ltd | 画像表示制御装置およびそれを搭載した撮像装置、ならびに画像処理装置およびそれを用いた撮像装置 |
JP2012039523A (ja) * | 2010-08-10 | 2012-02-23 | Sony Corp | 動画像処理装置、動画像処理方法およびプログラム |
JP5737988B2 (ja) * | 2011-02-09 | 2015-06-17 | キヤノン株式会社 | 画像処理装置およびその制御方法およびプログラム |
KR20120118383A (ko) * | 2011-04-18 | 2012-10-26 | 삼성전자주식회사 | 이미지 보정 장치 및 이를 이용하는 이미지 처리 장치와 그 방법들 |
JP2014139734A (ja) * | 2013-01-21 | 2014-07-31 | Sony Corp | 情報処理装置および方法、並びにプログラム |
KR102278048B1 (ko) * | 2014-03-18 | 2021-07-15 | 에스케이플래닛 주식회사 | 영상 처리 장치, 이의 제어 방법 및 컴퓨터 프로그램이 기록된 기록 매체 |
CN106303499B (zh) * | 2015-05-30 | 2018-10-16 | 北京智谷睿拓技术服务有限公司 | 视频显示控制方法和装置、显示设备 |
CN106303315B (zh) | 2015-05-30 | 2019-08-16 | 北京智谷睿拓技术服务有限公司 | 视频显示控制方法和装置、显示设备 |
CN106303498B (zh) * | 2015-05-30 | 2018-10-16 | 北京智谷睿拓技术服务有限公司 | 视频显示控制方法和装置、显示设备 |
CN107770457B (zh) * | 2017-10-27 | 2020-01-21 | 维沃移动通信有限公司 | 一种视频制作方法及移动终端、计算机可读存储介质 |
WO2020248124A1 (en) * | 2019-06-11 | 2020-12-17 | WeMovie Technologies | Production-as-service systems for making movies, tv shows and multimedia contents |
WO2021022499A1 (en) | 2019-08-07 | 2021-02-11 | WeMovie Technologies | Adaptive marketing in cloud-based content production |
WO2021068105A1 (en) | 2019-10-08 | 2021-04-15 | WeMovie Technologies | Pre-production systems for making movies, tv shows and multimedia contents |
KR102372721B1 (ko) * | 2019-11-12 | 2022-03-08 | 라인플러스 주식회사 | 영상 분석 방법, 사용자 디바이스 및 컴퓨터 프로그램 |
WO2021225608A1 (en) | 2020-05-08 | 2021-11-11 | WeMovie Technologies | Fully automated post-production editing for movies, tv shows and multimedia contents |
US11070888B1 (en) | 2020-08-27 | 2021-07-20 | WeMovie Technologies | Content structure aware multimedia streaming service for movies, TV shows and multimedia contents |
US11812121B2 (en) | 2020-10-28 | 2023-11-07 | WeMovie Technologies | Automated post-production editing for user-generated multimedia contents |
US11330154B1 (en) | 2021-07-23 | 2022-05-10 | WeMovie Technologies | Automated coordination in multimedia content production |
US11321639B1 (en) | 2021-12-13 | 2022-05-03 | WeMovie Technologies | Automated evaluation of acting performance using cloud services |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06149902A (ja) * | 1992-11-09 | 1994-05-31 | Matsushita Electric Ind Co Ltd | 動画像記録媒体、動画像記録装置、及び動画像再生装置 |
JPH10112835A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 映像要約方法および映像表示方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100215586B1 (ko) * | 1992-11-09 | 1999-08-16 | 모리시타 요이찌 | 다이제스트 화상 자동생성 장치 및 다이제스트 화상 자동생성 방법 |
US5805733A (en) * | 1994-12-12 | 1998-09-08 | Apple Computer, Inc. | Method and system for detecting scenes and summarizing video sequences |
US6023520A (en) * | 1995-07-06 | 2000-02-08 | Hitach, Ltd. | Method and apparatus for detecting and displaying a representative image of a shot of short duration in a moving image |
JP4027662B2 (ja) * | 1999-06-30 | 2007-12-26 | シャープ株式会社 | 動画像検索装置、および動画像検索情報管理装置 |
US7110454B1 (en) * | 1999-12-21 | 2006-09-19 | Siemens Corporate Research, Inc. | Integrated method for scene change detection |
-
2006
- 2006-06-23 KR KR1020087009952A patent/KR100957902B1/ko not_active IP Right Cessation
- 2006-06-23 US US11/991,604 patent/US20090279840A1/en not_active Abandoned
- 2006-06-23 JP JP2007542242A patent/JP4699476B2/ja not_active Expired - Fee Related
- 2006-06-23 CN CN200680039162XA patent/CN101292523B/zh not_active Expired - Fee Related
- 2006-06-23 WO PCT/JP2006/312634 patent/WO2007049381A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06149902A (ja) * | 1992-11-09 | 1994-05-31 | Matsushita Electric Ind Co Ltd | 動画像記録媒体、動画像記録装置、及び動画像再生装置 |
JPH10112835A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 映像要約方法および映像表示方法 |
Also Published As
Publication number | Publication date |
---|---|
US20090279840A1 (en) | 2009-11-12 |
WO2007049381A1 (ja) | 2007-05-03 |
KR100957902B1 (ko) | 2010-05-13 |
JPWO2007049381A1 (ja) | 2009-04-30 |
KR20080059597A (ko) | 2008-06-30 |
CN101292523B (zh) | 2011-02-09 |
CN101292523A (zh) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4699476B2 (ja) | 映像要約装置 | |
US7424204B2 (en) | Video information summarizing apparatus and method for generating digest information, and video information summarizing program for generating digest information | |
CN100380441C (zh) | 检测给定类型节目的方法和设备、无声检测器和接收器 | |
US7826708B2 (en) | System and method for automatically customizing a buffered media stream | |
US6928233B1 (en) | Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal | |
JP4449216B2 (ja) | 映像情報の編集方法及び編集装置 | |
KR100915847B1 (ko) | 스트리밍 비디오 북마크들 | |
US8634699B2 (en) | Information signal processing method and apparatus, and computer program product | |
JP4778231B2 (ja) | ビデオシーケンスに対してインデックス付けするシステムおよび方法 | |
JP2005514841A (ja) | マルチメディア・コンテンツをリンクするよう複数モードのストーリーをセグメントする方法及び装置 | |
US20090077137A1 (en) | Method of updating a video summary by user relevance feedback | |
US20080044085A1 (en) | Method and apparatus for playing back video, and computer program product | |
JP2003513564A (ja) | 動的閾値を使用する視覚的索引付けシステムの重要シーン検出及びフレームフィルタリング | |
JP2005513663A (ja) | コマーシャル及び他のビデオ内容の検出用のファミリーヒストグラムに基づく技術 | |
US8422853B2 (en) | Information signal processing method and apparatus, and computer program product | |
JP2004528790A (ja) | 番組開始及び終了区切りを検出する拡張epg | |
JP5096259B2 (ja) | 要約コンテンツ生成装置および要約コンテンツ生成プログラム | |
JP4620126B2 (ja) | 映像識別装置 | |
JP4999015B2 (ja) | 動画像データの分類装置 | |
JP4396914B2 (ja) | 動画像データの分類装置 | |
Lehane et al. | Dialogue scene detection in movies using low and mid-level visual features | |
Sugano et al. | MPEG content summarization based on compressed domain feature analysis | |
Kyperountas et al. | Audio PCA in a novel multimedia scheme for scene change detection | |
Nesvadba et al. | Low-level cross-media statistical approach for semantic partitioning of audio-visual content in a home multimedia environment | |
Kyperountas et al. | Scene change detection using audiovisual clues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110302 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4699476 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |