JP4699476B2

JP4699476B2 - 映像要約装置

Info

Publication number: JP4699476B2
Application number: JP2007542242A
Authority: JP
Inventors: 大樹工藤; 博文西川; 嘉明加藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-10-27
Filing date: 2006-06-23
Publication date: 2011-06-08
Anticipated expiration: 2026-06-23
Also published as: JPWO2007049381A1; CN101292523A; WO2007049381A1; US20090279840A1; CN101292523B; KR100957902B1; KR20080059597A

Description

この発明は、映像信号から重要な区間の映像を抽出して、重要な区間の映像の再生や編集を実施することが可能な映像要約装置に関するものである。

映像のカット点を検出することにより、映像信号をショット単位に分割し、複数のショットの中から重要なショットを識別する映像要約装置が提案されている。
重要なショットの判別処理は、以下の非特許文献１に開示されているように、例えば、多数の映像処理方法や音声処理方法など、非常に複雑な処理を用いるものが多く、リアルタイムでの判別や携帯機器への搭載は困難である。

また、実際に分類されたショットの編集や再生を行う際には、サムネイルと呼ばれる小画像の一覧を用いることが多い。
このサムネイルには、各ショットの代表画像が用いられ、代表画像としては、各ショットの先頭の画像が用いられることが多い。
しかしながら、ショットの先頭画像が、必ずしも、そのショットを代表的に表している画像とは限らない。このため、ユーザがサムネイルの一覧を見ても、自分が視聴したいショットがどこにあるのか判別することができないことがある。

「ドラマ映像の心理的内容に基づいた要約映像の作成」、電子情報通信学会論文誌、Ｄ−ＩＩ、Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ、Ｎｏ．６、ｐｐ１１２２−１１３１、２００１年、森山剛、坂内正夫著

従来の映像要約装置は以上のように構成されているので、例えば、多数の映像処理方法や音声処理方法など、非常に複雑な処理を実施しなければ、重要なショットを判別することができず、リアルタイムでの判別や携帯機器への搭載が困難である課題があった。
また、ショットの先頭画像が、必ずしも、そのショットを代表的に表している画像とは限らないため、ユーザがサムネイルの一覧を見ても、自分が視聴したいショットがどこにあるのか判別することができないことがある課題もあった。

この発明は上記のような課題を解決するためになされたもので、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる映像要約装置を得ることを目的とする。

この発明に係る映像要約装置は、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により今回抽出された特徴量と特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、距離算出手段により算出された特徴量間の距離の統計量を求め、統計量からカット点判定用の閾値を算出する閾値算出手段と、距離算出手段により算出された特徴量間の距離と閾値算出手段により算出された閾値を比較し、比較結果からカット点を判別するカット点判別手段と、カット点判別手段によりカット点が判別された場合、カット点より１つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、ショット長算出手段により算出されたショット長を判別材料にして、カット点判別手段により判別されたカット点より１つ前のカット点を起点とするショットが重要ショットであるか否かを判別する重要ショット判別手段とを備えたものである。

このことによって、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる効果がある。
また、ショット内に動きがある場合においても、その動きを統計的に分析することで、カット点とショット内の動きの変動を判別することができるため、適応的にカット点判定用の閾値を設定することが可能になり、その結果、従来の固定閾値を用いる場合と比べて、カット点の検出精度を高めることができる効果がある。

この発明の実施の形態１による映像要約装置を示す構成図である。この発明の実施の形態１による映像要約装置のカット点検出部１を示す構成図である。輝度値の変化やカット点を示す説明図である。この発明の実施の形態１による映像要約装置の処理内容を示すフローチャートである。この発明の実施の形態２による映像要約装置を示す構成図である。この発明の実施の形態３による映像要約装置を示す構成図である。映像コンテンツを分割した各々の分割範囲毎に重要なショットが存在する場合において、そのショットが代表する範囲を表している説明図である。この発明の実施の形態４による映像要約装置を示す構成図である。コンテンツの大きな変化点を示す説明図である。この発明の実施の形態５による映像要約装置を示す構成図である。この発明の実施の形態６による映像要約装置を示す構成図である。この発明の実施の形態７による映像要約装置を示す構成図である。この発明の実施の形態８による映像要約装置を示す構成図である。この発明の実施の形態９による映像要約装置を示す構成図である。この発明の実施の形態１０による映像要約装置を示す構成図である。この発明の実施の形態１１による映像要約装置を示す構成図である。ショット長の対数正規分布を表す説明図である。ショット長と映像コンテンツ長の関係を示す説明図である。この発明の実施の形態１２による映像要約装置を示す構成図である。この発明の実施の形態１３による映像要約装置を示す構成図である。この発明の実施の形態１４による映像要約装置を示す構成図である。この発明の実施の形態１５による映像要約装置を示す構成図である。この発明の実施の形態１６による映像要約装置を示す構成図である。この発明の実施の形態１７による映像要約装置を示す構成図である。この発明の実施の形態１８による映像要約装置を示す構成図である。この発明の実施の形態１９による映像要約装置を示す構成図である。この発明の実施の形態２０による映像要約装置を示す構成図である。この発明の実施の形態２０による映像要約装置のＡＶカット点判定部１２１を示す構成図である。この発明の実施の形態２１による映像要約装置を示す構成図である。この発明の実施の形態２２による映像要約装置を示す構成図である。この発明の実施の形態２３による映像要約装置を示す構成図である。この発明の実施の形態２４による映像要約装置を示す構成図である。この発明の実施の形態２５による映像要約装置を示す構成図である。この発明の実施の形態２６による映像要約装置を示す構成図である。

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態１．
図１はこの発明の実施の形態１による映像要約装置を示す構成図であり、図において、カット点検出部１は映像信号を入力すると、その映像のカット点を検出する処理を実施する。なお、カット点検出部１はカット点検出手段を構成している。
ショット長計算部２はカット点検出部１によりカット点が検出された場合、そのカット点より１つ前のカット点（１つ前のカット点は、カット点検出部１により前回検出されたカット点）を起点とするショットのショット長を算出する処理を実施する。即ち、カット点検出部１によりカット点が検出されると、現在のフレームの時刻とショット開始点バッファ３に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部４に出力する処理を実施する。ショット開始点バッファ３はショット開始点の時刻を記憶しているメモリである。
なお、ショット長計算部２及びショット開始点バッファ３からショット長算出手段が構成されている。

重要ショット判定部４はショット長計算部２により算出されたショット長が予め設定された閾値Ａより長い場合、カット点検出部１により検出されたカット点より１つ前のカット点を起点とするショットが重要ショット、１つ前のカット点を起点とするショットの次のショットが重要ショット、または、１つ前のカット点を起点とするショットと次のショットが重要ショットであると判定し、その判定結果を出力する処理を実施する。なお、重要ショット判定部４は重要ショット判別手段を構成している。

図２はこの発明の実施の形態１による映像要約装置のカット点検出部１を示す構成図であり、図において、特徴量抽出部１１は映像信号を入力すると、その映像信号から映像フレームの特徴を表している特徴量を抽出する処理を実施する。なお、特徴量抽出部１１は特徴量抽出手段を構成している。
フレーム間距離算出部１２は所定の評価関数を用いて、特徴量抽出部１１により今回抽出された現在のフレームの特徴量と特徴量バッファ１３に記憶されている直前のフレームの特徴量（特徴量抽出部１１により前回抽出されたフレームの特徴量）とを比較し、それらの特徴量間の距離（非類似度）を算出する処理を実施する。以下、現在のフレームと直前のフレームとの特徴量間の距離を「フレーム間距離」と称する。
特徴量バッファ１３は直前のフレームの特徴量を記憶し、フレーム間距離算出部１２がフレーム間距離を算出すると、次回のフレーム間距離の算出に備えるため、現在記憶している直前のフレームの特徴量を、特徴量抽出部１１により今回抽出された現在のフレームの特徴量に更新する。
なお、フレーム間距離算出部１２及び特徴量バッファ１３から距離算出手段が構成されている。

カット点判定用データ算出部１４はフレーム間距離算出部１２により算出されたフレーム間距離の統計量を求めて、その統計量からカット点判定用の閾値Ｔｈを算出し、カット点判定用の閾値Ｔｈをカット点判定用データバッファ１５に出力する処理を実施する。
カット点判定用データバッファ１５はカット点判定用データ算出部４により算出されたカット点判定用の閾値Ｔｈを記憶するメモリである。
なお、カット点判定用データ算出部１４及びカット点判定用データバッファ１５から閾値算出手段が構成されている。
カット点判定部１６はフレーム間距離算出部１２により算出されたフレーム間距離とカット点判定用データバッファ１５に記憶されているカット点判定用の閾値Ｔｈを比較し、その比較結果からカット点を判別する処理を実施する。なお、カット点判定部１６はカット点判別手段を構成している。
図４はこの発明の実施の形態１による映像要約装置の処理内容を示すフローチャートである。

次に動作について説明する。
カット点検出部１は、映像信号を入力すると、その映像のカット点を検出する処理を実施する。
以下、カット点検出部１におけるカット点の具体的な検出処理内容を説明するが、この実施の形態１におけるカット点検出部１は、従来の検出処理方法（例えば、隣接するフレームの輝度が、固定の閾値より大きくなると、そのフレームの変化点をカット点として検出する方法：日経エレクトロニクスＮｏ．８９２２００５．１．３１号５１頁）と異なる検出処理方法を採用しているため、いかなる映像信号が入力される場合でも、カット点を正確に検出することができる特徴がある。
ただし、カット点検出部１は、映像のカット点を検出することができればよく、カット点の検出精度を問わない場合には、従来の検出処理方法を使用して、映像のカット点を検出するようにしてもよい。

カット点検出部１の特徴量抽出部１１は、映像信号を入力すると、その映像信号からフレームの特徴を表している特徴量を抽出する（ステップＳＴ１）。
フレームの特徴を表している特徴量としては、例えば、過去のフレームとの差分のほか、色のヒストグラム、色の配置情報、テクスチャ情報、動き情報などが挙げられるが、いずれの特徴量を用いてもよく、また、複数の特徴量を用いてもよい。

カット点検出部１のフレーム間距離算出部１２は、特徴量抽出部１１が現在のフレームの特徴量を抽出すると、特徴量バッファ１３から直前のフレームの特徴量（特徴量抽出部１１により前回抽出されたフレームの特徴量）の読出しを行う。
そして、フレーム間距離算出部１２は、所定の評価関数を用いて、現在のフレームの特徴量と直前のフレームの特徴量とを比較し、それらの特徴量間の距離（非類似度）であるフレーム間距離を算出する（ステップＳＴ２）。
なお、フレーム間距離算出部１２は、フレーム間距離を算出すると、特徴量バッファ１３の記憶内容を現在のフレームの特徴量に更新する。

カット点検出部１のカット点判定部１６は、フレーム間距離算出部１２がフレーム間距離を算出すると、そのフレーム間距離とカット点判定用データバッファ１５に記憶されているカット点判定用の閾値Ｔｈを比較する（ステップＳＴ３）。
カット点判定部１６は、そのフレーム間距離がカット点判定用の閾値Ｔｈより大きい場合、カット点であると判定し、その旨を示す判定結果を出力する（ステップＳＴ４）。
一方、そのフレーム間距離がカット点判定用の閾値Ｔｈより大きくない場合、カット点ではないと判定し、その旨を示す判定結果を出力する（ステップＳＴ５）。
ここでは、カット点判定部１６はカット点判定用の閾値Ｔｈを用いて、カット点を判別しているが、例えば、ショット時間などを考慮して、カット点を判別するようにしてもよい。

カット点検出部１のカット点判定用データ算出部１４は、カット点判定部１６の判定結果がカット点である旨を示す場合、カット点判定用データバッファ１５の記憶内容を所定の値に初期化する（ステップＳＴ６）。
一方、カット点判定部１６の判定結果がカット点ではない旨を示す場合、フレーム間距離算出部１２により算出されたフレーム間距離の統計量を求めて、その統計量からカット点判定用の閾値Ｔｈを算出し、カット点判定用データバッファ１５の記憶内容を当該閾値Ｔｈで更新する（ステップＳＴ７）。
具体的には、以下のようにして、カット点判定用の閾値Ｔｈを算出する。

実際の映像コンテンツは、複数のショットから構成されており、ショットの切れ目であるカット点の直後のフレームがカット点であることは考え難く、ショットは複数のフレームが続くものと考えられる。
ここでは、説明の便宜上、各ショットのｎ−１番目のフレームと、ｎ番目のフレームの距離をＤｉｓｔ_nとする。
この距離Ｄｉｓｔ_nがある閾値よりも大きいとき、ｉ番目のショットにおけるｎ番目のフレームは、実際には、（ｉ＋１）番目の最初のフレームであると考えられる。即ち、ｉ番目のショットにおけるｎ番目のフレームは、カット点であると考えられる。ただし、ｉ番目のショットの最初のフレームは０番目のフレームであるとする。また、上記の閾値は、適応的に変動するものとして、Ｔｈ_{i_n}とする。

カット点判定用データ算出部１４は、閾値Ｔｈ_{i_n}を算出するに際して、ｉ番目のショットにおけるフレームの距離の平均値ａｖｇ_i（Ｄｉｓｔ_n）を算出するとともに、フレームの距離の分散値ｖａｒ_i（Ｄｉｓｔ_n）を算出する。
カット点判定用データ算出部１４は、距離の平均値ａｖｇ_i（Ｄｉｓｔ_n）と距離の分散値ｖａｒ_i（Ｄｉｓｔ_n）を算出すると、距離の平均値ａｖｇ_i（Ｄｉｓｔ_n）と距離の分散値ｖａｒ_i（Ｄｉｓｔ_n）を下記の式（１）に代入して、閾値Ｔｈ_{i_n}を算出する。
Ｔｈ_{i_n}＝ａｖｇ_i（Ｄｉｓｔ_n）＋α・ｖａｒ_i（Ｄｉｓｔ_n）（１）

式（１）において、αは係数である。
また、平均値ａｖｇ_i（Ｄｉｓｔ_n）及び分散値ｖａｒ_i（Ｄｉｓｔ_n）は、ｉ番目のショットにおける全てのフレームの平均値及び分散値ではなく、１番目からｎ−１番目までのフレームの平均値及び分散値である。
０番目のフレームは、平均値や分散値の算出に用いずに、１番目のフレームから平均値や分散値の算出に用いている理由は、０番目のフレームの距離Ｄｉｓｔ₀が、前のショットの最後のフレームとのフレーム間距離を表しているからである。
また、ｎ番目のフレームは、平均値や分散値の算出に用いずに、ｎ−１番目までのフレームを平均値や分散値の算出に用いている理由は、入力されたフレームについて、即座にカット点であるか否かを判別することができるからである。

なお、平均値ａｖｇ_i（Ｄｉｓｔ_n）及び分散値ｖａｒ_i（Ｄｉｓｔ_n）は、正確な値ではなく、何らかの近似値を用いてもよい。また、係数αはコンテンツのジャンルなどによって変更してもよい。

以上から明らかなように、カット点検出部１がショット内に動きがある場合においても、その動きを統計的に分析することで、カット点とショット内の動きの変動を判別することができるため、適応的にカット点判定用の閾値Ｔｈ_{i_n}を設定することが可能になり、その結果、従来の固定閾値を用いる場合と比べて、カット点の検出精度を高めることができるようになる。その理由は、以下の通りである。

従来の検出処理方法では、カット点の検出にフレーム内の輝度値の変化を用いており、カット点検出用の閾値は固定値である。
一般に、現在のショットの次にショットが来るか否かを予測することは困難である。
似ているショットが続く場合、例えば、同一のスタジオ内において、カメラが切り替わる場合など、カット点であっても輝度値の変化が小さいことがある。
その一方で、同一のカットであっても、フラッシュや、人物の大きな動きなどがある場合、フレーム間の変化（輝度値の変化）が大きくなることがある。
図３は、このような場合の輝度値の変化を示す説明図である。

このため、従来の検出処理方法では、大きな閾値を設定すると、小さな変化のカット点を見逃すことになり、小さな閾値を設定すると、変化の大きなショットでカット点を誤検出することがある。
これに対して、この実施の形態１のカット点検出部１では、単なる輝度値の差以外に、特徴量を用いて汎用性を高めている。さらに、評価関数による評価結果である距離が大きい場合にカット点としているが、その閾値を適応的に設定することで、変化の大きなショットであれば、自動的に閾値が大きくなり、変化の小さなショットであれば、自動的に閾値が小さくなるため、カット点検出の大幅な精度向上と汎用性の向上が期待できる。

なお、この実施の形態1では、特徴量を抽出する際、映像信号からではなく、圧縮された画像の符号化データから特徴量を抽出するようにしてもよい。
また、フレーム間距離を算出する際、必ずしも隣接したフレームではなく、２フレーム以上間隔を空けているフレーム間の距離を算出するようにして、算出処理の高速化を図るようにしてもよい。
このように、フレーム間隔をあけて距離の算出やカット点の検出を行う場合、時間的に圧縮された符号化映像におけるフレーム内符号化を用いたフレームを用いてもよい。
さらに、平均値及び分散値を計算する際、現在のフレームに近いフレームに対して重みを付けるなどの処理を実施して、ショット内における変動の様子の時間変化に対応するようにしてもよい。

ショット長計算部２は、カット点検出部１におけるカット点判定部１６の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点検出部１におけるカット点判定部１６の判定結果がカット点である旨を示す場合、そのカット点より１つ前のカット点を起点とするショットのショット長を算出する（ステップＳＴ８）。
即ち、ショット長計算部２は、ショットのショット長はｉ番目のショットの開始時刻と（ｉ＋１）番目のショットの開始時刻の差で求めることができるので、カット点検出部１におけるカット点判定部１６の判定結果がカット点である旨を示す場合、現在のフレームの時刻とショット開始点バッファ３に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部４に出力する。
なお、ショット長計算部２は、ショット長を算出すると、ショット開始点バッファ３の記憶内容を現在のフレームの時刻に更新する。

重要ショット判定部４は、ショット長計算部２がショット長を算出すると、そのショット長と予め設定された閾値Ａを比較する（ステップＳＴ９）。
そして、重要ショット判定部４は、そのショット長が予め設定された閾値Ａより長い場合、カット点検出部１により検出されたカット点より１つ前のカット点を起点とするショットが重要ショットであると判定し、その判定結果を出力する（ステップＳＴ１０）。
ここでは、重要ショット判定部４が、１つ前のカット点を起点とするショットが重要ショットであると判定しているが、１つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、１つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。

以上で明らかなように、この実施の形態１によれば、カット点検出部１におけるカット点判定部１６の判定結果がカット点である旨を示す場合、そのカット点より１つ前のカット点を起点とするショットのショット長を算出するショット長計算部２を設け、そのショット長計算部２により算出されたショット長を判別材料にして、１つ前のカット点を起点とするショットが重要ショットであるか否かを判別するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる効果を奏する。
この実施の形態１では、特に会話が主体のコンテンツである場合、重要なナレーションや、台詞部分におけるショット長が長いことに基づいている。また、カット点が分かっている場合、計算負荷が非常に小さいことが特徴であり、計算能力の低い機器においても、重要ショットの判定が可能になる。

なお、カット点を求める際、隣接するフレームではなく、離れたフレームを用いて処理の高速化を図るようにしてもよい。この場合においても、出力される重要ショットの開始時刻は本来の重要ショットの開始時刻から僅かな時間ずれるだけである。

実施の形態２．
図５はこの発明の実施の形態２による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部２１はユーザにより設定された要約視聴時間（ユーザが要約を視聴したいと考える時間）、映像コンテンツの時間的分割数及び映像コンテンツ長からコンテンツ分割時間間隔（映像コンテンツを分割する時間間隔）とショット視聴時間（１ショット当りの視聴時間）を設定する処理を実施する。なお、時間間隔設定部２１は時間間隔設定手段を構成している。

最長ショット判定部２２はショット長計算部２がショット長を算出する毎に、そのショット長計算部２により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する処理を実施する。
最長ショット長バッファ２３は最長ショット判定部２２により判別された最長のショットのショット長を記憶しているメモリである。
最長ショット開始点バッファ２４は最長ショット判定部２２により判別された最長のショットの開始点の時刻（最長のショットが検出された時点のフレームの時刻）を記憶しているメモリである。

時間分割判定部２５は時間間隔設定部２１により設定されたコンテンツ分割時間間隔の中で重要なショットの開始点の時刻を出力する。即ち、現在のフレームの時刻が時間間隔設定部２１により設定されたコンテンツ分割時間間隔の整数倍である場合、最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。
なお、最長ショット判定部２２、最長ショット長バッファ２３、最長ショット開始点バッファ２４及び時間分割判定部２５から最長ショット検出手段が構成されている。

次に動作について説明する。
時間間隔設定部２１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔Ｔ_Segment及びショット視聴時間Ｔ_Playを設定する。
Ｎ_shot＝ｎ
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_Play＝Ｔ_Dijest／ｎ

このように設定した場合、ユーザは、ｎ個のショットを先頭からＴ_Play秒間ずつ視聴することになる。
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、ショット視聴時間Ｔ_Playが０．５分（＝３０秒）となる。
なお、時間間隔設定部２１が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを判別するようにしてもよい。

カット点検出部１は、映像信号を入力すると、上記実施の形態１と同様にして、その映像のカット点を検出する処理を実施する。
ショット長計算部２は、カット点検出部１がカット点を検出しなければ、特に処理を実施しないが、カット点検出部１がカット点を検出すると、上記実施の形態１と同様にして、そのカット点より１つ前のカット点を起点とするショットのショット長を算出する。
即ち、ショット長計算部２は、カット点検出部１がカット点を検出すると、現在のフレームの時刻とショット開始点バッファ３に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として最長ショット判定部２２に出力する。
なお、ショット長計算部２は、ショット長を算出すると、ショット開始点バッファ３の記憶内容を現在のフレームの時刻に更新する。

最長ショット判定部２２は、ショット長計算部２がショット長を算出する毎に、そのショット長計算部２により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部２２は、ショット長計算部２がショット長を算出すると、そのショット長計算部２により算出されたショット長と、最長ショット長バッファ２３に記憶されている最長のショットのショット長とを比較し、そのショット長計算部２により算出されたショット長が最長ショット長バッファ２３に記憶されている最長のショットのショット長より長い場合、ショット長計算部２によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部２２は、現時点における最長のショットを判別すると、最長ショット長バッファ２３の記憶内容をショット長計算部２により算出されたショット長に更新する。
また、最長ショット判定部２２は、最長ショット開始点バッファ２４の記憶内容を最長のショットの開始点の時刻（現在のフレームの時刻）に更新する。

時間分割判定部２５は、時間間隔設定部２１により設定されたコンテンツ分割時間間隔Ｔ_Segmentの中で重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部２５は、現在のフレームの時刻が時間間隔設定部２１により設定されたコンテンツ分割時間間隔Ｔ_Segmentの整数倍である場合、最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部２５が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。

以上で明らかなように、この実施の形態２によれば、ショット長計算部２がショット長を算出する毎に、そのショット長計算部２により現時点までに算出されたショット長を相互に比較して、時間間隔設定部２１により設定された時間間隔の中でショット長が最長のショット、最長のショットの次のショット、または、最長のショットと次のショットを検出するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる効果を奏する。
また、この実施の形態２を録画装置や再生装置に適用すれば、重要ショットの開始時刻やショット再生の時間がわかるため、映像の自動編集や簡便な要約再生の視聴が可能になる。

なお、カット点を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。この場合においても、出力される重要ショットの開始時刻は、本来の開始時刻から僅かな時間ずれるだけである。

実施の形態３．
図６はこの発明の実施の形態３による映像要約装置を示す構成図であり、図において、図５と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部３１はユーザにより設定された要約視聴時間、映像コンテンツの時間的分割数及び映像コンテンツ長からコンテンツ分割時間間隔の初期値とショット基準視聴時間（１ショット当りの視聴時間）を設定する処理を実施する。
ショット代表範囲初期設定部３２は時間間隔設定部３１により設定されたコンテンツ分割時間間隔の初期値と映像コンテンツ長からショット代表範囲（ショット代表範囲は、ショット代表範囲開始点及び暫定ショット代表範囲終了点からなる）の初期値を設定する処理を実施する。

時間分割点バッファ３３はショット代表範囲初期設定部３２により設定されたショット代表範囲の初期値を記憶するメモリである。
ショット代表範囲判定・再設定部３４は現在のフレームの時刻がショット代表範囲の終了点を超えている場合、重要ショット再生時間を計算して出力するとともに、最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。また、ショット代表範囲判定・再設定部３４はショット代表範囲の更新データを生成して、時間分割点バッファ３３の記憶内容を更新する。
なお、時間間隔設定部３１、ショット代表範囲初期設定部３２、時間分割点バッファ３３及びショット代表範囲判定・再設定部３４から時間間隔設定手段が構成されている。

次に動作について説明する。
時間間隔設定部３１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔の初期値Ｔ_Segment0及びショット基準視聴時間Ｔ_Play0を設定する。
Ｎ_shot＝ｎ
Ｔ_Segment0＝Ｔ_Content／ｎ
Ｔ_Play0＝Ｔ_Dijest／ｎ

例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔の初期値Ｔ_Segment0が３分（＝１８０秒）、ショット基準視聴時間Ｔ_Play0が０．５分（＝３０秒）となる。
なお、時間間隔設定部３１が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを判別するようにしてもよい。

ショット代表範囲初期設定部３２は、時間間隔設定部３１がコンテンツ分割時間間隔の初期値Ｔ_Segment0を設定すると、そのコンテンツ分割時間間隔の初期値Ｔ_Segment0と映像コンテンツ長Ｔ_Contentからショット代表範囲の初期値（ショット代表範囲の開始点Ｐ_Start、暫定ショット代表範囲の終了点Ｐ_{End_temp}）を設定する。
Ｐ_Start＝０
Ｐ_{End_temp}＝Ｔ_Content／Ｎ_shot＝Ｔ_Segment0
ここで、図７は映像コンテンツを分割した各々の分割範囲毎に重要なショットが存在する場合において、そのショットが代表する範囲を表している説明図である。
ショット代表範囲初期設定部３２は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ３３に格納する。

最長ショット判定部２２は、上記実施の形態２と同様に、ショット長計算部２がショット長を算出する毎に、そのショット長計算部２により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部２２は、ショット長計算部２がショット長を算出すると、そのショット長計算部２により算出されたショット長と、最長ショット長バッファ２３に記憶されている最長のショットのショット長とを比較し、そのショット長計算部２により算出されたショット長が最長ショット長バッファ２３に記憶されている最長のショットのショット長より長い場合、ショット長計算部２によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部２２は、現時点における最長のショットを判別すると、最長ショット長バッファ２３の記憶内容をショット長計算部２により算出されたショット長に更新する。
また、最長ショット判定部２２は、最長ショット開始点バッファ２４の記憶内容を最長のショットの開始点の時刻（現在のフレームの時刻）に更新する。

ショット代表範囲判定・再設定部３４は、現在のフレームの時刻Ｐ_Nowが時間分割点バッファ３３に記憶されている暫定ショット代表範囲の終了点Ｐ_{End_temp}を超えている場合、下記のようにして、ショット代表範囲の終了点Ｐ_Endと重要ショット再生時間Ｔ_Playを計算し、その重要ショット再生時間Ｔ_Playを出力する。
Ｐ_End＝Ｐ_Now＋Ｐ_{Shot_Start}−Ｐ_Start
Ｔ_Play＝(Ｐ_End−Ｐ_Start)＊Ｔ_Play0／Ｔ_Segment0
ただし、Ｐ_{Shot_Start}は最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻である。

また、ショット代表範囲判定・再設定部３４は、現在のフレームの時刻Ｐ_Nowが時間分割点バッファ３３に記憶されている暫定ショット代表範囲の終了点Ｐ_{End_temp}を超えている場合、最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻Ｐ_{Shot_Start}を、要約再生に用いる重要ショットの開始時刻として出力するとともに、時間分割点バッファ３３に記憶されているショット代表範囲の開始点Ｐ_Startと暫定ショット代表範囲の終了点Ｐ_{End_temp}を更新する。
更新後のショット代表範囲は、下記の通りである。
Ｐ_Start＝Ｐ_End
Ｐ_{End_temp}＝Ｐ_End＋Ｔ_Content／Ｎ_Shot＝Ｐ_End＋Ｔ_Segment0

以上で明らかなように、この実施の形態３によれば、最長ショット判定部２２により判別された最長のショットの開始時刻とショット長に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。
なお、上記実施の形態２の場合、コンテンツの内容が時間的に均等に区切られている場合に有効であり、コンテンツのジャンル毎に、上記実施の形態２と実施の形態３を使い分けるのがよい。

実施の形態４．
図８はこの発明の実施の形態４による映像要約装置を示す構成図であり、図において、図２と同一符号は同一または相当部分を示すので説明を省略する。
距離判定部４１はフレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する処理を実施する。即ち、フレーム間距離算出部１２により算出されたフレーム間距離と最大距離バッファ４２に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部１２により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大のフレーム間距離を検出した旨を示す検出情報を時間判定部４３に出力するとともに、最大距離バッファ４２の記憶内容をフレーム間距離算出部１２により算出されたフレーム間距離に更新する。
最大距離バッファ４２は距離判定部４１により判別された最大のフレーム間距離を記憶しているメモリである。
なお、距離判定部４１及び最大距離バッファ４２から最大距離検出手段が構成されている。

時間判定部４３は距離判定部４１から最大フレーム間距離の検出情報を受けると、最大距離フレーム時刻バッファ４４に記憶されているフレームの時刻（距離判定部４１から前回検出情報を受けた時点のフレームの時刻）から現在のフレームの時刻までの時刻差を求め、その時刻差が予め設定されたコンテンツ時間分割間隔（映像コンテンツを分割する時間間隔）より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するとともに、最大距離フレーム時刻バッファ４４の記憶内容を現在のフレームの時刻に更新する処理を実施する。
最大距離フレーム時刻バッファ４４は最大の距離が判別された時点のフレームの時刻を記憶しているメモリである。
なお、時間判定部４３及び最大距離フレーム時刻バッファ４４から重要フレーム検出手段が構成されている。

次に動作について説明する。
特徴量抽出部１１は、映像信号を入力すると、上記実施の形態１と同様に、その映像信号からフレームの特徴を表している特徴量を抽出する。
フレームの特徴を表している特徴量としては、例えば、過去のフレームとの差分のほか、色のヒストグラム、色の配置情報、テクスチャ情報、動き情報などが挙げられるが、いずれの特徴量を用いてもよく、また、複数の特徴量を用いてもよい。

フレーム間距離算出部１２は、特徴量抽出部１１が現在のフレームの特徴量を抽出すると、上記実施の形態１と同様に、特徴量バッファ１３から直前のフレームの特徴量（特徴量抽出部１１により前回抽出されたフレームの特徴量）の読出しを行う。
そして、フレーム間距離算出部１２は、所定の評価関数を用いて、現在のフレームの特徴量と直前のフレームの特徴量とを比較し、それらの特徴量間の距離（非類似度）であるフレーム間距離を算出する。
なお、フレーム間距離算出部１２は、フレーム間距離を算出すると、特徴量バッファ１３の記憶内容を現在のフレームの特徴量に更新する。

距離判定部４１は、フレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する。
即ち、距離判定部４１は、フレーム間距離算出部１２がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ４２に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部１２により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大のフレーム間距離を検出した旨を示す検出情報を時間判定部４３に出力する。
この際、距離判定部４１は、最大距離バッファ４２の記憶内容をフレーム間距離算出部１２により算出されたフレーム間距離に更新する。

時間判定部４３は、距離判定部４１から最大フレーム間距離の検出情報を受けると、最大距離フレーム時刻バッファ４４に記憶されているフレームの時刻（距離判定部４１から前回検出情報を受けた時点のフレームの時刻）から現在のフレームの時刻までの時刻差を求める。
そして、時間判定部４３は、その時刻差が予め設定されたコンテンツ時間分割間隔より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するとともに、最大距離フレーム時刻バッファ４４の記憶内容を現在のフレームの時刻に更新する。

以上で明らかなように、この実施の形態４によれば、距離判定部４１から最大フレーム間距離の検出情報を受けると、最大距離フレーム時刻バッファ４４に記憶されているフレームの時刻から現在のフレームの時刻までの時刻差を求め、その時刻差が予め設定されたコンテンツ時間分割間隔より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するように構成したので、時間間隔を保ちながらコンテンツの大きな変化点を、フレーム間距離と時間間隔のみで探し出すことが可能になる（図９を参照）。これにより、非常に小さな計算負荷で、映像の自動編集や簡便な要約再生の視聴が可能になる効果を奏する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。

実施の形態５．
図１０はこの発明の実施の形態５による映像要約装置を示す構成図であり、図において、図５と同一符号は同一または相当部分を示すので説明を省略する。
距離判定部５１はカット点検出部１によりカット点が検出された場合、フレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する処理を実施する。即ち、フレーム間距離算出部１２により算出されたフレーム間距離と最大距離バッファ４２に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部１２により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ５２の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ４２の記憶内容をフレーム間距離算出部１２により算出されたフレーム間距離に更新する。
最大距離カット点開始時刻バッファ５２は最大のフレーム間距離のカット点の開始時刻を記憶しているメモリである。
なお、距離判定部５１、最大距離バッファ４２及び最大距離カット点開始時刻バッファ５２から最大距離検出手段が構成されている。

時間分割判定部５３は時間間隔設定部２１により設定されたコンテンツ分割時間間隔の中で重要なショットの開始点の時刻を出力する。即ち、現在のフレームの時刻が時間間隔設定部２１により設定されたコンテンツ分割時間間隔の整数倍である場合、最大距離カット点開始時刻バッファ５２に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。
なお、時間分割判定部５３は重要ショット検出手段を構成している。

次に動作について説明する。
時間間隔設定部２１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態２と同様に、これらの入力情報にしたがって重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔Ｔ_Segment及びショット視聴時間Ｔ_Playを設定する。
Ｎ_shot＝ｎ
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_Play＝Ｔ_Dijest／ｎ

カット点検出部１は、映像信号を入力すると、上記実施の形態１と同様にして、その映像のカット点を検出する処理を実施する。
また、カット点検出部１のフレーム間距離算出部１２は、特徴量抽出部１１が現在のフレームの特徴量を抽出すると、上記実施の形態１と同様にして、フレーム間距離を算出する（図２を参照）。

距離判定部５１は、カット点検出部１がカット点を検出すると、フレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する。
即ち、距離判定部５１は、カット点検出部１がカット点を検出したとき、フレーム間距離算出部１２がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ４２に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部１２により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ５２の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ４２の記憶内容をフレーム間距離算出部１２により算出されたフレーム間距離に更新する処理を実施する。

時間分割判定部５３は、時間間隔設定部２１により設定されたコンテンツ分割時間間隔Ｔ_Segmentの中で重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部５３は、現在のフレームの時刻が時間間隔設定部２１により設定されたコンテンツ分割時間間隔Ｔ_Segmentの整数倍である場合、最大距離カット点開始時刻バッファ５２に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。

以上で明らかなように、この実施の形態５によれば、カット点検出部１によりカット点が検出された場合、フレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を検出する距離判定部５１を設け、時間間隔設定部２１により設定された時間間隔の中で、距離判定部５１により最大のフレーム間距離が検出されたフレームの時刻を重要ショットの開始時刻として出力するように構成したので、時間的に均等に映像コンテンツを分割し、各分割された区間において変化の大きいカット点を各時間間隔における代表的なシーンとして検出することが可能になる。これにより、非常に小さな計算負荷で、映像の自動編集や簡便な要約再生の視聴が可能になる効果を奏する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。

実施の形態６．
図１１はこの発明の実施の形態６による映像要約装置を示す構成図であり、図において、図６及び図１０と同一符号は同一または相当部分を示すので説明を省略する。
ショット代表範囲判定・再設定部５４は現在のフレームの時刻がショット代表範囲の終了点を超えている場合、重要ショット再生時間を計算して出力するとともに、最大距離カット点開始時刻バッファ５２に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する。また、ショット代表範囲判定・再設定部５４はショット代表範囲の更新データを生成して、時間分割点バッファ３３の記憶内容を更新する。
なお、時間間隔設定部３１、ショット代表範囲初期設定部３２、時間分割点バッファ３３及びショット代表範囲判定・再設定部５４から時間間隔設定手段が構成されている。

次に動作について説明する。
時間間隔設定部３１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態３と同様に、これらの入力情報にしたがって重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔の初期値Ｔ_Segment0及びショット基準視聴時間Ｔ_Play0を設定する。
Ｎ_shot＝ｎ
Ｔ_Segment0＝Ｔ_Content／ｎ
Ｔ_Play0＝Ｔ_Dijest／ｎ

ショット代表範囲初期設定部３２は、時間間隔設定部３１がコンテンツ分割時間間隔の初期値Ｔ_Segment0を設定すると、上記実施の形態３と同様に、そのコンテンツ分割時間間隔の初期値Ｔ_Segment0と映像コンテンツ長Ｔ_Contentからショット代表範囲の初期値（ショット代表範囲の開始点Ｐ_Start、暫定ショット代表範囲の終了点Ｐ_{End_temp}）を設定する。
Ｐ_Start＝０
Ｐ_{End_temp}＝Ｔ_Content／Ｎ_shot＝Ｔ_Segment0
ショット代表範囲初期設定部３２は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ３３に格納する。

距離判定部５１は、カット点検出部１によりカット点が検出された場合、上記実施の形態５と同様に、フレーム間距離算出部１２がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ４２に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部１２により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ５２の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ４２の記憶内容をフレーム間距離算出部１２により算出されたフレーム間距離に更新する処理を実施する。

ショット代表範囲判定・再設定部５４は、現在のフレームの時刻Ｐ_Nowが時間分割点バッファ３３に記憶されている暫定ショット代表範囲の終了点Ｐ_{End_temp}を超えている場合、
下記のようにして、ショット代表範囲の終了点Ｐ_Endと重要ショット再生時間Ｔ_Playを計算し、その重要ショット再生時間Ｔ_Playを出力する。
Ｐ_End＝Ｐ_Now＋Ｐ_{Shot_Start}−Ｐ_Start
Ｔ_Play＝(Ｐ_End−Ｐ_Start)＊Ｔ_Play0／Ｔ_Segment0
ただし、Ｐ_{Shot_Start}は最大距離カット点開始時刻バッファ５２に記憶されている最大のフレーム間距離のカット点の開始時刻である。

また、ショット代表範囲判定・再設定部５４は、現在のフレームの時刻Ｐ_Nowが時間分割点バッファ３３に記憶されている暫定ショット代表範囲の終了点Ｐ_{End_temp}を超えている場合、最大距離カット点開始時刻バッファ５２に記憶されている最大のフレーム間距離のカット点の開始時刻Ｐ_{Shot_Start}を、要約再生に用いる重要ショットの開始時刻として出力するとともに、時間分割点バッファ３３に記憶されているショット代表範囲の開始点Ｐ_Startと暫定ショット代表範囲の終了点Ｐ_{End_temp}を更新する。
更新後のショット代表範囲は、下記の通りである。
Ｐ_Start＝Ｐ_End
Ｐ_{End_temp}＝Ｐ_End＋Ｔ_Content／Ｎ_Shot＝Ｐ_End＋Ｔ_Segment0

以上で明らかなように、この実施の形態６によれば、距離判定部５１により最大のフレーム間距離が検出されたフレームの時刻に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。
なお、上記実施の形態５の場合、コンテンツの内容が時間的に均等に区切られている場合に有効であり、コンテンツのジャンル毎に、上記実施の形態５と実施の形態６を使い分けるのがよい。

実施の形態７．
図１２はこの発明の実施の形態７による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
距離平均算出部６１はカット点検出部１のフレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離の平均値を算出する処理を実施する。なお、距離平均算出部６１は平均値算出手段を構成している。

キーフレーム候補判定部６２はフレーム間距離算出部１２により算出されたフレーム間距離と平均値算出部６１により算出された平均値の差分値が最小値バッファ６３に記憶されている最小値より小さい場合、その差分値が最小値より小さい旨を示す最小値検出信号をサムネイル候補画像バッファ６４に出力するとともに、最小値バッファ６３の記憶内容を当該差分値に更新する。
最小値バッファ６３は最小値を記憶しているメモリであり、サムネイル候補画像バッファ６４はキーフレーム候補判定部６２から最小値検出信号を受けると、映像信号の映像をサムネイル候補画像として記憶するメモリである。
なお、キーフレーム候補判定部６２、最小値バッファ６３及びサムネイル候補画像バッファ６４からサムネイル候補画像記憶手段が構成されている。
サムネイル作成部６５はカット点検出部１がカット点を検出すると、サムネイル候補画像バッファ６４に記憶されているサムネイル候補画像からサムネイルを作成する処理を実施する。なお、サムネイル作成部６５はサムネイル作成手段を構成している。

次に動作について説明する。
カット点検出部１は、映像信号を入力すると、上記実施の形態１と同様にして、その映像のカット点を検出する処理を実施する。
また、カット点検出部１のフレーム間距離算出部１２は、特徴量抽出部１１が現在のフレームの特徴量を抽出すると、上記実施の形態１と同様にして、フレーム間距離を算出する（図２を参照）。

距離平均算出部６１は、カット点検出部１が現在のフレームがカット点ではないと判定している場合、フレーム間距離算出部１２がフレーム間距離を算出する毎に、そのフレーム間距離算出部１２により現時点までに算出されたフレーム間距離の平均値を算出する。
キーフレーム候補判定部６２は、カット点検出部１が現在のフレームがカット点ではないと判定している場合において、距離平均算出部６１がフレーム間距離の平均値を算出すると、フレーム間距離算出部１２により算出されたフレーム間距離と平均値算出部６１により算出された平均値の差分値を求め、その差分値と最小値バッファ６３に記憶されている最小値を比較する。

キーフレーム候補判定部６２は、その差分値が最小値バッファ６３に記憶されている最小値より小さい場合、その差分値が最小値より小さい旨を示す最小値検出信号をサムネイル候補画像バッファ６４に出力するとともに、最小値バッファ６３の記憶内容を当該差分値に更新する。
サムネイル候補画像バッファ６４は、キーフレーム候補判定部６２から最小値検出信号を受けると、映像信号の映像をサムネイル候補画像として記憶する。
サムネイル作成部６５は、カット点検出部１がカット点を検出すると、サムネイル候補画像バッファ６４に記憶されているサムネイル候補画像を読出し、そのサムネイル候補画像からサムネイルを作成して出力する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。

一般的に、映像コンテンツ中の同一のショットにおいても、カメラのパン・チルト・ズームや人物の動きにより、画像に差異が見られる。
また、パン・チルト・ズームや、人物の動きが落ち着いたときが、そのショットにおける重要な画像である場合が多い。
このとき、フレーム間距離Ｄｉｓｔ_nは小さくなり、それが長い時間続くと、フレーム間距離の平均値ａｖｇ_i（Ｄｉｓｔ_n）が小さくなっていく。
この実施の形態７では、｜Ｄｉｓｔ_n−ａｖｇ_i（Ｄｉｓｔ_n）｜が最小になるｎの画像をｉ番目のショットにおける代表的な画像としている。
これにより、各ショットを代表する画像を効果的に検出することが可能になり、ユーザは、より簡単に映像コンテンツの中から視聴したいシーンを再生することが可能となる。

実施の形態８．
図１３はこの発明の実施の形態８による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
重要ショット長バッファ７１は重要ショット判別部４が重要ショットを検出すると、ショット長計算部２により計算された重要ショットのショット長を記憶するメモリである。なお、重要ショット長バッファ７１は重要ショット長記憶手段を構成している。
重要ショット再生時間算出部７２は重要ショット長バッファ７１に記憶されている重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出する処理を実施する。なお、重要ショット再生時間算出部７２は再生時間算出手段を構成している。

次に動作について説明する。
重要ショット判定部４は、ショット長計算部２がショット長を算出すると、上記実施の形態１と同様にして、そのショット長と予め設定された閾値Ａを比較して、カット点検出部１により検出されたカット点より１つ前のカット点を起点とするショットが重要ショットであるか否かを判定し、その判定結果を出力する。
ここでは、重要ショット判定部４が上記実施の形態１と同様にして、重要ショットを検出するものについて示したが、重要ショットの検出方法は上記実施の形態１に記載の方法に限るものではなく、例えば、上記実施の形態２〜６に記載の方法を用いてもよい。

重要ショット再生時間算出部７２は、ユーザにより設定された要約視聴時間ＰＴを入力すると、下記の式を満足するように、その要約視聴時間ＰＴと重要ショット長バッファ７１に記憶されているｉ番目の重要ショットのショット長ＳＬ_iからｉ番目の重要ショットの再生時間ＰＳ_iを算出する。

ただし、ｍは重要ショットの個数である。

以上で明らかなように、この実施の形態８によれば、重要ショット長バッファ７１に記憶されている重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出するように構成したので、各ショットの長さに応じた重みで要約再生時の各重要ショットの視聴時間を設定することができる効果を奏する。

実施の形態９．
図１４はこの発明の実施の形態９による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
重要ショット判定部８１はショット開始点バッファ３に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する処理を実施する。なお、重要ショット判定部８１は重要ショット判定手段を構成している。

次に動作について説明する。
カット点検出部１は、映像信号を入力すると、上記実施の形態１と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部１は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶する。

重要ショット判定部８１は、映像が終了して映像終了信号を受けると、ショット開始点バッファ３からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出する。
そして、重要ショット判定部８１は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット（重要ショット）に決定することにより、重要ショットの開始点と再生時間を決定する。
具体的には、以下の通りである。

重要ショット判定部８１は、例えば、映像信号の中にｍ個のショットがある場合、ｍ個のショットの中のｉ番目のショットの開始点の時刻ＳＴ_i（ｉ番目のカット点の検出時刻）と、ｉ＋１番目のショットの開始点の時刻ＳＴ_i+1を用いて、ｉ番目のショットのショット長ＳＬ_iを求める。
ＳＬ_i＝ＳＴ_i+1−ＳＴ_i
重要ショット判定部８１は、上記のようにして、映像信号に含まれているｍ個のショットのショット長ＳＬ_iを求めると、ショット長ＳＬ_iが長い順にｍ個のショットをソートする。
ソート後のショット長をＳＳＬ_iとすると、長い順にソートしているため、ＳＳＬ_i≧ＳＳＬ_i+1になる。

次に、重要ショット判定部８１は、ソート後のショット長ＳＳＬ_iに係数αを乗算し、各乗算結果αＳＳＬ_iの総和を算出する。ただし、係数αの値域は、０＜α≦１である。
重要ショット判定部８１は、各乗算結果αＳＳＬ_iの総和と要約視聴時間Ｔ_Dijestを比較し、下記の不等式を満足する最も大きなｋを求める。

重要ショット判定部８１は、上記の不等式を満足する最も大きなｋを求めると、そのときのショット長ＳＳＬ_kを、重要ショットを判別する際に使用するショット長の閾値ＳＬ_Thに設定する。
重要ショット判定部８１は、ショット長の閾値ＳＬ_Thを設定すると、映像信号に含まれているｍ個のショットのショット長ＳＬ_iと閾値ＳＬ_Thを比較し、ＳＬ_Th＜ＳＬ_iを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαＳＬ_iとする。これにより、要約再生する時間は、要約視聴時間Ｔ_Dijest以下になる。

以上で明らかなように、この実施の形態９によれば、ショット開始点バッファ３に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定するように構成したので、ユーザが重要ショットのみを視聴することができる効果を奏する。

なお、係数αの値を小さくすれば、再生対象のショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に、係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
このため、係数αの値は、コンテンツのジャンルや特徴、ユーザの所望に応じて使い分けるとよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１０．
図１５はこの発明の実施の形態１０による映像要約装置を示す構成図であり、図において、図１及び図１４と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部９１は映像コンテンツ長と、ユーザにより設定された所望の要約視聴時間と、ユーザにより設定もしくは自動的に設定された時間的分割数（コンテンツを時間的に分割する数）とから、コンテンツ分割時間間隔（コンテンツを時間的に分割する基準となる時間）と、基準分割要約視聴時間（分割された時間を要約視聴する基準となる時間）を算出する。なお、時間間隔設定部９１は時間間隔設定手段を構成している。

重要ショット判定部８１は、図１４の重要ショット判定部８１と同様に、ショット開始点バッファ３に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定するが、図１５の重要ショット判定部８１は、時間間隔設定部９１により設定された時間間隔の中で、ショット開始点バッファ３に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出する。
時間分割点バッファ９２はコンテンツが分割された時刻を記憶しているメモリである。

次に動作について説明する。
時間間隔設定部９１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、これらの入力情報にしたがって、コンテンツ分割時間間隔Ｔ_Segment及び基準分割要約視聴時間Ｔ_{S_Dijest}を設定する。
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_{S_Dijest}＝Ｔ_Dijest／ｎ
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、基準分割要約視聴時間Ｔ_{S_Dijest}が０．５分（＝３０秒）となる。

カット点検出部１は、映像信号を入力すると、上記実施の形態１と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部１は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶するとともに、カット点の判定結果を重要ショット判定部８１に出力する。

重要ショット判定部８１は、カット点検出部１からカット点の判定結果を受けると、重要ショットの開始時刻及び重要ショットの再生時間を決定する。
具体的には、以下の通りである。
まず、重要ショット判定部８１は、現在のフレーム時刻Ｔ_Nowと時間分割点バッファ９２に記憶されている前回の分割時間フレーム時刻Ｔ_Preを参照する。
重要ショット判定部８１は、下記に示すように、現在のフレーム時刻Ｔ_Nowと前回の分割時間フレーム時刻Ｔ_Preの差がコンテンツ分割時間間隔Ｔ_Segmentを超えている場合、カット点検出部１から出力されているカット点の判定結果を参照する。
Ｔ_Segment≦Ｔ_Now−Ｔ_Pre

重要ショット判定部８１は、カット点の判定結果がカット点である旨を示している場合、そのカット点を映像コンテンツの分割点として、ｍ個に分割する映像コンテンツのｉ番目の分割要約視聴時間Ｔ_{S_Dijest,i}を算出する。

重要ショット判定部８１は、ｉ＋１番目の分割点が分った時点で、ｉ番目の分割区間のショット開始点の時刻とその個数が全て分るので、このｉ番目の区間に、ｎ個のショットがあるものとする。このｎ個のショットの中のｊ番目のショットの開始点の時刻ＳＴ_i,jと、ｊ＋１番目のショットの開始点の時刻ＳＴ_i,j+1を用いて、ｊ番目のショットのショット長ＳＬ_i,jを求める。
ＳＬ_i,j＝ＳＴ_i,j+1−ＳＴ_i,j
重要ショット判定部８１は、上記のようにして、分割区間内における映像中のｎ個のショットのショット長ＳＬ_i,jを求めると、ショット長ＳＬ_i,jが長い順にｎ個のショットをソートする。
ソート後のショット長をＳＳＬ_i,jとすると、長い順にソートしているため、ＳＳＬ_i,j≧ＳＳＬ_i,j+1になる。

次に、重要ショット判定部８１は、ソート後のショット長ＳＳＬ_i,jに係数αを乗算し、各乗算結果αＳＳＬ_i,jの総和を算出する。ただし、係数αの値域は、０＜α≦１である。
重要ショット判定部８１は、各乗算結果αＳＳＬ_i,jの総和と分割要約視聴時間Ｔ_{S_Dijest,i}を比較し、下記の不等式を満足する最も大きなｋを求める。

重要ショット判定部８１は、上記の不等式を満足する最も大きなｋを求めると、そのときのショット長ＳＳＬ_i,kを、ｉ番目の区間において、重要ショットを判別する際に使用するショット長の閾値ＳＬ_Th,iに設定する。
重要ショット判定部８１は、ショット長の閾値ＳＬ_Th,iを設定すると、ｉ番目の区間において、映像信号に含まれているｎ個のショットのショット長ＳＬ_i,jと閾値ＳＬ_Th,iを比較し、ＳＬ_Th,i＜ＳＬ_i,jを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαＳＬ_i,jとする。これにより、分割された映像中における要約再生する時間はＴ_{S_Dijest,i}以下になる。

なお、係数αの値を小さくすれば、再生対象となるショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
この実施の形態１０では、分割区間に応じて、係数αの値を変えることも可能である。
例えば、番組前半のニュースコンテンツにおいて、番組前半のトップニュースでは、係数αを大きくして、最も重要と思われる部分を長く視聴し、後半の短いニュースの連続部分では、係数αを小さくして概要を視聴するなどの使い方が可能である。

上記実施の形態９の場合、コンテンツが非常に長いときは、コンテンツ全体のショット長ソートの計算処理量が膨大になることがあるが、この実施の形態１０では、ｉ番目の区間において、ショット長ソートを計算すればよいため、コンテンツが非常に長い場合でも、計算処理量の膨大化を招くことなく、ユーザが重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報としては、時刻、フレーム番号、映像圧縮データ中の時間情報など、いずれを用いてもよい。

実施の形態１１．
図１６はこの発明の実施の形態１１による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
ショット統計処理部１０１はショット開始点バッファ３に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する処理を実施する。なお、ショット統計処理部１０１は重要ショット判定手段を構成している。

ショット統計処理部１０１は、映像が終了して映像終了信号を受けると、ショット開始点バッファ３からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部１０１は、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショット（重要ショット）を決定することにより、重要ショットの開始点と再生時間を決定する。
具体的には、以下の通りである。

ショット統計処理部１０１は、例えば、映像信号の中にｍ個のショットがある場合、ｍ個のショットの中のｉ番目のショットの開始点の時刻ＳＴ_iと、ｉ＋１番目のショットの開始点の時刻ＳＴ_i+1を用いて、ｉ番目のショットのショット長ＳＬ_iを求める。
ＳＬ_i＝ＳＴ_i+1−ＳＴ_i
ショット統計処理部１０１は、上記のようにして、映像信号に含まれているｍ個のショットのショット長ＳＬ_iを求めると、ショット長ＳＬ_iはＳＬ_i＞０であり、ショット長ＳＬ_iが対数正規分布に従うと仮定する。
このとき、ショット長ＳＬ_iがｘである確率ｐ（ｘ）、即ち、分布確率ｐ（ｘ）は下記のようになる。

ただし、μはＳＬ_iの平均値、σ²はＳＬ_iの分散値である。

図１７はショット長の対数正規分布を表す説明図である。
上式の平均値μと分散値σ²は、ショット長ＳＬ_iから容易に算出することが可能である。
映像コンテンツ長はＴ_Contentであることから、分布確率ｐ（ｘ）は、下式のように表すことができる。

また、映像中のショットの数はｍ個であることから、映像中において、長さがｘであるショットの個数はｍ×ｐ（ｘ）となる。従って、この確率分布ｐ（ｘ）と映像コンテンツ長Ｔ_Contentの関係は、下式で表される。

図１８はショット長と映像コンテンツ長Ｔ_Contentの関係を示す説明図である。
これから、０＜α≦１として、下記の不等式を満足する最小のｘ₀を計算機上で求めることができる。

ショット統計処理部１０１は、上記の不等式を満足する最小のｘ₀を求めると、そのｘ₀を、重要ショットを判別する際に使用するショット長の閾値ＳＬ_Thに設定する。
ショット統計処理部１０１は、ショット長の閾値ＳＬ_Thを設定すると、映像信号に含まれているｍ個のショットのショット長ＳＬ_iと閾値ＳＬ_Thを比較し、ＳＬ_Th＜ＳＬ_iを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαＳＬ_iとする。これにより、要約再生する時間は、およそ要約視聴時間Ｔ_Dijestになる。ただし、実際のショット長の分布と仮定した確率分布ｐ（ｘ）の差が大きい場合には補正してもよい。

この実施の形態１１では、統計処理に用いる平均値μと分散値σ²を映像コンテンツの終了後に算出しているが、例えば、第ｉ番目までの平均値μ_iに関しては、以下の式を用いて、カット点を検出する度に、順次計算して更新するようにしてもよい。
μ_i＝（ＳＬ_i＋（ｉ−１）μ_i-1）／ｉ
同様に、分散値σ²に関しても、順次、類似の計算をして更新を行うようにしてもよい。また、何らかの近似計算を行ってもよい。
また、この実施の形態１１では、分布関数に対数正規分布を用いているが、例えば、正規分布など、他の分布関数を用いてもよい。

なお、係数αの値を小さくすれば、再生対象のショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に、係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
このため、係数αの値は、コンテンツのジャンルや特徴、ユーザの所望に応じて使い分けるとよい。
この実施の形態１１を用いることで、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１２．
図１９はこの発明の実施の形態１２による映像要約装置を示す構成図であり、図において、図１５及び図１６と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部９１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、これらの入力情報にしたがって、コンテンツ分割時間間隔Ｔ_Segment及び基準分割要約視聴時間Ｔ_{S_Dijest}を設定する。
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_{S_Dijest}＝Ｔ_Dijest／ｎ
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、基準分割要約視聴時間Ｔ_{S_Dijest}が０．５分（＝３０秒）となる。

カット点検出部１は、映像信号を入力すると、上記実施の形態１と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部１は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶するとともに、カット点の判定結果をショット統計処理部１０１に出力する。

ショット統計処理部１０１は、カット点検出部１からカット点の判定結果を受けると、重要ショットの開始時刻及び重要ショットの再生時間を決定する。
具体的には、以下の通りである。
まず、ショット統計処理部１０１は、現在のフレーム時刻Ｔ_Nowと時間分割点バッファ９２に記憶されている前回の分割時間フレーム時刻Ｔ_Preを参照する。
ショット統計処理部１０１は、下記に示すように、現在のフレーム時刻Ｔ_Nowと前回の分割時間フレーム時刻Ｔ_Preの差がコンテンツ分割時間間隔Ｔ_Segmentを超えている場合、カット点検出部１から出力されているカット点の判定結果を参照する。
Ｔ_Segment≦Ｔ_Now−Ｔ_Pre

ショット統計処理部１０１は、カット点の判定結果がカット点である旨を示している場合、そのカット点を映像コンテンツの分割点として、ｍ個に分割する映像コンテンツのｉ番目の分割要約視聴時間Ｔ_{S_Dijest,i}を算出する。また、ｉ番目の区間の長さＴ_Segment,iを算出する。

ショット統計処理部１０１は、ｉ＋１番目の分割点が分った時点で、ｉ番目の分割区間のショット開始点の時刻とその個数が全て分るので、このｉ番目の区間に、ｎ個のショットがあるものとする。このｎ個のショットの中のｊ番目のショットの開始点の時刻ＳＴ_i,jと、ｊ＋１番目のショットの開始点の時刻ＳＴ_i,j+1を用いて、ｊ番目のショットのショット長ＳＬ_i,jを求める。
ＳＬ_i,j＝ＳＴ_i,j+1−ＳＴ_i,j

ショット統計処理部１０１は、上記のようにして、映像信号に含まれているｎ個のショットのショット長ＳＬ_iを求めると、上記実施の形態１１と同様に、ショット長ＳＬ_iはＳＬ_i＞０であり、ショット長ＳＬ_iが対数正規分布に従うと仮定する。
このとき、ショット長ＳＬ_iがｘである確率ｐ（ｘ）、即ち、分布確率ｐ（ｘ）は下記のようになる。

ただし、μはＳＬ_iの平均値、σ²はＳＬ_iの分散値である。
このｉ番目の区間の長さはＴ_Segment,iであることから、分布確率ｐ（ｘ）は、下式のように表すことができる。

また、映像中のショットの数はｎ個であることから、映像中において、長さがｘであるショットの個数はｎ×ｐ（ｘ）となる。従って、この確率分布ｐ（ｘ）と映像コンテンツ長Ｔ_Contentの関係は、下式で表される。

これから、０＜α≦１として、下記の不等式を満足する最小のｘ₀を計算機上で求めることができる。

ショット統計処理部１０１は、上記の不等式を満足する最小のｘ₀を求めると、そのｘ₀を、重要ショットを判別する際に使用するショット長の閾値ＳＬ_Th,iに設定する。
ショット統計処理部１０１は、ショット長の閾値ＳＬ_Th,iを設定すると、映像信号に含まれているｎ個のショットのショット長ＳＬ_i,jと閾値ＳＬ_Th,iを比較し、ＳＬ_Th,i＜ＳＬ_i,jを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαＳＬ_i,jとする。これにより、要約再生する時間は、およそ分割要約視聴時間Ｔ_{S_Dijest,i}になる。ただし、実際のショット長の分布と仮定した確率分布ｐ（ｘ）の差が大きい場合には補正してもよい。

この実施の形態１２では、統計処理に用いる平均値μと分散値σ²を映像コンテンツの終了後に算出しているが、例えば、第ｉ番目の区間における第ｊ番目までの平均値μ_i,jに関しては、以下の式を用いて、カット点を検出する度に、順次計算して更新するようにしてもよい。
μ_i,j＝（ＳＬ_i,j＋（ｊ−１）μ_i,j-1）／ｊ
同様に、分散値σ²に関しても、順次、類似の計算をして更新を行うようにしてもよい。また、何らかの近似計算を行ってもよい。
また、この実施の形態１２では、分布関数に対数正規分布を用いているが、例えば、正規分布など、他の分布関数を用いてもよい。

なお、係数αの値を小さくすれば、再生対象のショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に、係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
この実施の形態１２では、分割区間に応じて、係数αの値を変えることも可能である。
例えば、番組前半のニュースコンテンツにおいて、番組前半のトップニュースでは、係数αを大きくして、最も重要と思われる部分を長く視聴し、後半の短いニュースの連続部分では、係数αを小さくして概要を視聴するなどの使い方が可能である。

この実施の形態１２では、非常に長いコンテンツを携帯機器などの計算処理量の乏しい計算機で処理する場合でも、分割処理や統計処理の精度を調整することにより、ユーザは重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１３．
図２０はこの発明の実施の形態１３による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
無音判定部１１１は映像中の音声信号が無音であるか否かを判定して、映像中の音声の無音点を検出する処理を実施する。なお、無音判定部１１１は無音点検出手段を構成している。

次に動作について説明する。
無音判定部１１１は、映像中の音声信号が無音であるか否かを判定して、映像中の音声の無音点を検出する。
無音判定部１１１は、映像中の音声の無音点を検出すると、その無音点がカット点であるとみなし、その検出結果をカット点の判定結果としてショット長計算部２に出力する。
無音点の検出方法として、例えば、音量と閾値を比較する方法などが考えられる。ただし、他の方法を用いてもよい。

ショット長計算部２は、無音判定部１１１から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態１と同様に、現在のフレームの時刻とショット開始点バッファ３に記憶されている１つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部４に出力する。
なお、ショット長計算部２は、ショット長を算出すると、ショット開始点バッファ３の記憶内容を現在のフレームの時刻に更新する。

重要ショット判定部４は、ショット長計算部２がショット長を算出すると、上記実施の形態１と同様に、そのショット長と予め設定された閾値Ａを比較する。
そして、重要ショット判定部４は、そのショット長が予め設定された閾値Ａより長い場合、無音判定部１１１により検出された無音点（カット点）より１つ前の無音点（カット点）を起点とするショットが重要ショットであると判定し、その判定結果を出力する。
ここでは、重要ショット判定部４が、１つ前のカット点を起点とするショットが重要ショットであると判定しているが、１つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、１つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。

この実施の形態１３によれば、映像ではなく、音声信号の無音点を映像コンテンツのカット点であるとみなすようにしているので、例えば、ドラマもしくは映画コンテンツにおけるストーリー中で重要となる長い台詞やナレーション、音楽番組中の楽曲部分のみを視聴することが可能になる。また、無音点を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態１３の映像要約装置では、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１４．
図２１はこの発明の実施の形態１４による映像要約装置を示す構成図であり、図において、図５と同一符号は同一または相当部分を示すので説明を省略する。
音量判定部１１２は映像中の音声信号の音量と閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する処理を実施する。なお、音量判定部１１２は音量低下点検出手段を構成している。

音量判定部１１２は、映像中の音声信号を入力すると、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット長計算部２に出力する。
なお、この閾値は、コンテンツのジャンルによって変えてもよい。例えば、スポーツ中継であれば、閾値を高めに設定して、歓声の有無を検出する。あるいは、ニュース番組や音楽番組であれば、閾値をノイズレベル付近まで落とすことにより、無音部分を検出して、キャスターやリポーターなど音声、楽曲の切れ目などの部分の検出を行う。

ショット長計算部２は、音量判定部１１２から出力されたカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態１と同様に、現在のフレームの時刻とショット開始点バッファ３に記憶されている１つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部４に出力する。
なお、ショット長計算部２は、ショット長を算出すると、ショット開始点バッファ３の記憶内容を現在のフレームの時刻に更新する。

時間分割判定部２５は、上記実施の形態２と同様に、時間間隔設定部２１により設定されたコンテンツ分割時間間隔Ｔ_Segmentの中で、重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部２５は、現在のフレームの時刻が時間間隔設定部２１により設定されたコンテンツ分割時間間隔Ｔ_Segmentの整数倍である場合、最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部２５が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。

以上で明らかなように、この実施の形態１４によれば、音量に基づくショットの判別を行うことで、ショット長計算部２がショット長を算出する毎に、そのショット長計算部２により現時点までに算出されたショット長を相互に比較して、時間間隔設定部２１により設定された時間間隔の中でショット長が最長のショットを検出を検出するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、コンテンツ中の重要なショットを容易に把握することができる効果を奏する。

この実施の形態１４を録画装置、録音装置や再生装置に適用すれば、音量に基づく重要ショットの開始時刻やショット再生時間が分るため、映像の自動編集や簡便な要約再生の視聴が可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態１４の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１５．
図２２はこの発明の実施の形態１５による映像要約装置を示す構成図であり、図において、図６及び図２１と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部３１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態３と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔の初期値Ｔ_Segment0及びショット基準視聴時間Ｔ_Play0を設定する。
Ｎ_shot＝ｎ
Ｔ_Segment0＝Ｔ_Content／ｎ
Ｔ_Play0＝Ｔ_Dijest／ｎ

音量判定部１１２は、映像中の音声信号を入力すると、上記実施の形態１４と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット長計算部２に出力する。
なお、この閾値は、コンテンツのジャンルによって変えてもよい。例えば、スポーツ中継であれば、閾値を高めに設定して、歓声の有無を検出する。あるいは、ニュース番組や音楽番組であれば、閾値をノイズレベル付近まで落とすことにより、無音部分を検出して、キャスターやリポーターなど音声、楽曲の切れ目などの部分の検出を行う。

ショット代表範囲判定・再設定部３４は、現在のフレームの時刻Ｐ_Nowが時間分割点バッファ３３に記憶されている暫定ショット代表範囲の終了点Ｐ_{End_temp}を超えている場合、上記実施の形態３と同様に、ショット代表範囲の終了点Ｐ_Endと重要ショット再生時間Ｔ_Playを計算し、その重要ショット再生時間Ｔ_Playを出力する。
Ｐ_End＝Ｐ_Now＋Ｐ_{Shot_Start}−Ｐ_Start
Ｔ_Play＝(Ｐ_End−Ｐ_Start)＊Ｔ_Play0／Ｔ_Segment0
ただし、Ｐ_{Shot_Start}は最長ショット開始点バッファ２４に記憶されている最長のショットの開始点の時刻である。

以上で明らかなように、この実施の形態１５によれば、音量に基づくショットの判別を行うことで、最長ショット判定部２２により判別された最長のショットの開始時刻とショット長に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。

また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態１５の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１６．
図２３はこの発明の実施の形態１６による映像要約装置を示す構成図であり、図において、図１４及び図２１と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
音量判定部１１２は、映像中の音声信号を入力すると、上記実施の形態１４と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ３に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ３に記憶する。

重要ショット判定部８１は、映像が終了して映像終了信号を受けると、上記実施の形態９と同様に、ショット開始点バッファ３からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出する。
そして、重要ショット判定部８１は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット（重要ショット）に決定することにより、重要ショットの開始点と再生時間を決定する。
重要ショット判定部８１の具体的な処理内容は、上記実施の形態９と同様であるため、詳細な説明を省略する。

この実施の形態１６によれば、音量に基づくショットの判別を行うことで、重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態１６の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１７．
図２４はこの発明の実施の形態１７による映像要約装置を示す構成図であり、図において、図１５及び図２１と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部９１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態１０と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔Ｔ_Segment及び基準分割要約視聴時間Ｔ_{S_Dijest}を設定する。
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_{S_Dijest}＝Ｔ_Dijest／ｎ
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、基準分割要約視聴時間Ｔ_{S_Dijest}が０．５分（＝３０秒）となる。

音量判定部１１２は、映像中の音声信号を入力すると、上記実施の形態１４と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ３及び重要ショット判定部８１に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ３に記憶する。

重要ショット判定部８１は、音量判定部１１２からカット点の判定結果を受けると、上記実施の形態１０と同様に、時間間隔設定部９１により設定された時間間隔の中で、ショット開始点バッファ３に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する。
重要ショット判定部８１の具体的な処理内容は、上記実施の形態１０と同様であるため、詳細な説明を省略する。

上記実施の形態１６の場合、コンテンツが非常に長いときは、コンテンツ全体のショット長ソートの計算処理量が膨大となることがあるが、この実施の形態１７では、ｉ番目の区間において、ショット長ソートを計算すればよいため、コンテンツが非常に長い場合でも、計算処理量の膨大化を招くことなく、ユーザが音量に基づく重要ショットのみを視聴することが可能になる。

また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態１７の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１８．
図２５はこの発明の実施の形態１８による映像要約装置を示す構成図であり、図において、図１６及び図２１と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
音量判定部１１２は、映像中の音声信号を入力すると、上記実施の形態１４と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ３に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ３に記憶する。

ショット統計処理部１０１は、映像が終了して映像終了信号を受けると、上記実施の形態１１と同様に、ショット開始点バッファ３からカット点の検出時刻（音量低下点の検出時刻）を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部１０１は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット（重要ショット）を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部１０１の具体的な処理内容は、上記実施の形態１４と同様であるため、詳細な説明を省略する。

この実施の形態１８によれば、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは音量に基づく重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。

なお、この実施の形態１８の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態１９．
図２６はこの発明の実施の形態１９による映像要約装置を示す構成図であり、図において、図１９及び図２１と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部９１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態１２と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔Ｔ_Segment及び基準分割要約視聴時間Ｔ_{S_Dijest}を設定する。
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_{S_Dijest}＝Ｔ_Dijest／ｎ
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、基準分割要約視聴時間Ｔ_{S_Dijest}が０．５分（＝３０秒）となる。

音量判定部１１２は、映像中の音声信号を入力すると、上記実施の形態１４と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ３及びショット統計処理部１０１に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ３に記憶する。

ショット統計処理部１０１は、映像が終了して映像終了信号を受けると、上記実施の形態１２と同様に、時間間隔設定部９１に設定された時間間隔の中で、ショット開始点バッファ３からカット点の検出時刻（音量低下点の検出時刻）を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部１０１は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット（重要ショット）を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部１０１の具体的な処理内容は、上記実施の形態１２と同様であるため、詳細な説明を省略する。

この実施の形態１９では、非常に長いコンテンツを携帯機器などの計算処理量の乏しい計算機で処理する場合でも、分割処理や統計処理の精度を調整することにより、ユーザは音量に基づく重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。

なお、この実施の形態１９の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２０．
図２７はこの発明の実施の形態２０による映像要約装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
ＡＶカット点判定部１２１はカット点検出部１と音量判定部１１２を搭載しており、カット点検出部１の判定結果と音量判定部１１２の判定結果から、最終的にカット点の判定を行う処理を実施する。
図２８はこの発明の実施の形態２０による映像要約装置のＡＶカット点判定部１２１を示す構成図であり、図において、同期判定部１２２はカット点検出部１から出力された判定結果がカット点である旨を示し、かつ、音量判定部１１２から出力された判定結果がカット点である旨を示すとき、カット点である旨の最終判定を行う処理を実施する。

次に動作について説明する。
ＡＶカット点判定部１２１のカット点検出部１は、映像信号を入力すると、上記実施の形態１と同様に、その映像のカット点を検出する。ただし、カット点の検出方法は、上記実施の形態１と異なる方法でもよい。
ＡＶカット点判定部１２１の音量判定部１１２は、映像中の音声信号を入力すると、上記実施の形態１４と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部１１２は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果として出力する。

ＡＶカット点判定部１２１の同期判定部１２２は、カット点検出部１から出力された判定結果がカット点である旨を示し、かつ、音量判定部１１２から出力された判定結果がカット点である旨を示すとき、カット点である旨の最終判定を行う。
即ち、同期判定部１２２は、カット点検出部１と音量判定部１１２が同一のタイミングでカット点を検出すれば、そのカット点を映像コンテンツ中のカット点とみなすが、カット点検出部１又は音量判定部１１２のいずれかがカット点を検出しても、いずれかがカット点を検出していなければ、当該カット点を映像コンテンツ中のカット点とみなさないようにする。

ショット長計算部２は、ＡＶカット点判定部１２１から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態１と同様に、現在のフレームの時刻とショット開始点バッファ３に記憶されている１つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部４に出力する。
なお、ショット長計算部２は、ショット長を算出すると、ショット開始点バッファ３の記憶内容を現在のフレームの時刻に更新する。

重要ショット判定部４は、ショット長計算部２がショット長を算出すると、上記実施の形態１と同様に、そのショット長と予め設定された閾値Ａを比較する。
そして、重要ショット判定部４は、そのショット長が予め設定された閾値Ａより長い場合、ＡＶカット点判定部１２１により検出されたカット点より１つ前のカット点を起点とするショットが重要ショットであると判定し、その判定結果を出力する。
ここでは、重要ショット判定部４が、１つ前のカット点を起点とするショットが重要ショットであると判定しているが、１つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、１つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。

この実施の形態２０によれば、映像と音量の双方を用いてカット点を判定して、長いショットを得ることで、ユーザは重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２１．
図２９はこの発明の実施の形態２１による映像要約装置を示す構成図であり、図において、図５及び図２７と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部２１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態２と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔Ｔ_Segment及びショット視聴時間Ｔ_Playを設定する。
Ｎ_shot＝ｎ
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_Play＝Ｔ_Dijest／ｎ

ＡＶカット点判定部１２１は、上記実施の形態２０と同様に、カット点検出部１の判定結果と音量判定部１１２の判定結果から、最終的にカット点の判定を行う。
ショット長計算部２は、ＡＶカット点判定部１２１から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態１と同様に、現在のフレームの時刻とショット開始点バッファ３に記憶されている１つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部４に出力する。
なお、ショット長計算部２は、ショット長を算出すると、ショット開始点バッファ３の記憶内容を現在のフレームの時刻に更新する。

以上で明らかなように、この実施の形態２１によれば、映像と音量の双方に基づくショットの判別を行うことで、ショット長計算部２がショット長を算出する毎に、そのショット長計算部２により現時点までに算出されたショット長を相互に比較して、時間間隔設定部２１により設定された時間間隔の中でショット長が最長のショットを検出を検出するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、コンテンツ中の重要なショットを容易に把握することができる効果を奏する。

この実施の形態２１を録画装置、録音装置や再生装置に適用すれば、映像と音量に基づく重要ショットの開始時刻やショット再生時間が分るため、映像の自動編集や簡便な要約再生の視聴が可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２２．
図３０はこの発明の実施の形態２２による映像要約装置を示す構成図であり、図において、図６及び図２７と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部３１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態３と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Ｎ_shot，コンテンツ分割時間間隔の初期値Ｔ_Segment0及びショット基準視聴時間Ｔ_Play0を設定する。
Ｎ_shot＝ｎ
Ｔ_Segment0＝Ｔ_Content／ｎ
Ｔ_Play0＝Ｔ_Dijest／ｎ

以上で明らかなように、この実施の形態２２によれば、映像と音量に基づくショットの判別を行うことで、最長ショット判定部２２により判別された最長のショットの開始時刻とショット長に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２３．
図３１はこの発明の実施の形態２３による映像要約装置を示す構成図であり、図において、図１４及び図２７と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
ＡＶカット点判定部１２１は、上記実施の形態２０と同様に、カット点検出部１の判定結果と音量判定部１１２の判定結果から、最終的にカット点の判定を行う。
ＡＶカット点判定部１２１は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶する。

この実施の形態２３によれば、映像と音量に基づくショットの判別を行うことで、重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２４．
図３２はこの発明の実施の形態２４による映像要約装置を示す構成図であり、図において、図１５及び図２７と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部９１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態１０と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔Ｔ_Segment及び基準分割要約視聴時間Ｔ_{S_Dijest}を設定する。
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_{S_Dijest}＝Ｔ_Dijest／ｎ
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、基準分割要約視聴時間Ｔ_{S_Dijest}が０．５分（＝３０秒）となる。

ＡＶカット点判定部１２１は、上記実施の形態２０と同様に、カット点検出部１の判定結果と音量判定部１１２の判定結果から、最終的にカット点の判定を実施して、その判定結果をショット開始点バッファ３及び重要ショット判定部８１に出力する。
また、ＡＶカット点判定部１２１は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶する。

上記実施の形態２３の場合、コンテンツが非常に長いときは、コンテンツ全体のショット長ソートの計算処理量が膨大となることがあるが、この実施の形態２４では、ｉ番目の区間において、ショット長ソートを計算すればよいため、コンテンツが非常に長い場合でも、計算処理量の膨大化を招くことなく、ユーザが映像と音量に基づく重要ショットのみを視聴することが可能になる。

また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２５．
図３３はこの発明の実施の形態２５による映像要約装置を示す構成図であり、図において、図１６及び図２７と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
ＡＶカット点判定部１２１は、上記実施の形態２０と同様に、カット点検出部１の判定結果と音量判定部１１２の判定結果から、最終的にカット点の判定を行う。
ＡＶカット点判定部１２１は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶する。

この実施の形態２５によれば、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは映像と音量に基づく重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

実施の形態２６．
図３４はこの発明の実施の形態２６による映像要約装置を示す構成図であり、図において、図１９及び図２７と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部９１は、ユーザにより設定された要約視聴時間Ｔ_Dijest、映像コンテンツの時間的分割数ｎ及び映像コンテンツ長Ｔ_Contentを入力すると、上記実施の形態１０と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔Ｔ_Segment及び基準分割要約視聴時間Ｔ_{S_Dijest}を設定する。
Ｔ_Segment＝Ｔ_Content／ｎ
Ｔ_{S_Dijest}＝Ｔ_Dijest／ｎ
例えば、映像コンテンツ長Ｔ_Contentが３０分（＝１８００秒）、要約視聴時間Ｔ_Dijestが５分（＝３００秒）、映像コンテンツの時間的分割数ｎが１０である場合、コンテンツ分割時間間隔Ｔ_Segmentが３分（＝１８０秒）、基準分割要約視聴時間Ｔ_{S_Dijest}が０．５分（＝３０秒）となる。

ＡＶカット点判定部１２１は、上記実施の形態２０と同様に、カット点検出部１の判定結果と音量判定部１１２の判定結果から、最終的にカット点の判定を実施して、その判定結果をショット開始点バッファ３及びショット統計処理部１０１に出力する。
また、ＡＶカット点判定部１２１は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ３に記憶する。

この実施の形態２６では、非常に長いコンテンツを携帯機器などの計算処理量の乏しい計算機で処理する場合でも、分割処理や統計処理の精度を調整することにより、ユーザは映像と音量に基づく重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。

以上のように、この発明に係る映像要約装置は、ユーザが重要なショットを容易に把握することができるようにするために、映像信号から重要な区間の映像を抽出する必要があるものなどに用いるのに適している。

Claims

映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記カット点より１つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、上記ショット長算出手段により算出されたショット長を判別材料にして、上記カット点判別手段により判別されたカット点より１つ前のカット点を起点とするショットが重要ショットであるか否かを判別する重要ショット判別手段とを備えた映像要約装置。
重要ショット判別手段は、ショット長算出手段により算出されたショット長が予め設定されたショット長より長い場合、カット点判別手段により判別されたカット点より１つ前のカット点を起点とするショットが重要ショット、１つ前のカット点を起点とするショットの次のショットが重要ショット、または、１つ前のカット点を起点とするショットと次のショットが重要ショットであると判別することを特徴とする請求項１記載の映像要約装置。
映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記カット点より１つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、映像を分割する時間間隔を設定する時間間隔設定手段と、上記ショット長算出手段がショット長を算出する毎に、上記ショット長算出手段により現時点までに算出されたショット長を相互に比較して、上記時間間隔設定手段により設定された時間間隔の中でショット長が最長のショット、最長のショットの次のショット、または、最長のショットと次のショットを検出する最長ショット検出手段とを備えた映像要約装置。
時間間隔設定手段は、最長ショット検出手段により検出された最長のショットの開始時刻とショット長に応じて時間間隔を更新することを特徴とする請求項３記載の映像要約装置。
映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記距離算出手段が特徴量間の距離を算出する毎に、上記距離算出手段により現時点までに算出された特徴量間の距離を相互に比較して、最大の距離を検出する最大距離検出手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記最大距離検出手段により最大の距離が検出されたフレームの時刻を重要ショットの開始時刻として出力する重要ショット検出手段とを備えた映像要約装置。
時間間隔設定手段は、最大距離検出手段により最大の距離が検出されたフレームの時刻と最大の距離に応じて時間間隔を更新することを特徴とする請求項５記載の映像要約装置。
映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記距離算出手段が特徴量間の距離を算出する毎に、上記距離算出手段により現時点までに算出された特徴量間の距離の平均値を算出する平均値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記平均値算出手段により算出された平均値の差分値が予め設定された最小値より小さい場合、上記映像信号の映像をサムネイル候補画像として記憶するサムネイル候補画像記憶手段と、上記カット点判別手段によりカット点が判別されると、上記サムネイル候補画像記憶手段により記憶されているサムネイル候補画像からサムネイルを作成するサムネイル作成手段とを備えた映像要約装置。
重要ショット判別手段により判別された重要ショットのショット長を記憶する重要ショット長記憶手段と、上記重要ショット長記憶手段により記憶された重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出する再生時間算出手段とを設けたことを特徴とする請求項１記載の映像要約装置。
映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する重要ショット判定手段とを備えた映像要約装置。
映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する重要ショット判定手段とを備えた映像要約装置。
映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、上記ショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する重要ショット判定手段とを備えた映像要約装置。
映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、上記ショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する重要ショット判定手段とを備えた映像要約装置。
カット点判別手段は、映像のカット点を判別する際、映像中の音声の音量が閾値より小さい音量低下点を判別し、判別したカット点の中から上記音量低下点に同期しているカット点を判別することを特徴とする請求項１記載の映像要約装置。
重要ショット判定手段は、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定し、そのショットの再生時間を決定することを特徴とする請求項９記載の映像要約装置。