JP4699476B2 - 映像要約装置 - Google Patents

映像要約装置 Download PDF

Info

Publication number
JP4699476B2
JP4699476B2 JP2007542242A JP2007542242A JP4699476B2 JP 4699476 B2 JP4699476 B2 JP 4699476B2 JP 2007542242 A JP2007542242 A JP 2007542242A JP 2007542242 A JP2007542242 A JP 2007542242A JP 4699476 B2 JP4699476 B2 JP 4699476B2
Authority
JP
Japan
Prior art keywords
shot
time
cut point
distance
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007542242A
Other languages
English (en)
Other versions
JPWO2007049381A1 (ja
Inventor
大樹 工藤
博文 西川
嘉明 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007542242A priority Critical patent/JP4699476B2/ja
Publication of JPWO2007049381A1 publication Critical patent/JPWO2007049381A1/ja
Application granted granted Critical
Publication of JP4699476B2 publication Critical patent/JP4699476B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/163Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing by receiver means only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)

Description

この発明は、映像信号から重要な区間の映像を抽出して、重要な区間の映像の再生や編集を実施することが可能な映像要約装置に関するものである。
映像のカット点を検出することにより、映像信号をショット単位に分割し、複数のショットの中から重要なショットを識別する映像要約装置が提案されている。
重要なショットの判別処理は、以下の非特許文献1に開示されているように、例えば、多数の映像処理方法や音声処理方法など、非常に複雑な処理を用いるものが多く、リアルタイムでの判別や携帯機器への搭載は困難である。
また、実際に分類されたショットの編集や再生を行う際には、サムネイルと呼ばれる小画像の一覧を用いることが多い。
このサムネイルには、各ショットの代表画像が用いられ、代表画像としては、各ショットの先頭の画像が用いられることが多い。
しかしながら、ショットの先頭画像が、必ずしも、そのショットを代表的に表している画像とは限らない。このため、ユーザがサムネイルの一覧を見ても、自分が視聴したいショットがどこにあるのか判別することができないことがある。
「ドラマ映像の心理的内容に基づいた要約映像の作成」、電子情報通信学会論文誌、D−II、Vol.J84−D−II、No.6、pp1122−1131、2001年、森山剛、坂内正夫著
従来の映像要約装置は以上のように構成されているので、例えば、多数の映像処理方法や音声処理方法など、非常に複雑な処理を実施しなければ、重要なショットを判別することができず、リアルタイムでの判別や携帯機器への搭載が困難である課題があった。
また、ショットの先頭画像が、必ずしも、そのショットを代表的に表している画像とは限らないため、ユーザがサムネイルの一覧を見ても、自分が視聴したいショットがどこにあるのか判別することができないことがある課題もあった。
この発明は上記のような課題を解決するためになされたもので、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる映像要約装置を得ることを目的とする。
この発明に係る映像要約装置は、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により今回抽出された特徴量と特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、距離算出手段により算出された特徴量間の距離の統計量を求め、統計量からカット点判定用の閾値を算出する閾値算出手段と、距離算出手段により算出された特徴量間の距離と閾値算出手段により算出された閾値を比較し、比較結果からカット点を判別するカット点判別手段と、カット点判別手段によりカット点が判別された場合、カット点より1つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、ショット長算出手段により算出されたショット長を判別材料にして、カット点判別手段により判別されたカット点より1つ前のカット点を起点とするショットが重要ショットであるか否かを判別する重要ショット判別手段とを備えたものである。
このことによって、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる効果がある。
また、ショット内に動きがある場合においても、その動きを統計的に分析することで、カット点とショット内の動きの変動を判別することができるため、適応的にカット点判定用の閾値を設定することが可能になり、その結果、従来の固定閾値を用いる場合と比べて、カット点の検出精度を高めることができる効果がある。
この発明の実施の形態1による映像要約装置を示す構成図である。 この発明の実施の形態1による映像要約装置のカット点検出部1を示す構成図である。 輝度値の変化やカット点を示す説明図である。 この発明の実施の形態1による映像要約装置の処理内容を示すフローチャートである。 この発明の実施の形態2による映像要約装置を示す構成図である。 この発明の実施の形態3による映像要約装置を示す構成図である。 映像コンテンツを分割した各々の分割範囲毎に重要なショットが存在する場合において、そのショットが代表する範囲を表している説明図である。 この発明の実施の形態4による映像要約装置を示す構成図である。 コンテンツの大きな変化点を示す説明図である。 この発明の実施の形態5による映像要約装置を示す構成図である。 この発明の実施の形態6による映像要約装置を示す構成図である。 この発明の実施の形態7による映像要約装置を示す構成図である。 この発明の実施の形態8による映像要約装置を示す構成図である。 この発明の実施の形態9による映像要約装置を示す構成図である。 この発明の実施の形態10による映像要約装置を示す構成図である。 この発明の実施の形態11による映像要約装置を示す構成図である。 ショット長の対数正規分布を表す説明図である。 ショット長と映像コンテンツ長の関係を示す説明図である。 この発明の実施の形態12による映像要約装置を示す構成図である。 この発明の実施の形態13による映像要約装置を示す構成図である。 この発明の実施の形態14による映像要約装置を示す構成図である。 この発明の実施の形態15による映像要約装置を示す構成図である。 この発明の実施の形態16による映像要約装置を示す構成図である。 この発明の実施の形態17による映像要約装置を示す構成図である。 この発明の実施の形態18による映像要約装置を示す構成図である。 この発明の実施の形態19による映像要約装置を示す構成図である。 この発明の実施の形態20による映像要約装置を示す構成図である。 この発明の実施の形態20による映像要約装置のAVカット点判定部121を示す構成図である。 この発明の実施の形態21による映像要約装置を示す構成図である。 この発明の実施の形態22による映像要約装置を示す構成図である。 この発明の実施の形態23による映像要約装置を示す構成図である。 この発明の実施の形態24による映像要約装置を示す構成図である。 この発明の実施の形態25による映像要約装置を示す構成図である。 この発明の実施の形態26による映像要約装置を示す構成図である。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
図1はこの発明の実施の形態1による映像要約装置を示す構成図であり、図において、カット点検出部1は映像信号を入力すると、その映像のカット点を検出する処理を実施する。なお、カット点検出部1はカット点検出手段を構成している。
ショット長計算部2はカット点検出部1によりカット点が検出された場合、そのカット点より1つ前のカット点(1つ前のカット点は、カット点検出部1により前回検出されたカット点)を起点とするショットのショット長を算出する処理を実施する。即ち、カット点検出部1によりカット点が検出されると、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する処理を実施する。ショット開始点バッファ3はショット開始点の時刻を記憶しているメモリである。
なお、ショット長計算部2及びショット開始点バッファ3からショット長算出手段が構成されている。
重要ショット判定部4はショット長計算部2により算出されたショット長が予め設定された閾値Aより長い場合、カット点検出部1により検出されたカット点より1つ前のカット点を起点とするショットが重要ショット、1つ前のカット点を起点とするショットの次のショットが重要ショット、または、1つ前のカット点を起点とするショットと次のショットが重要ショットであると判定し、その判定結果を出力する処理を実施する。なお、重要ショット判定部4は重要ショット判別手段を構成している。
図2はこの発明の実施の形態1による映像要約装置のカット点検出部1を示す構成図であり、図において、特徴量抽出部11は映像信号を入力すると、その映像信号から映像フレームの特徴を表している特徴量を抽出する処理を実施する。なお、特徴量抽出部11は特徴量抽出手段を構成している。
フレーム間距離算出部12は所定の評価関数を用いて、特徴量抽出部11により今回抽出された現在のフレームの特徴量と特徴量バッファ13に記憶されている直前のフレームの特徴量(特徴量抽出部11により前回抽出されたフレームの特徴量)とを比較し、それらの特徴量間の距離(非類似度)を算出する処理を実施する。以下、現在のフレームと直前のフレームとの特徴量間の距離を「フレーム間距離」と称する。
特徴量バッファ13は直前のフレームの特徴量を記憶し、フレーム間距離算出部12がフレーム間距離を算出すると、次回のフレーム間距離の算出に備えるため、現在記憶している直前のフレームの特徴量を、特徴量抽出部11により今回抽出された現在のフレームの特徴量に更新する。
なお、フレーム間距離算出部12及び特徴量バッファ13から距離算出手段が構成されている。
カット点判定用データ算出部14はフレーム間距離算出部12により算出されたフレーム間距離の統計量を求めて、その統計量からカット点判定用の閾値Thを算出し、カット点判定用の閾値Thをカット点判定用データバッファ15に出力する処理を実施する。
カット点判定用データバッファ15はカット点判定用データ算出部4により算出されたカット点判定用の閾値Thを記憶するメモリである。
なお、カット点判定用データ算出部14及びカット点判定用データバッファ15から閾値算出手段が構成されている。
カット点判定部16はフレーム間距離算出部12により算出されたフレーム間距離とカット点判定用データバッファ15に記憶されているカット点判定用の閾値Thを比較し、その比較結果からカット点を判別する処理を実施する。なお、カット点判定部16はカット点判別手段を構成している。
図4はこの発明の実施の形態1による映像要約装置の処理内容を示すフローチャートである。
次に動作について説明する。
カット点検出部1は、映像信号を入力すると、その映像のカット点を検出する処理を実施する。
以下、カット点検出部1におけるカット点の具体的な検出処理内容を説明するが、この実施の形態1におけるカット点検出部1は、従来の検出処理方法(例えば、隣接するフレームの輝度が、固定の閾値より大きくなると、そのフレームの変化点をカット点として検出する方法:日経エレクトロニクス No.892 2005.1.31号 51頁)と異なる検出処理方法を採用しているため、いかなる映像信号が入力される場合でも、カット点を正確に検出することができる特徴がある。
ただし、カット点検出部1は、映像のカット点を検出することができればよく、カット点の検出精度を問わない場合には、従来の検出処理方法を使用して、映像のカット点を検出するようにしてもよい。
カット点検出部1の特徴量抽出部11は、映像信号を入力すると、その映像信号からフレームの特徴を表している特徴量を抽出する(ステップST1)。
フレームの特徴を表している特徴量としては、例えば、過去のフレームとの差分のほか、色のヒストグラム、色の配置情報、テクスチャ情報、動き情報などが挙げられるが、いずれの特徴量を用いてもよく、また、複数の特徴量を用いてもよい。
カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、特徴量バッファ13から直前のフレームの特徴量(特徴量抽出部11により前回抽出されたフレームの特徴量)の読出しを行う。
そして、フレーム間距離算出部12は、所定の評価関数を用いて、現在のフレームの特徴量と直前のフレームの特徴量とを比較し、それらの特徴量間の距離(非類似度)であるフレーム間距離を算出する(ステップST2)。
なお、フレーム間距離算出部12は、フレーム間距離を算出すると、特徴量バッファ13の記憶内容を現在のフレームの特徴量に更新する。
カット点検出部1のカット点判定部16は、フレーム間距離算出部12がフレーム間距離を算出すると、そのフレーム間距離とカット点判定用データバッファ15に記憶されているカット点判定用の閾値Thを比較する(ステップST3)。
カット点判定部16は、そのフレーム間距離がカット点判定用の閾値Thより大きい場合、カット点であると判定し、その旨を示す判定結果を出力する(ステップST4)。
一方、そのフレーム間距離がカット点判定用の閾値Thより大きくない場合、カット点ではないと判定し、その旨を示す判定結果を出力する(ステップST5)。
ここでは、カット点判定部16はカット点判定用の閾値Thを用いて、カット点を判別しているが、例えば、ショット時間などを考慮して、カット点を判別するようにしてもよい。
カット点検出部1のカット点判定用データ算出部14は、カット点判定部16の判定結果がカット点である旨を示す場合、カット点判定用データバッファ15の記憶内容を所定の値に初期化する(ステップST6)。
一方、カット点判定部16の判定結果がカット点ではない旨を示す場合、フレーム間距離算出部12により算出されたフレーム間距離の統計量を求めて、その統計量からカット点判定用の閾値Thを算出し、カット点判定用データバッファ15の記憶内容を当該閾値Thで更新する(ステップST7)。
具体的には、以下のようにして、カット点判定用の閾値Thを算出する。
実際の映像コンテンツは、複数のショットから構成されており、ショットの切れ目であるカット点の直後のフレームがカット点であることは考え難く、ショットは複数のフレームが続くものと考えられる。
ここでは、説明の便宜上、各ショットのn−1番目のフレームと、n番目のフレームの距離をDistnとする。
この距離Distnがある閾値よりも大きいとき、i番目のショットにおけるn番目のフレームは、実際には、(i+1)番目の最初のフレームであると考えられる。即ち、i番目のショットにおけるn番目のフレームは、カット点であると考えられる。ただし、i番目のショットの最初のフレームは0番目のフレームであるとする。また、上記の閾値は、適応的に変動するものとして、Thi_nとする。
カット点判定用データ算出部14は、閾値Thi_nを算出するに際して、i番目のショットにおけるフレームの距離の平均値avgi(Distn)を算出するとともに、フレームの距離の分散値vari(Distn)を算出する。
カット点判定用データ算出部14は、距離の平均値avgi(Distn)と距離の分散値vari(Distn)を算出すると、距離の平均値avgi(Distn)と距離の分散値vari(Distn)を下記の式(1)に代入して、閾値Thi_nを算出する。
Thi_n=avgi(Distn)+α・vari(Distn) (1)
式(1)において、αは係数である。
また、平均値avgi(Distn)及び分散値vari(Distn)は、i番目のショットにおける全てのフレームの平均値及び分散値ではなく、1番目からn−1番目までのフレームの平均値及び分散値である。
0番目のフレームは、平均値や分散値の算出に用いずに、1番目のフレームから平均値や分散値の算出に用いている理由は、0番目のフレームの距離Dist0が、前のショットの最後のフレームとのフレーム間距離を表しているからである。
また、n番目のフレームは、平均値や分散値の算出に用いずに、n−1番目までのフレームを平均値や分散値の算出に用いている理由は、入力されたフレームについて、即座にカット点であるか否かを判別することができるからである。
なお、平均値avgi(Distn)及び分散値vari(Distn)は、正確な値ではなく、何らかの近似値を用いてもよい。また、係数αはコンテンツのジャンルなどによって変更してもよい。
以上から明らかなように、カット点検出部1がショット内に動きがある場合においても、その動きを統計的に分析することで、カット点とショット内の動きの変動を判別することができるため、適応的にカット点判定用の閾値Thi_nを設定することが可能になり、その結果、従来の固定閾値を用いる場合と比べて、カット点の検出精度を高めることができるようになる。その理由は、以下の通りである。
従来の検出処理方法では、カット点の検出にフレーム内の輝度値の変化を用いており、カット点検出用の閾値は固定値である。
一般に、現在のショットの次にショットが来るか否かを予測することは困難である。
似ているショットが続く場合、例えば、同一のスタジオ内において、カメラが切り替わる場合など、カット点であっても輝度値の変化が小さいことがある。
その一方で、同一のカットであっても、フラッシュや、人物の大きな動きなどがある場合、フレーム間の変化(輝度値の変化)が大きくなることがある。
図3は、このような場合の輝度値の変化を示す説明図である。
このため、従来の検出処理方法では、大きな閾値を設定すると、小さな変化のカット点を見逃すことになり、小さな閾値を設定すると、変化の大きなショットでカット点を誤検出することがある。
これに対して、この実施の形態1のカット点検出部1では、単なる輝度値の差以外に、特徴量を用いて汎用性を高めている。さらに、評価関数による評価結果である距離が大きい場合にカット点としているが、その閾値を適応的に設定することで、変化の大きなショットであれば、自動的に閾値が大きくなり、変化の小さなショットであれば、自動的に閾値が小さくなるため、カット点検出の大幅な精度向上と汎用性の向上が期待できる。
なお、この実施の形態1では、特徴量を抽出する際、映像信号からではなく、圧縮された画像の符号化データから特徴量を抽出するようにしてもよい。
また、フレーム間距離を算出する際、必ずしも隣接したフレームではなく、2フレーム以上間隔を空けているフレーム間の距離を算出するようにして、算出処理の高速化を図るようにしてもよい。
このように、フレーム間隔をあけて距離の算出やカット点の検出を行う場合、時間的に圧縮された符号化映像におけるフレーム内符号化を用いたフレームを用いてもよい。
さらに、平均値及び分散値を計算する際、現在のフレームに近いフレームに対して重みを付けるなどの処理を実施して、ショット内における変動の様子の時間変化に対応するようにしてもよい。
ショット長計算部2は、カット点検出部1におけるカット点判定部16の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点検出部1におけるカット点判定部16の判定結果がカット点である旨を示す場合、そのカット点より1つ前のカット点を起点とするショットのショット長を算出する(ステップST8)。
即ち、ショット長計算部2は、ショットのショット長はi番目のショットの開始時刻と(i+1)番目のショットの開始時刻の差で求めることができるので、カット点検出部1におけるカット点判定部16の判定結果がカット点である旨を示す場合、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
重要ショット判定部4は、ショット長計算部2がショット長を算出すると、そのショット長と予め設定された閾値Aを比較する(ステップST9)。
そして、重要ショット判定部4は、そのショット長が予め設定された閾値Aより長い場合、カット点検出部1により検出されたカット点より1つ前のカット点を起点とするショットが重要ショットであると判定し、その判定結果を出力する(ステップST10)。
ここでは、重要ショット判定部が、1つ前のカット点を起点とするショットが重要ショットであると判定しているが、1つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、1つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。

以上で明らかなように、この実施の形態1によれば、カット点検出部1におけるカット点判定部16の判定結果がカット点である旨を示す場合、そのカット点より1つ前のカット点を起点とするショットのショット長を算出するショット長計算部2を設け、そのショット長計算部2により算出されたショット長を判別材料にして、1つ前のカット点を起点とするショットが重要ショットであるか否かを判別するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる効果を奏する。
この実施の形態1では、特に会話が主体のコンテンツである場合、重要なナレーションや、台詞部分におけるショット長が長いことに基づいている。また、カット点が分かっている場合、計算負荷が非常に小さいことが特徴であり、計算能力の低い機器においても、重要ショットの判定が可能になる。
なお、カット点を求める際、隣接するフレームではなく、離れたフレームを用いて処理の高速化を図るようにしてもよい。この場合においても、出力される重要ショットの開始時刻は本来の重要ショットの開始時刻から僅かな時間ずれるだけである。
実施の形態2.
図5はこの発明の実施の形態2による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部21はユーザにより設定された要約視聴時間(ユーザが要約を視聴したいと考える時間)、映像コンテンツの時間的分割数及び映像コンテンツ長からコンテンツ分割時間間隔(映像コンテンツを分割する時間間隔)とショット視聴時間(1ショット当りの視聴時間)を設定する処理を実施する。なお、時間間隔設定部21は時間間隔設定手段を構成している。
最長ショット判定部22はショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する処理を実施する。
最長ショット長バッファ23は最長ショット判定部22により判別された最長のショットのショット長を記憶しているメモリである。
最長ショット開始点バッファ24は最長ショット判定部22により判別された最長のショットの開始点の時刻(最長のショットが検出された時点のフレームの時刻)を記憶しているメモリである。
時間分割判定部25は時間間隔設定部21により設定されたコンテンツ分割時間間隔の中で重要なショットの開始点の時刻を出力する。即ち、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔の整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。
なお、最長ショット判定部22、最長ショット長バッファ23、最長ショット開始点バッファ24及び時間分割判定部25から最長ショット検出手段が構成されている。
次に動作について説明する。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
shot=n
Segment=TContent/n
Play=TDijest/n
このように設定した場合、ユーザは、n個のショットを先頭からTPlay秒間ずつ視聴することになる。
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、ショット視聴時間TPlayが0.5分(=30秒)となる。
なお、時間間隔設定部21が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
ショット長計算部2は、カット点検出部1がカット点を検出しなければ、特に処理を実施しないが、カット点検出部1がカット点を検出すると、上記実施の形態1と同様にして、そのカット点より1つ前のカット点を起点とするショットのショット長を算出する。
即ち、ショット長計算部2は、カット点検出部1がカット点を検出すると、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として最長ショット判定部22に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
最長ショット判定部22は、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
時間分割判定部25は、時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの中で重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部25は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部25が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。
以上で明らかなように、この実施の形態2によれば、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、時間間隔設定部21により設定された時間間隔の中でショット長が最長のショット、最長のショットの次のショット、または、最長のショットと次のショットを検出するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、ユーザが重要なショットを容易に把握することができる効果を奏する。
また、この実施の形態2を録画装置や再生装置に適用すれば、重要ショットの開始時刻やショット再生の時間がわかるため、映像の自動編集や簡便な要約再生の視聴が可能になる。
なお、カット点を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。この場合においても、出力される重要ショットの開始時刻は、本来の開始時刻から僅かな時間ずれるだけである。
実施の形態3.
図6はこの発明の実施の形態3による映像要約装置を示す構成図であり、図において、図5と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部31はユーザにより設定された要約視聴時間、映像コンテンツの時間的分割数及び映像コンテンツ長からコンテンツ分割時間間隔の初期値とショット基準視聴時間(1ショット当りの視聴時間)を設定する処理を実施する。
ショット代表範囲初期設定部32は時間間隔設定部31により設定されたコンテンツ分割時間間隔の初期値と映像コンテンツ長からショット代表範囲(ショット代表範囲は、ショット代表範囲開始点及び暫定ショット代表範囲終了点からなる)の初期値を設定する処理を実施する。
時間分割点バッファ33はショット代表範囲初期設定部32により設定されたショット代表範囲の初期値を記憶するメモリである。
ショット代表範囲判定・再設定部34は現在のフレームの時刻がショット代表範囲の終了点を超えている場合、重要ショット再生時間を計算して出力するとともに、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。また、ショット代表範囲判定・再設定部34はショット代表範囲の更新データを生成して、時間分割点バッファ33の記憶内容を更新する。
なお、時間間隔設定部31、ショット代表範囲初期設定部32、時間分割点バッファ33及びショット代表範囲判定・再設定部34から時間間隔設定手段が構成されている。
次に動作について説明する。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
shot=n
Segment0=TContent/n
Play0=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔の初期値TSegment0が3分(=180秒)、ショット基準視聴時間TPlay0が0.5分(=30秒)となる。
なお、時間間隔設定部31が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
ショット代表範囲初期設定部32は、時間間隔設定部31がコンテンツ分割時間間隔の初期値TSegment0を設定すると、そのコンテンツ分割時間間隔の初期値TSegment0と映像コンテンツ長TContentからショット代表範囲の初期値(ショット代表範囲の開始点PStart、暫定ショット代表範囲の終了点PEnd_temp)を設定する。
Start=0
End_temp=TContent/Nshot=TSegment0
ここで、図7は映像コンテンツを分割した各々の分割範囲毎に重要なショットが存在する場合において、そのショットが代表する範囲を表している説明図である。
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
ショット長計算部2は、カット点検出部1がカット点を検出しなければ、特に処理を実施しないが、カット点検出部1がカット点を検出すると、上記実施の形態1と同様にして、そのカット点より1つ前のカット点を起点とするショットのショット長を算出する。
即ち、ショット長計算部2は、カット点検出部1がカット点を検出すると、現在のフレームの時刻とショット開始点バッファ3に記憶されているショット開始点の時刻との時刻差を求め、その時刻差をショット長として最長ショット判定部22に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
最長ショット判定部22は、上記実施の形態2と同様に、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
ショット代表範囲判定・再設定部34は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、下記のようにして、ショット代表範囲の終了点PEndと重要ショット再生時間TPlayを計算し、その重要ショット再生時間TPlayを出力する。
End=PNow+PShot_Start−PStart
Play=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻である。
また、ショット代表範囲判定・再設定部34は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻PShot_Startを、要約再生に用いる重要ショットの開始時刻として出力するとともに、時間分割点バッファ33に記憶されているショット代表範囲の開始点PStartと暫定ショット代表範囲の終了点PEnd_tempを更新する。
更新後のショット代表範囲は、下記の通りである。
Start=PEnd
End_temp=PEnd+TContent/NShot=PEnd+TSegment0
以上で明らかなように、この実施の形態3によれば、最長ショット判定部22により判別された最長のショットの開始時刻とショット長に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。
なお、上記実施の形態2の場合、コンテンツの内容が時間的に均等に区切られている場合に有効であり、コンテンツのジャンル毎に、上記実施の形態2と実施の形態3を使い分けるのがよい。
実施の形態4.
図8はこの発明の実施の形態4による映像要約装置を示す構成図であり、図において、図2と同一符号は同一または相当部分を示すので説明を省略する。
距離判定部41はフレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する処理を実施する。即ち、フレーム間距離算出部12により算出されたフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大のフレーム間距離を検出した旨を示す検出情報を時間判定部43に出力するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する。
最大距離バッファ42は距離判定部41により判別された最大のフレーム間距離を記憶しているメモリである。
なお、距離判定部41及び最大距離バッファ42から最大距離検出手段が構成されている。
時間判定部43は距離判定部41から最大フレーム間距離の検出情報を受けると、最大距離フレーム時刻バッファ44に記憶されているフレームの時刻(距離判定部41から前回検出情報を受けた時点のフレームの時刻)から現在のフレームの時刻までの時刻差を求め、その時刻差が予め設定されたコンテンツ時間分割間隔(映像コンテンツを分割する時間間隔)より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するとともに、最大距離フレーム時刻バッファ44の記憶内容を現在のフレームの時刻に更新する処理を実施する。
最大距離フレーム時刻バッファ44は最大の距離が判別された時点のフレームの時刻を記憶しているメモリである。
なお、時間判定部43及び最大距離フレーム時刻バッファ44から重要フレーム検出手段が構成されている。
次に動作について説明する。
特徴量抽出部11は、映像信号を入力すると、上記実施の形態1と同様に、その映像信号からフレームの特徴を表している特徴量を抽出する。
フレームの特徴を表している特徴量としては、例えば、過去のフレームとの差分のほか、色のヒストグラム、色の配置情報、テクスチャ情報、動き情報などが挙げられるが、いずれの特徴量を用いてもよく、また、複数の特徴量を用いてもよい。
フレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様に、特徴量バッファ13から直前のフレームの特徴量(特徴量抽出部11により前回抽出されたフレームの特徴量)の読出しを行う。
そして、フレーム間距離算出部12は、所定の評価関数を用いて、現在のフレームの特徴量と直前のフレームの特徴量とを比較し、それらの特徴量間の距離(非類似度)であるフレーム間距離を算出する。
なお、フレーム間距離算出部12は、フレーム間距離を算出すると、特徴量バッファ13の記憶内容を現在のフレームの特徴量に更新する。
距離判定部41は、フレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する。
即ち、距離判定部41は、フレーム間距離算出部12がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大のフレーム間距離を検出した旨を示す検出情報を時間判定部43に出力する。
この際、距離判定部41は、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する。
時間判定部43は、距離判定部41から最大フレーム間距離の検出情報を受けると、最大距離フレーム時刻バッファ44に記憶されているフレームの時刻(距離判定部41から前回検出情報を受けた時点のフレームの時刻)から現在のフレームの時刻までの時刻差を求める。
そして、時間判定部43は、その時刻差が予め設定されたコンテンツ時間分割間隔より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するとともに、最大距離フレーム時刻バッファ44の記憶内容を現在のフレームの時刻に更新する。
以上で明らかなように、この実施の形態4によれば、距離判定部41から最大フレーム間距離の検出情報を受けると、最大距離フレーム時刻バッファ44に記憶されているフレームの時刻から現在のフレームの時刻までの時刻差を求め、その時刻差が予め設定されたコンテンツ時間分割間隔より大きい場合、現在のフレームの時刻を重要フレームの開始時刻として出力するように構成したので、時間間隔を保ちながらコンテンツの大きな変化点を、フレーム間距離と時間間隔のみで探し出すことが可能になる(図9を参照)。これにより、非常に小さな計算負荷で、映像の自動編集や簡便な要約再生の視聴が可能になる効果を奏する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。
実施の形態5.
図10はこの発明の実施の形態5による映像要約装置を示す構成図であり、図において、図5と同一符号は同一または相当部分を示すので説明を省略する。
距離判定部51はカット点検出部1によりカット点が検出された場合、フレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する処理を実施する。即ち、フレーム間距離算出部12により算出されたフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ52の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する。
最大距離カット点開始時刻バッファ52は最大のフレーム間距離のカット点の開始時刻を記憶しているメモリである。
なお、距離判定部51、最大距離バッファ42及び最大距離カット点開始時刻バッファ52から最大距離検出手段が構成されている。
時間分割判定部53は時間間隔設定部21により設定されたコンテンツ分割時間間隔の中で重要なショットの開始点の時刻を出力する。即ち、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔の整数倍である場合、最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。
なお、時間分割判定部53は重要ショット検出手段を構成している。
次に動作について説明する。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態2と同様に、これらの入力情報にしたがって重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
shot=n
Segment=TContent/n
Play=TDijest/n
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
また、カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様にして、フレーム間距離を算出する(図2を参照)。
距離判定部51は、カット点検出部1がカット点を検出すると、フレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を判別する。
即ち、距離判定部51は、カット点検出部1がカット点を検出したとき、フレーム間距離算出部12がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ52の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する処理を実施する。
時間分割判定部53は、時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの中で重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部53は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する処理を実施する。
以上で明らかなように、この実施の形態5によれば、カット点検出部1によりカット点が検出された場合、フレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離を相互に比較して、最大のフレーム間距離を検出する距離判定部51を設け、時間間隔設定部21により設定された時間間隔の中で、距離判定部51により最大のフレーム間距離が検出されたフレームの時刻を重要ショットの開始時刻として出力するように構成したので、時間的に均等に映像コンテンツを分割し、各分割された区間において変化の大きいカット点を各時間間隔における代表的なシーンとして検出することが可能になる。これにより、非常に小さな計算負荷で、映像の自動編集や簡便な要約再生の視聴が可能になる効果を奏する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。
実施の形態6.
図11はこの発明の実施の形態6による映像要約装置を示す構成図であり、図において、図6及び図10と同一符号は同一または相当部分を示すので説明を省略する。
ショット代表範囲判定・再設定部54は現在のフレームの時刻がショット代表範囲の終了点を超えている場合、重要ショット再生時間を計算して出力するとともに、最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻を、要約再生に用いる重要ショットの開始時刻として出力する。また、ショット代表範囲判定・再設定部54はショット代表範囲の更新データを生成して、時間分割点バッファ33の記憶内容を更新する。
なお、時間間隔設定部31、ショット代表範囲初期設定部32、時間分割点バッファ33及びショット代表範囲判定・再設定部54から時間間隔設定手段が構成されている。
次に動作について説明する。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態3と同様に、これらの入力情報にしたがって重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
shot=n
Segment0=TContent/n
Play0=TDijest/n
ショット代表範囲初期設定部32は、時間間隔設定部31がコンテンツ分割時間間隔の初期値TSegment0を設定すると、上記実施の形態3と同様に、そのコンテンツ分割時間間隔の初期値TSegment0と映像コンテンツ長TContentからショット代表範囲の初期値(ショット代表範囲の開始点PStart、暫定ショット代表範囲の終了点PEnd_temp)を設定する。
Start=0
End_temp=TContent/Nshot=TSegment0
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
また、カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様にして、フレーム間距離を算出する(図2を参照)。
距離判定部51は、カット点検出部1によりカット点が検出された場合、上記実施の形態5と同様に、フレーム間距離算出部12がフレーム間距離を算出すると、そのフレーム間距離と最大距離バッファ42に記憶されている最大のフレーム間距離を比較し、フレーム間距離算出部12により算出されたフレーム間距離が最大のフレーム間距離より大きければ、最大距離カット点開始時刻バッファ52の記憶内容を現在のフレームの時刻に更新するとともに、最大距離バッファ42の記憶内容をフレーム間距離算出部12により算出されたフレーム間距離に更新する処理を実施する。
ショット代表範囲判定・再設定部54は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、
下記のようにして、ショット代表範囲の終了点PEndと重要ショット再生時間TPlayを計算し、その重要ショット再生時間TPlayを出力する。
End=PNow+PShot_Start−PStart
Play=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻である。
また、ショット代表範囲判定・再設定部54は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、最大距離カット点開始時刻バッファ52に記憶されている最大のフレーム間距離のカット点の開始時刻PShot_Startを、要約再生に用いる重要ショットの開始時刻として出力するとともに、時間分割点バッファ33に記憶されているショット代表範囲の開始点PStartと暫定ショット代表範囲の終了点PEnd_tempを更新する。
更新後のショット代表範囲は、下記の通りである。
Start=PEnd
End_temp=PEnd+TContent/NShot=PEnd+TSegment0
以上で明らかなように、この実施の形態6によれば、距離判定部51により最大のフレーム間距離が検出されたフレームの時刻に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。
なお、上記実施の形態5の場合、コンテンツの内容が時間的に均等に区切られている場合に有効であり、コンテンツのジャンル毎に、上記実施の形態5と実施の形態6を使い分けるのがよい。
実施の形態7.
図12はこの発明の実施の形態7による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
距離平均算出部61はカット点検出部1のフレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離の平均値を算出する処理を実施する。なお、距離平均算出部61は平均値算出手段を構成している。
キーフレーム候補判定部62はフレーム間距離算出部12により算出されたフレーム間距離と平均値算出部61により算出された平均値の差分値が最小値バッファ63に記憶されている最小値より小さい場合、その差分値が最小値より小さい旨を示す最小値検出信号をサムネイル候補画像バッファ64に出力するとともに、最小値バッファ63の記憶内容を当該差分値に更新する。
最小値バッファ63は最小値を記憶しているメモリであり、サムネイル候補画像バッファ64はキーフレーム候補判定部62から最小値検出信号を受けると、映像信号の映像をサムネイル候補画像として記憶するメモリである。
なお、キーフレーム候補判定部62、最小値バッファ63及びサムネイル候補画像バッファ64からサムネイル候補画像記憶手段が構成されている。
サムネイル作成部65はカット点検出部1がカット点を検出すると、サムネイル候補画像バッファ64に記憶されているサムネイル候補画像からサムネイルを作成する処理を実施する。なお、サムネイル作成部65はサムネイル作成手段を構成している。
次に動作について説明する。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
また、カット点検出部1のフレーム間距離算出部12は、特徴量抽出部11が現在のフレームの特徴量を抽出すると、上記実施の形態1と同様にして、フレーム間距離を算出する(図2を参照)。
距離平均算出部61は、カット点検出部1が現在のフレームがカット点ではないと判定している場合、フレーム間距離算出部12がフレーム間距離を算出する毎に、そのフレーム間距離算出部12により現時点までに算出されたフレーム間距離の平均値を算出する。
キーフレーム候補判定部62は、カット点検出部1が現在のフレームがカット点ではないと判定している場合において、距離平均算出部61がフレーム間距離の平均値を算出すると、フレーム間距離算出部12により算出されたフレーム間距離と平均値算出部61により算出された平均値の差分値を求め、その差分値と最小値バッファ63に記憶されている最小値を比較する。
キーフレーム候補判定部62は、その差分値が最小値バッファ63に記憶されている最小値より小さい場合、その差分値が最小値より小さい旨を示す最小値検出信号をサムネイル候補画像バッファ64に出力するとともに、最小値バッファ63の記憶内容を当該差分値に更新する。
サムネイル候補画像バッファ64は、キーフレーム候補判定部62から最小値検出信号を受けると、映像信号の映像をサムネイル候補画像として記憶する。
サムネイル作成部65は、カット点検出部1がカット点を検出すると、サムネイル候補画像バッファ64に記憶されているサムネイル候補画像を読出し、そのサムネイル候補画像からサムネイルを作成して出力する。
なお、フレーム間距離を求める際、隣接するフレームではなく、離れたフレームを用いて、処理の高速化を図るようにしてもよい。
一般的に、映像コンテンツ中の同一のショットにおいても、カメラのパン・チルト・ズームや人物の動きにより、画像に差異が見られる。
また、パン・チルト・ズームや、人物の動きが落ち着いたときが、そのショットにおける重要な画像である場合が多い。
このとき、フレーム間距離Distnは小さくなり、それが長い時間続くと、フレーム間距離の平均値avgi(Distn)が小さくなっていく。
この実施の形態7では、|Distn−avgi(Distn)|が最小になるnの画像をi番目のショットにおける代表的な画像としている。
これにより、各ショットを代表する画像を効果的に検出することが可能になり、ユーザは、より簡単に映像コンテンツの中から視聴したいシーンを再生することが可能となる。
実施の形態8.
図13はこの発明の実施の形態8による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
重要ショット長バッファ71は重要ショット判別部4が重要ショットを検出すると、ショット長計算部2により計算された重要ショットのショット長を記憶するメモリである。なお、重要ショット長バッファ71は重要ショット長記憶手段を構成している。
重要ショット再生時間算出部72は重要ショット長バッファ71に記憶されている重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出する処理を実施する。なお、重要ショット再生時間算出部72は再生時間算出手段を構成している。
次に動作について説明する。
重要ショット判定部4は、ショット長計算部2がショット長を算出すると、上記実施の形態1と同様にして、そのショット長と予め設定された閾値Aを比較して、カット点検出部1により検出されたカット点より1つ前のカット点を起点とするショットが重要ショットであるか否かを判定し、その判定結果を出力する。
ここでは、重要ショット判定部4が上記実施の形態1と同様にして、重要ショットを検出するものについて示したが、重要ショットの検出方法は上記実施の形態1に記載の方法に限るものではなく、例えば、上記実施の形態2〜6に記載の方法を用いてもよい。
重要ショット再生時間算出部72は、ユーザにより設定された要約視聴時間PTを入力すると、下記の式を満足するように、その要約視聴時間PTと重要ショット長バッファ71に記憶されているi番目の重要ショットのショット長SLiからi番目の重要ショットの再生時間PSiを算出する。
Figure 0004699476
ただし、mは重要ショットの個数である。
以上で明らかなように、この実施の形態8によれば、重要ショット長バッファ71に記憶されている重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出するように構成したので、各ショットの長さに応じた重みで要約再生時の各重要ショットの視聴時間を設定することができる効果を奏する。
実施の形態9.
図14はこの発明の実施の形態9による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
重要ショット判定部81はショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する処理を実施する。なお、重要ショット判定部81は重要ショット判定手段を構成している。
次に動作について説明する。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81は、映像が終了して映像終了信号を受けると、ショット開始点バッファ3からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出する。
そして、重要ショット判定部81は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット(重要ショット)に決定することにより、重要ショットの開始点と再生時間を決定する。
具体的には、以下の通りである。
重要ショット判定部81は、例えば、映像信号の中にm個のショットがある場合、m個のショットの中のi番目のショットの開始点の時刻STi(i番目のカット点の検出時刻)と、i+1番目のショットの開始点の時刻STi+1を用いて、i番目のショットのショット長SLiを求める。
SLi=STi+1−STi
重要ショット判定部81は、上記のようにして、映像信号に含まれているm個のショットのショット長SLiを求めると、ショット長SLiが長い順にm個のショットをソートする。
ソート後のショット長をSSLiとすると、長い順にソートしているため、SSLi≧SSLi+1になる。
次に、重要ショット判定部81は、ソート後のショット長SSLiに係数αを乗算し、各乗算結果αSSLiの総和を算出する。ただし、係数αの値域は、0<α≦1である。
重要ショット判定部81は、各乗算結果αSSLiの総和と要約視聴時間TDijestを比較し、下記の不等式を満足する最も大きなkを求める。
Figure 0004699476
重要ショット判定部81は、上記の不等式を満足する最も大きなkを求めると、そのときのショット長SSLkを、重要ショットを判別する際に使用するショット長の閾値SLThに設定する。
重要ショット判定部81は、ショット長の閾値SLThを設定すると、映像信号に含まれているm個のショットのショット長SLiと閾値SLThを比較し、SLTh<SLiを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLiとする。これにより、要約再生する時間は、要約視聴時間TDijest以下になる。
以上で明らかなように、この実施の形態9によれば、ショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定するように構成したので、ユーザが重要ショットのみを視聴することができる効果を奏する。
なお、係数αの値を小さくすれば、再生対象のショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に、係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
このため、係数αの値は、コンテンツのジャンルや特徴、ユーザの所望に応じて使い分けるとよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態10.
図15はこの発明の実施の形態10による映像要約装置を示す構成図であり、図において、図1及び図14と同一符号は同一または相当部分を示すので説明を省略する。
時間間隔設定部91は映像コンテンツ長と、ユーザにより設定された所望の要約視聴時間と、ユーザにより設定もしくは自動的に設定された時間的分割数(コンテンツを時間的に分割する数)とから、コンテンツ分割時間間隔(コンテンツを時間的に分割する基準となる時間)と、基準分割要約視聴時間(分割された時間を要約視聴する基準となる時間)を算出する。なお、時間間隔設定部91は時間間隔設定手段を構成している。
重要ショット判定部81は、図14の重要ショット判定部81と同様に、ショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定するが、図15の重要ショット判定部81は、時間間隔設定部91により設定された時間間隔の中で、ショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出する。
時間分割点バッファ92はコンテンツが分割された時刻を記憶しているメモリである。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
Segment=TContent/n
S_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶するとともに、カット点の判定結果を重要ショット判定部81に出力する。
重要ショット判定部81は、カット点検出部1からカット点の判定結果を受けると、重要ショットの開始時刻及び重要ショットの再生時間を決定する。
具体的には、以下の通りである。
まず、重要ショット判定部81は、現在のフレーム時刻TNowと時間分割点バッファ92に記憶されている前回の分割時間フレーム時刻TPreを参照する。
重要ショット判定部81は、下記に示すように、現在のフレーム時刻TNowと前回の分割時間フレーム時刻TPreの差がコンテンツ分割時間間隔TSegmentを超えている場合、カット点検出部1から出力されているカット点の判定結果を参照する。
Segment≦TNow−TPre
重要ショット判定部81は、カット点の判定結果がカット点である旨を示している場合、そのカット点を映像コンテンツの分割点として、m個に分割する映像コンテンツのi番目の分割要約視聴時間TS_Dijest,iを算出する。
Figure 0004699476
重要ショット判定部81は、i+1番目の分割点が分った時点で、i番目の分割区間のショット開始点の時刻とその個数が全て分るので、このi番目の区間に、n個のショットがあるものとする。このn個のショットの中のj番目のショットの開始点の時刻STi,jと、j+1番目のショットの開始点の時刻STi,j+1を用いて、j番目のショットのショット長SLi,jを求める。
SLi,j=STi,j+1−STi,j
重要ショット判定部81は、上記のようにして、分割区間内における映像中のn個のショットのショット長SLi,jを求めると、ショット長SLi,jが長い順にn個のショットをソートする。
ソート後のショット長をSSLi,jとすると、長い順にソートしているため、SSLi,j≧SSLi,j+1になる。
次に、重要ショット判定部81は、ソート後のショット長SSLi,jに係数αを乗算し、各乗算結果αSSLi,jの総和を算出する。ただし、係数αの値域は、0<α≦1である。
重要ショット判定部81は、各乗算結果αSSLi,jの総和と分割要約視聴時間TS_Dijest,iを比較し、下記の不等式を満足する最も大きなkを求める。
Figure 0004699476
重要ショット判定部81は、上記の不等式を満足する最も大きなkを求めると、そのときのショット長SSLi,kを、i番目の区間において、重要ショットを判別する際に使用するショット長の閾値SLTh,iに設定する。
重要ショット判定部81は、ショット長の閾値SLTh,iを設定すると、i番目の区間において、映像信号に含まれているn個のショットのショット長SLi,jと閾値SLTh,iを比較し、SLTh,i<SLi,jを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLi,jとする。これにより、分割された映像中における要約再生する時間はTS_Dijest,i以下になる。
なお、係数αの値を小さくすれば、再生対象となるショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
この実施の形態10では、分割区間に応じて、係数αの値を変えることも可能である。
例えば、番組前半のニュースコンテンツにおいて、番組前半のトップニュースでは、係数αを大きくして、最も重要と思われる部分を長く視聴し、後半の短いニュースの連続部分では、係数αを小さくして概要を視聴するなどの使い方が可能である。
上記実施の形態9の場合、コンテンツが非常に長いときは、コンテンツ全体のショット長ソートの計算処理量が膨大になることがあるが、この実施の形態10では、i番目の区間において、ショット長ソートを計算すればよいため、コンテンツが非常に長い場合でも、計算処理量の膨大化を招くことなく、ユーザが重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報としては、時刻、フレーム番号、映像圧縮データ中の時間情報など、いずれを用いてもよい。
実施の形態11.
図16はこの発明の実施の形態11による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
ショット統計処理部101はショット開始点バッファ3に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する処理を実施する。なお、ショット統計処理部101は重要ショット判定手段を構成している。
次に動作について説明する。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
ショット統計処理部101は、映像が終了して映像終了信号を受けると、ショット開始点バッファ3からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
具体的には、以下の通りである。
ショット統計処理部101は、例えば、映像信号の中にm個のショットがある場合、m個のショットの中のi番目のショットの開始点の時刻STiと、i+1番目のショットの開始点の時刻STi+1を用いて、i番目のショットのショット長SLiを求める。
SLi=STi+1−STi
ショット統計処理部101は、上記のようにして、映像信号に含まれているm個のショットのショット長SLiを求めると、ショット長SLiはSLi>0であり、ショット長SLiが対数正規分布に従うと仮定する。
このとき、ショット長SLiがxである確率p(x)、即ち、分布確率p(x)は下記のようになる。
Figure 0004699476
ただし、μはSLiの平均値、σ2はSLiの分散値である。
図17はショット長の対数正規分布を表す説明図である。
上式の平均値μと分散値σ2は、ショット長SLiから容易に算出することが可能である。
映像コンテンツ長はTContentであることから、分布確率p(x)は、下式のように表すことができる。
Figure 0004699476
また、映像中のショットの数はm個であることから、映像中において、長さがxであるショットの個数はm×p(x)となる。従って、この確率分布p(x)と映像コンテンツ長TContentの関係は、下式で表される。
Figure 0004699476
図18はショット長と映像コンテンツ長TContentの関係を示す説明図である。
これから、0<α≦1として、下記の不等式を満足する最小のx0を計算機上で求めることができる。
Figure 0004699476
ショット統計処理部101は、上記の不等式を満足する最小のx0を求めると、そのx0を、重要ショットを判別する際に使用するショット長の閾値SLThに設定する。
ショット統計処理部101は、ショット長の閾値SLThを設定すると、映像信号に含まれているm個のショットのショット長SLiと閾値SLThを比較し、SLTh<SLiを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLiとする。これにより、要約再生する時間は、およそ要約視聴時間TDijestになる。ただし、実際のショット長の分布と仮定した確率分布p(x)の差が大きい場合には補正してもよい。
この実施の形態11では、統計処理に用いる平均値μと分散値σ2を映像コンテンツの終了後に算出しているが、例えば、第i番目までの平均値μiに関しては、以下の式を用いて、カット点を検出する度に、順次計算して更新するようにしてもよい。
μi=(SLi+(i−1)μi-1)/i
同様に、分散値σ2に関しても、順次、類似の計算をして更新を行うようにしてもよい。また、何らかの近似計算を行ってもよい。
また、この実施の形態11では、分布関数に対数正規分布を用いているが、例えば、正規分布など、他の分布関数を用いてもよい。
なお、係数αの値を小さくすれば、再生対象のショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に、係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
このため、係数αの値は、コンテンツのジャンルや特徴、ユーザの所望に応じて使い分けるとよい。
この実施の形態11を用いることで、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態12.
図19はこの発明の実施の形態12による映像要約装置を示す構成図であり、図において、図15及び図16と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
Segment=TContent/n
S_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
カット点検出部1は、映像信号を入力すると、上記実施の形態1と同様にして、その映像のカット点を検出する処理を実施する。
カット点検出部1は、映像のカット点を検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶するとともに、カット点の判定結果をショット統計処理部101に出力する。
ショット統計処理部101は、カット点検出部1からカット点の判定結果を受けると、重要ショットの開始時刻及び重要ショットの再生時間を決定する。
具体的には、以下の通りである。
まず、ショット統計処理部101は、現在のフレーム時刻TNowと時間分割点バッファ92に記憶されている前回の分割時間フレーム時刻TPreを参照する。
ショット統計処理部101は、下記に示すように、現在のフレーム時刻TNowと前回の分割時間フレーム時刻TPreの差がコンテンツ分割時間間隔TSegmentを超えている場合、カット点検出部1から出力されているカット点の判定結果を参照する。
Segment≦TNow−TPre
ショット統計処理部101は、カット点の判定結果がカット点である旨を示している場合、そのカット点を映像コンテンツの分割点として、m個に分割する映像コンテンツのi番目の分割要約視聴時間TS_Dijest,iを算出する。また、i番目の区間の長さTSegment,iを算出する。
Figure 0004699476
ショット統計処理部101は、i+1番目の分割点が分った時点で、i番目の分割区間のショット開始点の時刻とその個数が全て分るので、このi番目の区間に、n個のショットがあるものとする。このn個のショットの中のj番目のショットの開始点の時刻STi,jと、j+1番目のショットの開始点の時刻STi,j+1を用いて、j番目のショットのショット長SLi,jを求める。
SLi,j=STi,j+1−STi,j
ショット統計処理部101は、上記のようにして、映像信号に含まれているn個のショットのショット長SLiを求めると、上記実施の形態11と同様に、ショット長SLiはSLi>0であり、ショット長SLiが対数正規分布に従うと仮定する。
このとき、ショット長SLiがxである確率p(x)、即ち、分布確率p(x)は下記のようになる。
Figure 0004699476
ただし、μはSLiの平均値、σ2はSLiの分散値である。
このi番目の区間の長さはTSegment,iであることから、分布確率p(x)は、下式のように表すことができる。
Figure 0004699476
また、映像中のショットの数はn個であることから、映像中において、長さがxであるショットの個数はn×p(x)となる。従って、この確率分布p(x)と映像コンテンツ長TContentの関係は、下式で表される。
Figure 0004699476
これから、0<α≦1として、下記の不等式を満足する最小のx0を計算機上で求めることができる。
Figure 0004699476
ショット統計処理部101は、上記の不等式を満足する最小のx0を求めると、そのx0を、重要ショットを判別する際に使用するショット長の閾値SLTh,iに設定する。
ショット統計処理部101は、ショット長の閾値SLTh,iを設定すると、映像信号に含まれているn個のショットのショット長SLi,jと閾値SLTh,iを比較し、SLTh,i<SLi,jを満足するショットが重要ショットであると認定して、その重要ショットを再生対象のショットに決定する。
このとき、再生対象のショットの再生時間をαSLi,jとする。これにより、要約再生する時間は、およそ分割要約視聴時間TS_Dijest,iになる。ただし、実際のショット長の分布と仮定した確率分布p(x)の差が大きい場合には補正してもよい。
この実施の形態12では、統計処理に用いる平均値μと分散値σ2を映像コンテンツの終了後に算出しているが、例えば、第i番目の区間における第j番目までの平均値μi,jに関しては、以下の式を用いて、カット点を検出する度に、順次計算して更新するようにしてもよい。
μi,j=(SLi,j+(j−1)μi,j-1)/j
同様に、分散値σ2に関しても、順次、類似の計算をして更新を行うようにしてもよい。また、何らかの近似計算を行ってもよい。
また、この実施の形態12では、分布関数に対数正規分布を用いているが、例えば、正規分布など、他の分布関数を用いてもよい。
なお、係数αの値を小さくすれば、再生対象のショットの数が増え、ショット一つ当りの再生時間が短くなる。逆に、係数αの値を大きくすれば、再生対象のショットの数が減り、ショット一つ当りの再生時間が増える。
この実施の形態12では、分割区間に応じて、係数αの値を変えることも可能である。
例えば、番組前半のニュースコンテンツにおいて、番組前半のトップニュースでは、係数αを大きくして、最も重要と思われる部分を長く視聴し、後半の短いニュースの連続部分では、係数αを小さくして概要を視聴するなどの使い方が可能である。
この実施の形態12では、非常に長いコンテンツを携帯機器などの計算処理量の乏しい計算機で処理する場合でも、分割処理や統計処理の精度を調整することにより、ユーザは重要ショットのみを視聴することが可能になる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態13.
図20はこの発明の実施の形態13による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
無音判定部111は映像中の音声信号が無音であるか否かを判定して、映像中の音声の無音点を検出する処理を実施する。なお、無音判定部111は無音点検出手段を構成している。
次に動作について説明する。
無音判定部111は、映像中の音声信号が無音であるか否かを判定して、映像中の音声の無音点を検出する。
無音判定部111は、映像中の音声の無音点を検出すると、その無音点がカット点であるとみなし、その検出結果をカット点の判定結果としてショット長計算部2に出力する。
無音点の検出方法として、例えば、音量と閾値を比較する方法などが考えられる。ただし、他の方法を用いてもよい。
ショット長計算部2は、無音判定部111から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
重要ショット判定部4は、ショット長計算部2がショット長を算出すると、上記実施の形態1と同様に、そのショット長と予め設定された閾値Aを比較する。
そして、重要ショット判定部4は、そのショット長が予め設定された閾値Aより長い場合、無音判定部111により検出された無音点(カット点)より1つ前の無音点(カット点)を起点とするショットが重要ショットであると判定し、その判定結果を出力する。
ここでは、重要ショット判定部4が、1つ前のカット点を起点とするショットが重要ショットであると判定しているが、1つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、1つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。
この実施の形態13によれば、映像ではなく、音声信号の無音点を映像コンテンツのカット点であるとみなすようにしているので、例えば、ドラマもしくは映画コンテンツにおけるストーリー中で重要となる長い台詞やナレーション、音楽番組中の楽曲部分のみを視聴することが可能になる。また、無音点を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態13の映像要約装置では、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態14.
図21はこの発明の実施の形態14による映像要約装置を示す構成図であり、図において、図5と同一符号は同一または相当部分を示すので説明を省略する。
音量判定部112は映像中の音声信号の音量と閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する処理を実施する。なお、音量判定部112は音量低下点検出手段を構成している。
次に動作について説明する。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
shot=n
Segment=TContent/n
Play=TDijest/n
このように設定した場合、ユーザは、n個のショットを先頭からTPlay秒間ずつ視聴することになる。
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、ショット視聴時間TPlayが0.5分(=30秒)となる。
なお、時間間隔設定部21が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
音量判定部112は、映像中の音声信号を入力すると、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット長計算部2に出力する。
なお、この閾値は、コンテンツのジャンルによって変えてもよい。例えば、スポーツ中継であれば、閾値を高めに設定して、歓声の有無を検出する。あるいは、ニュース番組や音楽番組であれば、閾値をノイズレベル付近まで落とすことにより、無音部分を検出して、キャスターやリポーターなど音声、楽曲の切れ目などの部分の検出を行う。
ショット長計算部2は、音量判定部112から出力されたカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
最長ショット判定部22は、上記実施の形態2と同様に、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
時間分割判定部25は、上記実施の形態2と同様に、時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの中で、重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部25は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部25が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。
以上で明らかなように、この実施の形態14によれば、音量に基づくショットの判別を行うことで、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、時間間隔設定部21により設定された時間間隔の中でショット長が最長のショットを検出を検出するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、コンテンツ中の重要なショットを容易に把握することができる効果を奏する。
この実施の形態14を録画装置、録音装置や再生装置に適用すれば、音量に基づく重要ショットの開始時刻やショット再生時間が分るため、映像の自動編集や簡便な要約再生の視聴が可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態14の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態15.
図22はこの発明の実施の形態15による映像要約装置を示す構成図であり、図において、図6及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態3と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
shot=n
Segment0=TContent/n
Play0=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔の初期値TSegment0が3分(=180秒)、ショット基準視聴時間TPlay0が0.5分(=30秒)となる。
なお、時間間隔設定部31が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
ショット代表範囲初期設定部32は、時間間隔設定部31がコンテンツ分割時間間隔の初期値TSegment0を設定すると、上記実施の形態3と同様に、そのコンテンツ分割時間間隔の初期値TSegment0と映像コンテンツ長TContentからショット代表範囲の初期値(ショット代表範囲の開始点PStart、暫定ショット代表範囲の終了点PEnd_temp)を設定する。
Start=0
End_temp=TContent/Nshot=TSegment0
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット長計算部2に出力する。
なお、この閾値は、コンテンツのジャンルによって変えてもよい。例えば、スポーツ中継であれば、閾値を高めに設定して、歓声の有無を検出する。あるいは、ニュース番組や音楽番組であれば、閾値をノイズレベル付近まで落とすことにより、無音部分を検出して、キャスターやリポーターなど音声、楽曲の切れ目などの部分の検出を行う。
ショット長計算部2は、音量判定部112から出力されたカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
最長ショット判定部22は、上記実施の形態2と同様に、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
ショット代表範囲判定・再設定部34は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、上記実施の形態3と同様に、ショット代表範囲の終了点PEndと重要ショット再生時間TPlayを計算し、その重要ショット再生時間TPlayを出力する。
End=PNow+PShot_Start−PStart
Play=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻である。
また、ショット代表範囲判定・再設定部34は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻PShot_Startを、要約再生に用いる重要ショットの開始時刻として出力するとともに、時間分割点バッファ33に記憶されているショット代表範囲の開始点PStartと暫定ショット代表範囲の終了点PEnd_tempを更新する。
更新後のショット代表範囲は、下記の通りである。
Start=PEnd
End_temp=PEnd+TContent/NShot=PEnd+TSegment0
以上で明らかなように、この実施の形態15によれば、音量に基づくショットの判別を行うことで、最長ショット判定部22により判別された最長のショットの開始時刻とショット長に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態15の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態16.
図23はこの発明の実施の形態16による映像要約装置を示す構成図であり、図において、図14及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81は、映像が終了して映像終了信号を受けると、上記実施の形態9と同様に、ショット開始点バッファ3からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出する。
そして、重要ショット判定部81は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット(重要ショット)に決定することにより、重要ショットの開始点と再生時間を決定する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態9と同様であるため、詳細な説明を省略する。
この実施の形態16によれば、音量に基づくショットの判別を行うことで、重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態16の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態17.
図24はこの発明の実施の形態17による映像要約装置を示す構成図であり、図において、図15及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態10と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
Segment=TContent/n
S_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3及び重要ショット判定部81に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81は、音量判定部112からカット点の判定結果を受けると、上記実施の形態10と同様に、時間間隔設定部91により設定された時間間隔の中で、ショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態10と同様であるため、詳細な説明を省略する。
上記実施の形態16の場合、コンテンツが非常に長いときは、コンテンツ全体のショット長ソートの計算処理量が膨大となることがあるが、この実施の形態17では、i番目の区間において、ショット長ソートを計算すればよいため、コンテンツが非常に長い場合でも、計算処理量の膨大化を招くことなく、ユーザが音量に基づく重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態17の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態18.
図25はこの発明の実施の形態18による映像要約装置を示す構成図であり、図において、図16及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
ショット統計処理部101は、映像が終了して映像終了信号を受けると、上記実施の形態11と同様に、ショット開始点バッファ3からカット点の検出時刻(音量低下点の検出時刻)を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態14と同様であるため、詳細な説明を省略する。
この実施の形態18によれば、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは音量に基づく重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態18の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態19.
図26はこの発明の実施の形態19による映像要約装置を示す構成図であり、図において、図19及び図21と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態12と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
Segment=TContent/n
S_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果としてショット開始点バッファ3及びショット統計処理部101に出力する。また、音量低下点を検出すると、その音量低下点の検出時刻をショット開始点バッファ3に記憶する。
ショット統計処理部101は、映像が終了して映像終了信号を受けると、上記実施の形態12と同様に、時間間隔設定部91に設定された時間間隔の中で、ショット開始点バッファ3からカット点の検出時刻(音量低下点の検出時刻)を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態12と同様であるため、詳細な説明を省略する。
この実施の形態19では、非常に長いコンテンツを携帯機器などの計算処理量の乏しい計算機で処理する場合でも、分割処理や統計処理の精度を調整することにより、ユーザは音量に基づく重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
なお、この実施の形態19の映像要約装置は、映像コンテンツでなく、ラジオ放送などの音声のみのコンテンツに適用してもよい。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態20.
図27はこの発明の実施の形態20による映像要約装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
AVカット点判定部121はカット点検出部1と音量判定部112を搭載しており、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う処理を実施する。
図28はこの発明の実施の形態20による映像要約装置のAVカット点判定部121を示す構成図であり、図において、同期判定部122はカット点検出部1から出力された判定結果がカット点である旨を示し、かつ、音量判定部112から出力された判定結果がカット点である旨を示すとき、カット点である旨の最終判定を行う処理を実施する。
次に動作について説明する。
AVカット点判定部121のカット点検出部1は、映像信号を入力すると、上記実施の形態1と同様に、その映像のカット点を検出する。ただし、カット点の検出方法は、上記実施の形態1と異なる方法でもよい。
AVカット点判定部121の音量判定部112は、映像中の音声信号を入力すると、上記実施の形態14と同様に、その音声信号の音量と予め設定された閾値を比較して、その音声信号の音量が閾値より小さい音量低下点を検出する。
音量判定部112は、音声信号の音量が閾値より大きい点はカット点とみなさず、音声信号の音量が閾値より小さい音量低下点をカット点とみなし、その検出結果をカット点の判定結果として出力する。
AVカット点判定部121の同期判定部122は、カット点検出部1から出力された判定結果がカット点である旨を示し、かつ、音量判定部112から出力された判定結果がカット点である旨を示すとき、カット点である旨の最終判定を行う。
即ち、同期判定部122は、カット点検出部1と音量判定部112が同一のタイミングでカット点を検出すれば、そのカット点を映像コンテンツ中のカット点とみなすが、カット点検出部1又は音量判定部112のいずれかがカット点を検出しても、いずれかがカット点を検出していなければ、当該カット点を映像コンテンツ中のカット点とみなさないようにする。
ショット長計算部2は、AVカット点判定部121から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
重要ショット判定部4は、ショット長計算部2がショット長を算出すると、上記実施の形態1と同様に、そのショット長と予め設定された閾値Aを比較する。
そして、重要ショット判定部4は、そのショット長が予め設定された閾値Aより長い場合、AVカット点判定部121により検出されたカット点より1つ前のカット点を起点とするショットが重要ショットであると判定し、その判定結果を出力する。
ここでは、重要ショット判定部4が、1つ前のカット点を起点とするショットが重要ショットであると判定しているが、1つ前のカット点を起点とするショットの次のショットが重要ショットであると判定してもよいし、1つ前のカット点を起点とするショットと次のショットの双方が重要ショットであると判定してもよい。
この実施の形態20によれば、映像と音量の双方を用いてカット点を判定して、長いショットを得ることで、ユーザは重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態21.
図29はこの発明の実施の形態21による映像要約装置を示す構成図であり、図において、図5及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部21は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態2と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔TSegment及びショット視聴時間TPlayを設定する。
shot=n
Segment=TContent/n
Play=TDijest/n
このように設定した場合、ユーザは、n個のショットを先頭からTPlay秒間ずつ視聴することになる。
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、ショット視聴時間TPlayが0.5分(=30秒)となる。
なお、時間間隔設定部21が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う。
ショット長計算部2は、AVカット点判定部121から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
最長ショット判定部22は、上記実施の形態2と同様に、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
時間分割判定部25は、上記実施の形態2と同様に、時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの中で、重要なショットの開始点の時刻を出力する。
即ち、時間分割判定部25は、現在のフレームの時刻が時間間隔設定部21により設定されたコンテンツ分割時間間隔TSegmentの整数倍である場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻を、要約再生に用いる重要ショットの開始時刻として出力する。
ここでは、時間分割判定部25が最長のショットの開始点の時刻を出力するものについて示したが、最長のショットの次のショットの開始点の時刻、または、最長のショットと次のショットの開始点の時刻を出力するようにしてもよい。
ただし、この場合、最長のショットの次のショットの開始点の時刻を記憶するバッファを設ける必要がある。
以上で明らかなように、この実施の形態21によれば、映像と音量の双方に基づくショットの判別を行うことで、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、時間間隔設定部21により設定された時間間隔の中でショット長が最長のショットを検出を検出するように構成したので、例えば、多数の映像処理方法や音声処理方法など、複雑な処理を実施して計算負荷を高めることなく、コンテンツ中の重要なショットを容易に把握することができる効果を奏する。
この実施の形態21を録画装置、録音装置や再生装置に適用すれば、映像と音量に基づく重要ショットの開始時刻やショット再生時間が分るため、映像の自動編集や簡便な要約再生の視聴が可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態22.
図30はこの発明の実施の形態22による映像要約装置を示す構成図であり、図において、図6及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部31は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態3と同様に、これらの入力情報にしたがって、取り出す重要なショットの個数Nshot,コンテンツ分割時間間隔の初期値TSegment0及びショット基準視聴時間TPlay0を設定する。
shot=n
Segment0=TContent/n
Play0=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔の初期値TSegment0が3分(=180秒)、ショット基準視聴時間TPlay0が0.5分(=30秒)となる。
なお、時間間隔設定部31が数値の情報ではなく、言葉の情報を入力し、その言葉を解析して、要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを判別するようにしてもよい。
ショット代表範囲初期設定部32は、時間間隔設定部31がコンテンツ分割時間間隔の初期値TSegment0を設定すると、上記実施の形態3と同様に、そのコンテンツ分割時間間隔の初期値TSegment0と映像コンテンツ長TContentからショット代表範囲の初期値(ショット代表範囲の開始点PStart、暫定ショット代表範囲の終了点PEnd_temp)を設定する。
Start=0
End_temp=TContent/Nshot=TSegment0
ショット代表範囲初期設定部32は、ショット代表範囲の初期値を設定すると、そのショット代表範囲の初期値を時間分割点バッファ33に格納する。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う。
ショット長計算部2は、AVカット点判定部121から出力されるカット点の判定結果がカット点でない旨を示す場合、特に処理を実施しないが、カット点の判定結果がカット点である旨を示す場合、上記実施の形態1と同様に、現在のフレームの時刻とショット開始点バッファ3に記憶されている1つ前のショット開始点の時刻との時刻差を求め、その時刻差をショット長として重要ショット判定部4に出力する。
なお、ショット長計算部2は、ショット長を算出すると、ショット開始点バッファ3の記憶内容を現在のフレームの時刻に更新する。
最長ショット判定部22は、上記実施の形態2と同様に、ショット長計算部2がショット長を算出する毎に、そのショット長計算部2により現時点までに算出されたショット長を相互に比較して、ショット長が最長のショットを判別する。
即ち、最長ショット判定部22は、ショット長計算部2がショット長を算出すると、そのショット長計算部2により算出されたショット長と、最長ショット長バッファ23に記憶されている最長のショットのショット長とを比較し、そのショット長計算部2により算出されたショット長が最長ショット長バッファ23に記憶されている最長のショットのショット長より長い場合、ショット長計算部2によりショット長が算出されたショットが、現時点で最長のショットであると判別する。
最長ショット判定部22は、現時点における最長のショットを判別すると、最長ショット長バッファ23の記憶内容をショット長計算部2により算出されたショット長に更新する。
また、最長ショット判定部22は、最長ショット開始点バッファ24の記憶内容を最長のショットの開始点の時刻(現在のフレームの時刻)に更新する。
ショット代表範囲判定・再設定部34は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、上記実施の形態3と同様に、ショット代表範囲の終了点PEndと重要ショット再生時間TPlayを計算し、その重要ショット再生時間TPlayを出力する。
End=PNow+PShot_Start−PStart
Play=(PEnd−PStart)*TPlay0/TSegment0
ただし、PShot_Startは最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻である。
また、ショット代表範囲判定・再設定部34は、現在のフレームの時刻PNowが時間分割点バッファ33に記憶されている暫定ショット代表範囲の終了点PEnd_tempを超えている場合、最長ショット開始点バッファ24に記憶されている最長のショットの開始点の時刻PShot_Startを、要約再生に用いる重要ショットの開始時刻として出力するとともに、時間分割点バッファ33に記憶されているショット代表範囲の開始点PStartと暫定ショット代表範囲の終了点PEnd_tempを更新する。
更新後のショット代表範囲は、下記の通りである。
Start=PEnd
End_temp=PEnd+TContent/NShot=PEnd+TSegment0
以上で明らかなように、この実施の形態22によれば、映像と音量に基づくショットの判別を行うことで、最長ショット判定部22により判別された最長のショットの開始時刻とショット長に応じてショット代表範囲を更新するように構成したので、コンテンツの区切点や、区切ったコンテンツにおける重要ショットの再生時間を適応的に変化させることが可能になる効果を奏する。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態23.
図31はこの発明の実施の形態23による映像要約装置を示す構成図であり、図において、図14及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う。
AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81は、映像が終了して映像終了信号を受けると、上記実施の形態9と同様に、ショット開始点バッファ3からカット点の検出時刻を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出する。
そして、重要ショット判定部81は、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショット(重要ショット)に決定することにより、重要ショットの開始点と再生時間を決定する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態9と同様であるため、詳細な説明を省略する。
この実施の形態23によれば、映像と音量に基づくショットの判別を行うことで、重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態24.
図32はこの発明の実施の形態24による映像要約装置を示す構成図であり、図において、図15及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態10と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
Segment=TContent/n
S_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を実施して、その判定結果をショット開始点バッファ3及び重要ショット判定部81に出力する。
また、AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
重要ショット判定部81は、音量判定部112からカット点の判定結果を受けると、上記実施の形態10と同様に、時間間隔設定部91により設定された時間間隔の中で、ショット開始点バッファ3に記憶されているカット点の検出時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する。
重要ショット判定部81の具体的な処理内容は、上記実施の形態10と同様であるため、詳細な説明を省略する。
上記実施の形態23の場合、コンテンツが非常に長いときは、コンテンツ全体のショット長ソートの計算処理量が膨大となることがあるが、この実施の形態24では、i番目の区間において、ショット長ソートを計算すればよいため、コンテンツが非常に長い場合でも、計算処理量の膨大化を招くことなく、ユーザが映像と音量に基づく重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態25.
図33はこの発明の実施の形態25による映像要約装置を示す構成図であり、図において、図16及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を行う。
AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
ショット統計処理部101は、映像が終了して映像終了信号を受けると、上記実施の形態11と同様に、ショット開始点バッファ3からカット点の検出時刻(音量低下点の検出時刻)を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態14と同様であるため、詳細な説明を省略する。
この実施の形態25によれば、利用する計算機の能力に応じて統計処理の精度を変えることが可能であり、携帯機器などにおいても、ユーザは映像と音量に基づく重要ショットのみを視聴することが可能になる。また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
実施の形態26.
図34はこの発明の実施の形態26による映像要約装置を示す構成図であり、図において、図19及び図27と同一符号は同一または相当部分を示すので説明を省略する。
次に動作について説明する。
時間間隔設定部91は、ユーザにより設定された要約視聴時間TDijest、映像コンテンツの時間的分割数n及び映像コンテンツ長TContentを入力すると、上記実施の形態10と同様に、これらの入力情報にしたがって、コンテンツ分割時間間隔TSegment及び基準分割要約視聴時間TS_Dijestを設定する。
Segment=TContent/n
S_Dijest=TDijest/n
例えば、映像コンテンツ長TContentが30分(=1800秒)、要約視聴時間TDijestが5分(=300秒)、映像コンテンツの時間的分割数nが10である場合、コンテンツ分割時間間隔TSegmentが3分(=180秒)、基準分割要約視聴時間TS_Dijestが0.5分(=30秒)となる。
AVカット点判定部121は、上記実施の形態20と同様に、カット点検出部1の判定結果と音量判定部112の判定結果から、最終的にカット点の判定を実施して、その判定結果をショット開始点バッファ3及びショット統計処理部101に出力する。
また、AVカット点判定部121は、カット点を最終的に検出すると、そのカット点の検出時刻をショット開始点バッファ3に記憶する。
ショット統計処理部101は、映像が終了して映像終了信号を受けると、上記実施の形態12と同様に、時間間隔設定部91に設定された時間間隔の中で、ショット開始点バッファ3からカット点の検出時刻(音量低下点の検出時刻)を取得して、その検出時刻から各カット点を起点とするショットのショット長を算出して、そのショット長に関する統計的な分布関数を求める。
そして、ショット統計処理部101は、所望の要約視聴時間に合わせて、複数のショットの中から分布関数に基づいて再生対象のショット(重要ショット)を決定することにより、重要ショットの開始点と再生時間を決定する。
ショット統計処理部101の具体的な処理内容は、上記実施の形態12と同様であるため、詳細な説明を省略する。
この実施の形態26では、非常に長いコンテンツを携帯機器などの計算処理量の乏しい計算機で処理する場合でも、分割処理や統計処理の精度を調整することにより、ユーザは映像と音量に基づく重要ショットのみを視聴することが可能になる。
また、音量の小さい部分を用いることにより、重要ショットを連続して視聴する際の不自然さを軽減することができる。
また、ショット長やショット開始点などの時間情報として、時刻、フレーム番号、映像圧縮データ中の時間情報などを用いてもよい。
以上のように、この発明に係る映像要約装置は、ユーザが重要なショットを容易に把握することができるようにするために、映像信号から重要な区間の映像を抽出する必要があるものなどに用いるのに適している。

Claims (14)

  1. 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記カット点より1つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、上記ショット長算出手段により算出されたショット長を判別材料にして、上記カット点判別手段により判別されたカット点より1つ前のカット点を起点とするショットが重要ショットであるか否かを判別する重要ショット判別手段とを備えた映像要約装置。
  2. 重要ショット判別手段は、ショット長算出手段により算出されたショット長が予め設定されたショット長より長い場合、カット点判別手段により判別されたカット点より1つ前のカット点を起点とするショットが重要ショット、1つ前のカット点を起点とするショットの次のショットが重要ショット、または、1つ前のカット点を起点とするショットと次のショットが重要ショットであると判別することを特徴とする請求項1記載の映像要約装置。
  3. 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記カット点より1つ前のカット点を起点とするショットのショット長を算出するショット長算出手段と、映像を分割する時間間隔を設定する時間間隔設定手段と、上記ショット長算出手段がショット長を算出する毎に、上記ショット長算出手段により現時点までに算出されたショット長を相互に比較して、上記時間間隔設定手段により設定された時間間隔の中でショット長が最長のショット、最長のショットの次のショット、または、最長のショットと次のショットを検出する最長ショット検出手段とを備えた映像要約装置。
  4. 時間間隔設定手段は、最長ショット検出手段により検出された最長のショットの開始時刻とショット長に応じて時間間隔を更新することを特徴とする請求項3記載の映像要約装置。
  5. 映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された場合、上記距離算出手段が特徴量間の距離を算出する毎に、上記距離算出手段により現時点までに算出された特徴量間の距離を相互に比較して、最大の距離を検出する最大距離検出手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記最大距離検出手段により最大の距離が検出されたフレームの時刻を重要ショットの開始時刻として出力する重要ショット検出手段とを備えた映像要約装置。
  6. 時間間隔設定手段は、最大距離検出手段により最大の距離が検出されたフレームの時刻と最大の距離に応じて時間間隔を更新することを特徴とする請求項5記載の映像要約装置。
  7. 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記距離算出手段が特徴量間の距離を算出する毎に、上記距離算出手段により現時点までに算出された特徴量間の距離の平均値を算出する平均値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記平均値算出手段により算出された平均値の差分値が予め設定された最小値より小さい場合、上記映像信号の映像をサムネイル候補画像として記憶するサムネイル候補画像記憶手段と、上記カット点判別手段によりカット点が判別されると、上記サムネイル候補画像記憶手段により記憶されているサムネイル候補画像からサムネイルを作成するサムネイル作成手段とを備えた映像要約装置。
  8. 重要ショット判別手段により判別された重要ショットのショット長を記憶する重要ショット長記憶手段と、上記重要ショット長記憶手段により記憶された重要ショットのショット長と予め設定された要約視聴時間から重要ショットの再生時間を算出する再生時間算出手段とを設けたことを特徴とする請求項1記載の映像要約装置。
  9. 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する重要ショット判定手段とを備えた映像要約装置。
  10. 映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出し、所望の要約視聴時間に合わせて、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定する重要ショット判定手段とを備えた映像要約装置。
  11. 映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、上記ショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する重要ショット判定手段とを備えた映像要約装置。
  12. 映像を分割する時間間隔を設定する時間間隔設定手段と、映像信号から映像の特徴を表している特徴量を抽出する特徴量抽出手段と、上記特徴量抽出手段により今回抽出された特徴量と上記特徴量抽出手段により前回抽出された特徴量から特徴量間の距離を算出する距離算出手段と、上記距離算出手段により算出された特徴量間の距離の統計量を求め、上記統計量からカット点判定用の閾値を算出する閾値算出手段と、上記距離算出手段により算出された特徴量間の距離と上記閾値算出手段により算出された閾値を比較し、上記比較結果からカット点を判別するカット点判別手段と、上記カット点判別手段によりカット点が判別された時刻を記憶するショット開始点記憶手段と、上記時間間隔設定手段により設定された時間間隔の中で、上記ショット開始点記憶手段に記憶されている時刻から各カット点を起点とするショットのショット長を算出して、上記ショット長に関する統計的な分布関数を求め、所望の要約視聴時間に合わせて、複数のショットの中から上記分布関数に基づいて再生対象のショットを決定する重要ショット判定手段とを備えた映像要約装置。
  13. カット点判別手段は、映像のカット点を判別する際、映像中の音声の音量が閾値より小さい音量低下点を判別し、判別したカット点の中から上記音量低下点に同期しているカット点を判別することを特徴とする請求項1記載の映像要約装置。
  14. 重要ショット判定手段は、複数のショットの中からショット長が長いショットを優先的に再生対象のショットに決定し、そのショットの再生時間を決定することを特徴とする請求項9記載の映像要約装置。
JP2007542242A 2005-10-27 2006-06-23 映像要約装置 Expired - Fee Related JP4699476B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007542242A JP4699476B2 (ja) 2005-10-27 2006-06-23 映像要約装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005313228 2005-10-27
JP2005313228 2005-10-27
PCT/JP2006/312634 WO2007049381A1 (ja) 2005-10-27 2006-06-23 映像要約装置
JP2007542242A JP4699476B2 (ja) 2005-10-27 2006-06-23 映像要約装置

Publications (2)

Publication Number Publication Date
JPWO2007049381A1 JPWO2007049381A1 (ja) 2009-04-30
JP4699476B2 true JP4699476B2 (ja) 2011-06-08

Family

ID=37967503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007542242A Expired - Fee Related JP4699476B2 (ja) 2005-10-27 2006-06-23 映像要約装置

Country Status (5)

Country Link
US (1) US20090279840A1 (ja)
JP (1) JP4699476B2 (ja)
KR (1) KR100957902B1 (ja)
CN (1) CN101292523B (ja)
WO (1) WO2007049381A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4946305B2 (ja) * 2006-09-22 2012-06-06 ソニー株式会社 音響再生システム、音響再生装置および音響再生方法
US20100201880A1 (en) * 2007-04-13 2010-08-12 Pioneer Corporation Shot size identifying apparatus and method, electronic apparatus, and computer program
JP2011053655A (ja) * 2009-08-07 2011-03-17 Sanyo Electric Co Ltd 画像表示制御装置およびそれを搭載した撮像装置、ならびに画像処理装置およびそれを用いた撮像装置
JP2012039523A (ja) * 2010-08-10 2012-02-23 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
JP5737988B2 (ja) * 2011-02-09 2015-06-17 キヤノン株式会社 画像処理装置およびその制御方法およびプログラム
KR20120118383A (ko) * 2011-04-18 2012-10-26 삼성전자주식회사 이미지 보정 장치 및 이를 이용하는 이미지 처리 장치와 그 방법들
JP2014139734A (ja) * 2013-01-21 2014-07-31 Sony Corp 情報処理装置および方法、並びにプログラム
KR102278048B1 (ko) * 2014-03-18 2021-07-15 에스케이플래닛 주식회사 영상 처리 장치, 이의 제어 방법 및 컴퓨터 프로그램이 기록된 기록 매체
CN106303499B (zh) * 2015-05-30 2018-10-16 北京智谷睿拓技术服务有限公司 视频显示控制方法和装置、显示设备
CN106303315B (zh) 2015-05-30 2019-08-16 北京智谷睿拓技术服务有限公司 视频显示控制方法和装置、显示设备
CN106303498B (zh) * 2015-05-30 2018-10-16 北京智谷睿拓技术服务有限公司 视频显示控制方法和装置、显示设备
CN107770457B (zh) * 2017-10-27 2020-01-21 维沃移动通信有限公司 一种视频制作方法及移动终端、计算机可读存储介质
WO2020248124A1 (en) * 2019-06-11 2020-12-17 WeMovie Technologies Production-as-service systems for making movies, tv shows and multimedia contents
WO2021022499A1 (en) 2019-08-07 2021-02-11 WeMovie Technologies Adaptive marketing in cloud-based content production
WO2021068105A1 (en) 2019-10-08 2021-04-15 WeMovie Technologies Pre-production systems for making movies, tv shows and multimedia contents
KR102372721B1 (ko) * 2019-11-12 2022-03-08 라인플러스 주식회사 영상 분석 방법, 사용자 디바이스 및 컴퓨터 프로그램
WO2021225608A1 (en) 2020-05-08 2021-11-11 WeMovie Technologies Fully automated post-production editing for movies, tv shows and multimedia contents
US11070888B1 (en) 2020-08-27 2021-07-20 WeMovie Technologies Content structure aware multimedia streaming service for movies, TV shows and multimedia contents
US11812121B2 (en) 2020-10-28 2023-11-07 WeMovie Technologies Automated post-production editing for user-generated multimedia contents
US11330154B1 (en) 2021-07-23 2022-05-10 WeMovie Technologies Automated coordination in multimedia content production
US11321639B1 (en) 2021-12-13 2022-05-03 WeMovie Technologies Automated evaluation of acting performance using cloud services

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149902A (ja) * 1992-11-09 1994-05-31 Matsushita Electric Ind Co Ltd 動画像記録媒体、動画像記録装置、及び動画像再生装置
JPH10112835A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 映像要約方法および映像表示方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100215586B1 (ko) * 1992-11-09 1999-08-16 모리시타 요이찌 다이제스트 화상 자동생성 장치 및 다이제스트 화상 자동생성 방법
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US6023520A (en) * 1995-07-06 2000-02-08 Hitach, Ltd. Method and apparatus for detecting and displaying a representative image of a shot of short duration in a moving image
JP4027662B2 (ja) * 1999-06-30 2007-12-26 シャープ株式会社 動画像検索装置、および動画像検索情報管理装置
US7110454B1 (en) * 1999-12-21 2006-09-19 Siemens Corporate Research, Inc. Integrated method for scene change detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149902A (ja) * 1992-11-09 1994-05-31 Matsushita Electric Ind Co Ltd 動画像記録媒体、動画像記録装置、及び動画像再生装置
JPH10112835A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 映像要約方法および映像表示方法

Also Published As

Publication number Publication date
US20090279840A1 (en) 2009-11-12
WO2007049381A1 (ja) 2007-05-03
KR100957902B1 (ko) 2010-05-13
JPWO2007049381A1 (ja) 2009-04-30
KR20080059597A (ko) 2008-06-30
CN101292523B (zh) 2011-02-09
CN101292523A (zh) 2008-10-22

Similar Documents

Publication Publication Date Title
JP4699476B2 (ja) 映像要約装置
US7424204B2 (en) Video information summarizing apparatus and method for generating digest information, and video information summarizing program for generating digest information
CN100380441C (zh) 检测给定类型节目的方法和设备、无声检测器和接收器
US7826708B2 (en) System and method for automatically customizing a buffered media stream
US6928233B1 (en) Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal
JP4449216B2 (ja) 映像情報の編集方法及び編集装置
KR100915847B1 (ko) 스트리밍 비디오 북마크들
US8634699B2 (en) Information signal processing method and apparatus, and computer program product
JP4778231B2 (ja) ビデオシーケンスに対してインデックス付けするシステムおよび方法
JP2005514841A (ja) マルチメディア・コンテンツをリンクするよう複数モードのストーリーをセグメントする方法及び装置
US20090077137A1 (en) Method of updating a video summary by user relevance feedback
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
JP2003513564A (ja) 動的閾値を使用する視覚的索引付けシステムの重要シーン検出及びフレームフィルタリング
JP2005513663A (ja) コマーシャル及び他のビデオ内容の検出用のファミリーヒストグラムに基づく技術
US8422853B2 (en) Information signal processing method and apparatus, and computer program product
JP2004528790A (ja) 番組開始及び終了区切りを検出する拡張epg
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
JP4620126B2 (ja) 映像識別装置
JP4999015B2 (ja) 動画像データの分類装置
JP4396914B2 (ja) 動画像データの分類装置
Lehane et al. Dialogue scene detection in movies using low and mid-level visual features
Sugano et al. MPEG content summarization based on compressed domain feature analysis
Kyperountas et al. Audio PCA in a novel multimedia scheme for scene change detection
Nesvadba et al. Low-level cross-media statistical approach for semantic partitioning of audio-visual content in a home multimedia environment
Kyperountas et al. Scene change detection using audiovisual clues

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110302

R150 Certificate of patent or registration of utility model

Ref document number: 4699476

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees