JP2008078726A - 静止画像抽出装置および方法並びにプログラム - Google Patents

静止画像抽出装置および方法並びにプログラム Download PDF

Info

Publication number
JP2008078726A
JP2008078726A JP2006252449A JP2006252449A JP2008078726A JP 2008078726 A JP2008078726 A JP 2008078726A JP 2006252449 A JP2006252449 A JP 2006252449A JP 2006252449 A JP2006252449 A JP 2006252449A JP 2008078726 A JP2008078726 A JP 2008078726A
Authority
JP
Japan
Prior art keywords
still image
image
timing
extraction
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006252449A
Other languages
English (en)
Inventor
Toshitsugu Fukushima
敏貢 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2006252449A priority Critical patent/JP2008078726A/ja
Priority to US11/902,004 priority patent/US20080069542A1/en
Publication of JP2008078726A publication Critical patent/JP2008078726A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Abstract

【課題】動画像に含まれる楽曲と対応させた静止画像を動画像から抽出できるようにする。
【解決手段】画像読込部24が読み込んだ動画像に含まれる楽曲の構造を表す構造情報を、構造情報取得部28が取得する。タイミング設定部30が、構造情報およびあらかじめ設定された画像抽出画像抽出パラメータに基づいて、動画像を代表する静止画像抽出のタイミングを設定する。そして、抽出部32が、設定されたタイミングに対応する動画像のフレームを静止画像として抽出する。
【選択図】図1

Description

本発明は、動画像から静止画像を抽出する静止画像抽出装置および方法並びに静止画像抽出方法をコンピュータに実行させるためのプログラムに関するものである。
従来より、動画像から静止画像を抽出し、抽出した静止画像に様々な文字やデザインを付与して、その動画像を記録したDVD等の商品のパッケージやラベルに使用したり、チャプターリストに使用することが行われている。このため、動画像から静止画像を抽出するための各種手法が提案されている。例えば、動画像の各フレームに含まれる音量、動き量、複雑度および色成分等の特徴量を算出し、特徴量が最大となるフレームを静止画像として抽出する手法(特許文献1参照)、および動画像の動きがあらかじめ設定された基準値以上となる毎に、その時点の静止画像を抽出する手法(特許文献2参照)等が提案されている。
また、動画像から所定の時間間隔で切り出した静止画像から注目領域を検出し、検出した注目領域のパターンを比較し、注目領域の変化が大きい場合にその静止画像を動画像におけるシーンチェンジする部分の画像として抽出する手法も提案されている(特許文献3参照)。さらに、動画像に含まれる対象物の動きに合わせて抽出の時間間隔を変更することにより、様々なパッケージ用の画像を生成する手法も提案されている(特許文献4参照)。
特開2003−298983号公報 特開2003−234996号公報 特開2004−194197号公報 特開平5−37893号公報
ところで、映画やプロモーションビデオ等の動画像には楽曲が含まれており、動画像のシーンの盛り上がりに応じて楽曲が再生されるようになっている。例えば、映画のクライマックスのシーンには楽曲が再生され、最高潮となったシーンに対応させて楽曲のサビの部分が再生されることが多く、これにより動画像の印象的なシーンをより盛り上げて見せることができるようになっている。
このような、映画やプロモーションビデオ等の動画像から、上記従来技術のようにフレームの特徴量等に基づいて静止画像を抽出した場合、動画像に含まれる楽曲とは全く関係ない静止画像が抽出されることから、抽出された静止画像が動画像における印象的なシーンとはならないものとなってしまうおそれがある。
本発明は上記事情に鑑みなされたものであり、動画像に含まれる楽曲と対応させた静止画像を動画像から抽出できるようにすることを目的とする。
楽曲を含む動画像においては、楽曲中に現れるフレーズ等の特徴が動画像と同期しており、楽曲における特定のフレーズが再生されるタイミングにおいては、その動画像を代表するシーンが再生されることが多い。本発明はこの点に鑑みなされたものである。
すなわち、本発明による静止画像抽出装置は、動画像に含まれる楽曲の構造を表す構造情報を取得する構造情報取得手段と、
前記構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、前記動画像からの静止画像の抽出のタイミングを設定するタイミング設定手段と、
前記設定されたタイミングに対応する前記動画像のフレームを前記静止画像として抽出する抽出手段とを備えたことを特徴とするものである。
「楽曲の構造」としては、動画像において楽曲の再生が開始される時間、楽曲に含まれる特定のフレーズおよびサビの種類、並びに特定のフレーズおよびサビが出現するタイミング、特定のフレーズおよびサビの配列等が挙げられる。
「画像抽出パラメータ」は、静止画像を抽出するタイミング、抽出する静止画像の数、およびその用途等を指定するものであり、あらかじめ作業者により設定されるものである。
「設定されたタイミングに対応する動画像のフレーム」としては、設定されたタイミングにおける1つのフレームであってもよく、設定されたタイミング以前および/または以後の複数のフレームであってもよい。
なお、本発明による静止画像抽出装置においては、前記抽出手段を、前記設定されたタイミング以前および/または以後の複数のフレームを抽出し、該複数のフレームのうち最高画質のフレームを前記抽出する静止画像に決定する手段としてもよい。
また、本発明による静止画像抽出装置においては、前記画像抽出パラメータが前記静止画像の用途を含む場合、前記タイミング設定手段を、前記静止画像の用途にも応じて、前記静止画像抽出のタイミングを設定する手段としてもよい。
また、本発明による静止画像抽出装置においては、前記構造情報取得手段を、前記動画像に含まれる楽曲を抽出する楽曲抽出手段と、
前記抽出した楽曲から該楽曲の構造を抽出して前記構造情報を生成する構造情報生成手段とを備えるものとしてもよい。
本発明による静止画像抽出方法は、動画像に含まれる楽曲の構造を表す構造情報を取得し、
前記構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、前記動画像からの静止画像の抽出のタイミングを設定し、
前記設定されたタイミングに対応する前記動画像のフレームを前記静止画像として抽出することを特徴とするものである。
なお、本発明による代表画像抽出方法をコンピュータに実行させるためのプログラムとして提供してもよい。
本発明によれば、動画像に含まれる楽曲の構造情報が取得され、構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、動画像からの静止画像抽出のタイミングが設定され、設定されたタイミングに対応する動画像のフレームが静止画像として抽出される。このため、動画像に含まれる楽曲と対応させて動画像から静止画像を抽出することができる。また、楽曲は動画像の印象的なシーンに対応づけられていることから、動画像の印象的なシーンを静止画像として抽出することができる。
また、設定されたタイミング以前および/または以後の複数のフレームを抽出し、複数のフレームのうち最高画質のフレームを静止画像として抽出することにより、より画質のよい静止画像を得ることができる。
また、静止画像の用途にも応じて静止画像を抽出するタイミングを設定することにより、用途に応じた静止画像を抽出することができる。
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の第1の実施形態による静止画像抽出装置の構成を示す概略ブロック図である。図1に示すように本実施形態による静止画像抽出装置1は、動画像を表す動画像データの記録制御および表示制御等の各種制御を行うとともに、装置1を構成する各部の制御を行うCPU12と、CPU12を動作させるプログラム、および各種定数が記録されているROMおよびCPU12が処理を実行する際の作業領域となるRAMにより構成されるシステムメモリ14と、各種表示を行う液晶モニタ等からなる表示部16と、表示部16を制御する表示制御部18と、種々の指示を装置1に対して行うためのキーボード、マウスおよびタッチパネル等からなる入力部20と、入力部20を制御する入力制御部22とを備える。なお、本実施形態においては、動画像は楽曲が含まれているものを対象としており、楽曲が含まれない動画像は対象としないものである。
また、静止画像抽出装置1は、動画像を表す動画像データを記録したメモリカード等のメディアから動画像データを読み出したり動画像データや後述するように抽出した静止画像の画像データをメディアに記録したりするための画像読込部24と、画像読込部24を制御する画像読込制御部26とを備える。
また、静止画像抽出装置1は、動画像に含まれる楽曲の構造を表す構造情報を取得する構造情報取得部28と、構造情報取得部28が取得した構造情報、および作業者があらかじめ入力部20から入力することにより設定した画像抽出パラメータに基づいて、静止画像抽出のタイミングを設定するタイミング設定部30と、設定されたタイミングに対応する動画像のフレームを静止画像として抽出する抽出部32とを備える。
構造情報取得部28は、動画像に含まれる楽曲を抽出する楽曲抽出部28Aと、抽出した楽曲から楽曲の構造を抽出して構造情報を生成する構造情報生成部28Bとを備える。
なお、動画像がプロモーションビデオのようなものであれば、楽曲は動画像と同時に再生される。このため、楽曲抽出部28Aは、動画像から音声情報を抽出することにより楽曲を抽出することができる。一方、動画像が映画のようなものであると、楽曲は映画の途中で挿入曲として含まれているため、動画像再生と同時に楽曲が再生されない。このような動画像の場合、楽曲抽出部28Aは動画像から音声情報を抽出し、さらに抽出した音声情報から楽曲部分を抽出することにより動画像から楽曲を抽出する。音声情報から楽曲を抽出する手法としては、音声情報を表す音声データからニューラルネットワーク、周波数解析等の手法を用いて楽曲のデータを分離する手法(例えば特表2005−518560号公報参照)等、公知の任意の手法を用いることができる。
ここで、楽曲の構造としては、動画像において楽曲の再生が開始される時間、楽曲に含まれる特定のフレーズおよびサビの種類、並びに特定のフレーズおよびサビが出現するタイミング、特定のフレーズおよびサビの配列等が挙げられ、構造情報はこれらの楽曲の構造を表す情報である。なお、フレーズを取得する手法としては、例えば、特開平9−90978号公報に記載された楽曲の無音部分に基づいてフレーズを検出する手法、特開2004−184769号公報に記載された楽曲中の和音に基づいてフレーズを検出する手法、および特開2004−233965号公報に記載された楽曲中の繰り返される区間に基づいてサビを検出する手法等を用いることができる。
次いで、本実施形態において行われる処理について説明する。図2は第1の実施形態において行われる処理を示すフローチャートである。なお、静止画像を抽出する動画像は画像読込部24により読み込まれてシステムメモリ14に記憶されているものとする。また、本実施形態において使用される動画像は、再生時間が5分でフレームレートが30fpsであるとする。さらに、画像抽出パラメータは入力部20を用いて作業者により設定されているものとする。
作業者が静止画像抽出の指示を入力部20から行うことによりCPU12が処理を開始し、まず、構造情報取得部28の楽曲部抽出部28Aが、動画像から楽曲を抽出する(ステップST1)。次いで、構造情報生成部28Bが、楽曲の構造情報を生成する(ステップST2)。図3は楽曲の構造を示す図である。図3に示すように、抽出された楽曲は3分の長さを有し、Aメロ、Bメロおよびサビの3つフレーズからなる。また、Aメロは楽曲の再生時間における0:00〜1:00、Bメロは1:10〜2:00、サビは2:30〜3:00に現れる。また、抽出された楽曲は、動画像が再生されてから1分後に再生が開始される。構造情報生成部28Bは、動画像において楽曲の再生が開始される開始時間、3つのフレーズの種類、3つのフレーズの配列および3つのフレーズが出現するタイミングを構造情報として生成する。
次いで、タイミング設定部30が、構造情報および作業者が設定した画像抽出パラメータに基づいて、静止画像抽出のタイミングを設定する(ステップST3)。図4は第1の実施形態における静止画像抽出のタイミングの設定および静止画像の抽出を説明するための図である。なお、ここでは画像抽出パラメータP0として、Bメロから静止画像を1枚抽出する旨が設定されているものとする。
タイミング設定部30は、画像抽出パラメータP0により設定された抽出枚数に応じたタイミングを、静止画像抽出のタイミングとするものである。本実施形態においては、Bメロから1枚抽出する旨が画像抽出パラメータP0により設定されているため、Bメロの中央位置を静止画像抽出のタイミングに設定する。
すなわち、図4に示すように、楽曲は動画像が再生されてから1分後に再生される。Bメロは楽曲の再生時間における1:10〜2:00の間に現れ、その中央位置は楽曲が再生されてから1:35後に現れる。したがって、タイミング設定部30は、画像抽出パラメータP0に基づく静止画像抽出のタイミングT0を、動画像の再生開始から2:35後に設定する。なお、静止画像を複数枚抽出する旨が設定された場合のタイミングの設定については、後述する。
そして、抽出部32が、タイミング設定部30が設定した静止画像抽出のタイミングにおけるフレームを動画像から静止画像R0として抽出し(ステップST4)、処理を終了する。ここで、本実施形態においては、動画像のフレームレートは30fpsであり、静止画像抽出のタイミングT0は動画像の再生開始から2:35(=155秒)後である。したがって、抽出部32は、動画像に含まれる9000枚(=30(fps)×5(分)×60(秒))のフレームのうち、30×155=4650枚目のフレームを静止画像R0として抽出する。
このように、本実施形態においては、画像に含まれる楽曲の構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、動画像からの静止画像抽出のタイミングを設定し、設定したタイミングに対応する動画像のフレームを静止画像として抽出するようにしたため、動画像に含まれる楽曲と対応させて静止画像を抽出することができる。とくに、楽曲は動画像の印象的なシーンにおいて再生されることから、動画像の印象的なシーンを静止画像として抽出することができる。
なお、上記実施形態においては、画像抽出パラメータを1つのみ設定しているが、複数設定してもよい。図5は複数の画像抽出パラメータを設定した場合の静止画像抽出のタイミングの設定を説明するための図である。ここで、画像抽出パラメータとしては、サビから1枚(画像抽出パラメータP1)、Aメロから2枚とBメロから3枚(画像抽出パラメータP2)およびAメロの真ん中1枚とサビ開始から10秒後のフレーム(画像抽出パラメータP3)を抽出する旨が設定されているものとする。
図5に示すように、楽曲は動画像が再生されてから1分後に再生が開始される。タイミング設定部30は、サビから1枚抽出する旨を設定する画像抽出パラメータP1に対しては、サビの中央位置を静止画像抽出のタイミングT1に設定する。ここで、サビは楽曲の再生時間における2:30〜3:00の間に現れ、その中央位置は楽曲が再生されてから2:45後に現れる。したがって、タイミング設定部30は、画像抽出パラメータP1に基づく静止画像抽出のタイミングT1を、動画像の再生開始から3:45(=225秒)後に設定する。この場合、抽出部32が静止画像R1として抽出するフレームは、30×225=6750枚目のフレームとなる。
一方、タイミング設定部30は、Aメロから2枚とBメロから3枚抽出する旨を設定する画像抽出パラメータP2に対しては、Aメロの開始時点および終了時点を静止画像抽出のタイミングT2−1,T2−2に設定するとともに、Bメロの開始時点、中央位置および終了時点を静止画像抽出のタイミングT2−3,T2−4,T2−5に設定する。ここで、Aメロは楽曲の再生時間における0:00〜1:00の間に現れ、その開始時点および終了時点は楽曲が再生されてから0:00後および1:00後にそれぞれ現れる。また、Bメロは楽曲の再生時間における1:10〜2:00の間に現れ、その開始時点、中央位置および終了時点は、楽曲が再生されてから、1:10後、1:35後および2:00後にそれぞれ現れる。
したがって、タイミング設定部30は、画像抽出パラメータ2に基づく静止画像抽出のタイミングT2−1〜T2−5を、動画像の再生開始から1:00(=60秒)後、2:00(=120秒)後、2:10(=130秒)後、2:35(=155秒)後および3:00(=180秒)後にそれぞれ設定する。この場合、抽出部32は、30×60=1800枚目、30×120=3600枚目、30×130=3900枚目、30×155=4650枚目、および30×180=5400枚目のフレームを静止画像R2−1〜R2−5として抽出する。
また、タイミング設定部30は、Aメロの真ん中1枚とサビ開始から10秒後のフレームを抽出する旨を設定する画像抽出パラメータP3に対しては、そのままAメロの中央位置およびサビ開始から10秒後を静止画像抽出のタイミングT3−1,T3−2に設定する。ここで、Aメロは楽曲の再生時間における0:00〜1:00の間に現れ、その中央位置は楽曲が再生されてから0:30後に現れる。また、サビは楽曲の再生時間における2:30〜3:00の間に現れるため、サビ開始から10秒後は楽曲が再生されてから2:40後となる。したがって、タイミング設定部30は、画像抽出パラメータP3に基づく静止画像抽出のタイミングT3−1,T3−2を、動画像の再生開始から1:30(=90秒)後および3:40(=220秒)後に設定する。この場合、抽出部32は、30×90=2700枚目および30×220=6600枚目のフレームを静止画像R3−1,R3−2として抽出する。
次いで、本発明の第2の実施形態について説明する。図6は本発明の第2の実施形態による静止画像抽出装置の構成を示す概略ブロック図である。なお、第2の実施形態において第1の実施形態と同一の構成については同一の参照番号を付与し、ここでは詳細な説明は省略する。第2の実施形態による静止画像抽出装置1Aは、第1の実施形態における抽出部32に代えて、タイミング設定部30が設定した静止画像抽出のタイミングを含むその前後の複数のフレームを抽出する抽出部42と、抽出部42が抽出した複数のフレームの画質を判定する画質判定部44を備えた点が第1の実施形態と異なる。
図7は第2の実施形態において行われる処理を示すフローチャートである。なお、図7に示すフローチャートにおいてステップS11からステップST13の処理は、上記第1の実施形態におけるステップST1からステップST3の処理と同一であるため、ここでは詳細な説明は省略する。また、第2の実施形態においては、第1の実施形態と同様に、Bメロから1枚抽出する旨が画像抽出パラメータP0により設定されているものとする。
抽出部42が、タイミング設定部30が設定した静止画像抽出のタイミングのフレームを含むその前後の複数のフレームを動画像から抽出する(ステップST14)。図8は第2の実施形態における静止画像の抽出を説明するための図である。なお、タイミング設定部30は、画像抽出パラメータP0に基づく静止画像抽出のタイミングT0を、上記第1の実施形態と同様に動画像の再生開始から2:35後に設定しているものとする。
抽出部42は、タイミング設定部30が設定した静止画像抽出のタイミングT0のフレームおよびその前後の2フレーム(合計5フレーム)を動画像から抽出する。ここで、本実施形態においては、動画像のフレームレートは30fpsであり、タイミング設定部30が設定した静止画像抽出のタイミングT0は動画像の再生開始から2:35(=155秒)後である。したがって、抽出部42は、30×155=4650枚目を中心とする5フレームF1〜F5を抽出する。
次いで、画質判定部44がフレームF1〜F5の画質を判定する。具体的には、画像のエッジの強さを判定することにより画像のブレおよびボケの程度を判定し、さらに濃度値を判定することにより画像の明るさを判定する。また、特開2000−298300号公報に記載された手法を用いて、フレームにより表される画像の空間周波数分布を測定し、その高周波数分布の減少率が最大の方向を手ぶれの方向と推定し、さらに推定された手ぶれの方向に画像の自己相関関数をとり、これを手ぶれ方向に微分し、その極小点の間隔から、ブレの大きさを推定することによりブレの判定を行うようにしてもよい。なお、画質の判定の手法は上記の手法に限定されるものではなく、画像のブレおよびボケのみを判断したり、画像の明るさのみを判断する等、公知の任意の手法を用いることができる。
そして、画質判定部44は、5つのフレームF1〜F5のうち、ブレおよびボケが最も少なく、かつ明るさが最も明るいフレームを最高画質のフレームとして抽出する静止画像に決定し(ステップST16)、処理を終了する。
これにより、第2の実施形態においては、より画質のよい静止画像を得ることができる。
なお、上記第2の実施形態においては、タイミング設定部30が静止画像抽出のタイミングに対応するフレームを中心とする5つのフレームを抽出しているが、抽出するフレームの数はこれに限定されるものではない。また、抽出するフレームは、タイミング設定部30が設定したタイミング以前または以後のみであってもよい。さらに、作業者が入力部20から抽出するフレームの数を設定できるようにしてもよい。
また、上記第1および第2の実施形態において、抽出した静止画像の用途を画像抽出パラメータとして設定してもよい。以下、これを第3の実施形態として説明する。なお、第3の実施形態による静止画像抽出装置は第1の実施形態による静止画像抽出装置1と同一の構成を有するため、ここでは詳細な説明は省略する。
図9は第3の実施形態における静止画像抽出のタイミングの設定および静止画像の抽出を説明するための図である。ここで、楽曲の構造は上記第1の実施形態と同一であるものとする。なお、第3の実施形態においては、動画像をDVDに記録して販売することを目的として、動画像のチャプターリスト用に3枚の画像を、ジャケットおよび盤面用に1枚の画像を抽出する旨を画像抽出パラメータP4,P5によりそれぞれ設定するものとする。また、第3の実施形態においては用途と、その用途に応じた静止画像抽出のタイミングの設定方法の関係を表すテーブルが、システムメモリ14にあらかじめ登録されているものとする。具体的には、チャプターリスト用の画像についてはフレーズの先頭に対応するフレームを静止画像抽出のタイミングとする旨が、ジャケットおよび盤面用としてはサビのフレーズの中央位置のフレームを静止画像抽出のタイミングとする旨が、それぞれテーブルに登録されている。なお、このテーブルは作業者がその内容を編集可能なものとしてもよい。
まず、チャプターリスト用の3枚の画像について、タイミング設定部30は、システムメモリ14に登録されたテーブルを参照して、楽曲に含まれるAメロ、Bメロおよびサビの開始位置を画像抽出パラメータP4に基づく静止画像抽出のタイミングT4−1〜T4−3に設定する。ここで、Aメロは、楽曲の再生時間における0:00〜1:00、Bメロは1:10〜2:00、サビは2:30〜3:00に現れる。また、抽出された楽曲は、動画像が再生されてから1分後に再生が開始される。したがって、タイミング設定部30は、静止画像抽出のタイミングT4−1〜T4−3を、動画像の再生開始から1:00(=60秒)後、2:10(=130秒)後および3:30(=210秒)後に設定する。この場合、抽出部32は、30×60=1800枚目、30×130=3900枚目、および30×210=6300枚目のフレームを静止画像R4−1,R4−2,R4−3として抽出する。
また、ジャケットおよび盤面用の1枚の画像について、タイミング設定部30は、システムメモリ14に登録されたテーブルを参照して、楽曲に含まれるサビの中央位置を画像抽出パラメータP5に基づく静止画像抽出のタイミングT5に設定する。ここで、サビは楽曲の再生時間における2:30〜3:00に現れるため、サビの中央位置は楽曲が再生されてから2:45後に現れる。また、抽出された楽曲は、動画像が再生されてから1分後に再生が開始される。したがって、タイミング設定部30は、静止画像抽出のタイミングを、動画像の再生開始から3:45(=225秒)後に設定する。この場合、抽出部32は、30×225=6750枚目のフレームを静止画像R5として抽出する。
このように、静止画像の用途に応じて静止画像抽出のタイミングを設定することにより、用途に応じた静止画像を抽出することができる。
なお、上記実施形態においては、物理的に利用不可能な画像抽出パラメータが入力部20から設定される場合がある。例えば、30fpsの動画に含まれる楽曲の長さ30秒(=900フレーム)のサビに対して、静止画像を1000枚抽出するような設定がなされる場合がある。このような場合には、表示部16にエラー表示を行い、設定可能な画像抽出パラメータの再入力を作業者に行わせるようにしてもよい。
また、上記実施形態においては、動画像から楽曲を抽出し、抽出した楽曲の構造情報を生成しているが、動画像が、映像ファイルと、楽曲の再生タイミングが記載されているシナリオファイルとから構成される場合がある。このような場合には、上記実施形態における楽曲抽出部28Aおよび構造情報生成部28Bを使用しなくても、シナリオファイルを設定することにより、動画像に含まれる楽曲の構造を表す構造情報を取得することができ、これにより静止画像抽出のための演算時間を短縮することができる。
以上、本発明の実施形態に係る装置1,1Aについて説明したが、コンピュータを、上記の構造情報取得部28、タイミング設定部3および抽出部32,42に対応する手段として機能させ、図2,7に示すような処理を行わせるプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取り可能な記録媒体も、本発明の実施形態の1つである。
本発明の第1の実施形態による静止画像抽出装置の構成を示す概略ブロック図 第1の実施形態において行われる処理を示すフローチャート 楽曲の構造を示す図 第1の実施形態における静止画像抽出のタイミングの設定および静止画像の抽出を説明するための図 複数の画像抽出パラメータを設定した場合の静止画像抽出のタイミングの設定を説明するための図 本発明の第2の実施形態による静止画像抽出装置の構成を示す概略ブロック図 第2の実施形態において行われる処理を示すフローチャート 第2の実施形態における静止画像の抽出を説明するための図 第3の実施形態における静止画像抽出のタイミングの設定および静止画像の抽出を説明するための図
符号の説明
1,1A 静止画像抽出装置
12 CPU
14 システムメモリ
16 表示部
18 表示制御部
20 入力部
22 入力制御部
24 画像読込部
26 画像読込制御部
28 構造情報取得部
30 タイミング設定部
32,42 抽出部

Claims (6)

  1. 動画像に含まれる楽曲の構造を表す構造情報を取得する構造情報取得手段と、
    前記構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、前記動画像からの静止画像の抽出のタイミングを設定するタイミング設定手段と、
    前記設定されたタイミングに対応する前記動画像のフレームを前記静止画像として抽出する抽出手段とを備えたことを特徴とする静止画像抽出装置。
  2. 前記抽出手段は、前記設定されたタイミング以前および/または以後の複数のフレームを抽出し、該複数のフレームのうち最高画質のフレームを前記抽出する静止画像に決定する手段であることを特徴とする請求項1記載の静止画像抽出装置。
  3. 前記画像抽出パラメータが前記静止画像の用途を含む場合、前記タイミング設定手段は、前記静止画像の用途にも応じて、前記静止画像抽出のタイミングを設定する手段であることを特徴とする請求項1または2記載の静止画像抽出装置。
  4. 前記構造情報取得手段は、前記動画像に含まれる楽曲を抽出する楽曲抽出手段と、
    前記抽出した楽曲から該楽曲の構造を抽出して前記構造情報を生成する構造情報生成手段とを備えたことを特徴とする請求項1から3のいずれか1項記載の静止画像抽出装置。
  5. 動画像に含まれる楽曲の構造を表す構造情報を取得し、
    前記構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、前記動画像からの静止画像の抽出のタイミングを設定し、
    前記設定されたタイミングに対応する前記動画像のフレームを前記静止画像として抽出することを特徴とする静止画像抽出方法。
  6. 動画像に含まれる楽曲の構造を表す構造情報を取得する手順と、
    前記構造情報およびあらかじめ設定された画像抽出パラメータに基づいて、前記動画像からの静止画像の抽出のタイミングを設定する手順と、
    前記設定されたタイミングに対応する前記動画像のフレームを前記静止画像として抽出する手順とを有することを特徴とする静止画像抽出方法をコンピュータに実行させるためのプログラム。
JP2006252449A 2006-09-19 2006-09-19 静止画像抽出装置および方法並びにプログラム Pending JP2008078726A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006252449A JP2008078726A (ja) 2006-09-19 2006-09-19 静止画像抽出装置および方法並びにプログラム
US11/902,004 US20080069542A1 (en) 2006-09-19 2007-09-18 Still image extracton apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006252449A JP2008078726A (ja) 2006-09-19 2006-09-19 静止画像抽出装置および方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2008078726A true JP2008078726A (ja) 2008-04-03

Family

ID=39188719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006252449A Pending JP2008078726A (ja) 2006-09-19 2006-09-19 静止画像抽出装置および方法並びにプログラム

Country Status (2)

Country Link
US (1) US20080069542A1 (ja)
JP (1) JP2008078726A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284064A (ja) * 1994-04-06 1995-10-27 Sony Corp オーディオ情報と動画像情報との記録方法およびその記録媒体
JPH10257501A (ja) * 1997-03-12 1998-09-25 Toshiba Corp 画像再生装置
JPH10319980A (ja) * 1997-05-20 1998-12-04 Daiichi Kosho:Kk カラオケ装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6288991B1 (en) * 1995-03-06 2001-09-11 Fujitsu Limited Storage medium playback method and device
JPH1185785A (ja) * 1997-09-05 1999-03-30 Sony Corp 情報処理方法、情報処理装置、及び情報配信システム
JP2004007539A (ja) * 2002-04-19 2004-01-08 Sumitomo Electric Ind Ltd ビジュアル情報の記録/再生方法、その装置及び通信システム
JP4221308B2 (ja) * 2004-01-15 2009-02-12 パナソニック株式会社 静止画再生装置、静止画再生方法及びプログラム
US7912827B2 (en) * 2004-12-02 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for searching text-based media content
US7860343B2 (en) * 2006-04-10 2010-12-28 Nokia Corporation Constructing image panorama using frame selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284064A (ja) * 1994-04-06 1995-10-27 Sony Corp オーディオ情報と動画像情報との記録方法およびその記録媒体
JPH10257501A (ja) * 1997-03-12 1998-09-25 Toshiba Corp 画像再生装置
JPH10319980A (ja) * 1997-05-20 1998-12-04 Daiichi Kosho:Kk カラオケ装置

Also Published As

Publication number Publication date
US20080069542A1 (en) 2008-03-20

Similar Documents

Publication Publication Date Title
JP4660861B2 (ja) 楽曲画像シンクロ動画シナリオ生成方法、プログラムおよび装置
JP6943949B2 (ja) コンピュータプログラム、動画処理方法及び記録媒体
JP2007213176A (ja) 情報処理装置および方法、並びにプログラム
CN103026704B (zh) 信息处理装置、信息处理方法以及集成电路
JP2009017486A (ja) コンテンツ再生装置
WO2017062961A1 (en) Methods and systems for interactive multimedia creation
JP2010057145A (ja) 電子機器、動画像データ区間変更方法及びプログラム
US7446252B2 (en) Music information calculation apparatus and music reproduction apparatus
JP2008123672A5 (ja)
JP2003274368A (ja) サムネイル表示装置及びサムネイル表示プログラム
JP2009171060A5 (ja)
WO2011125204A1 (ja) 情報処理装置及び方法、並びにコンピュータプログラム
JP6589838B2 (ja) 動画像編集装置及び動画像編集方法
US20150051911A1 (en) Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
JP2008078726A (ja) 静止画像抽出装置および方法並びにプログラム
JP2012169743A (ja) 情報処理装置及び情報処理方法
CN104185032B (zh) 一种视频识别方法及系统
JP5551403B2 (ja) 動画作成装置、コンピュータプログラム及び記憶媒体
JP4967983B2 (ja) 情報記録装置及びプログラム
JP2010008893A (ja) 電子音楽装置
JP5012644B2 (ja) プレゼンテーション記録装置、プレゼンテーション再生装置及びプログラム
JP6028489B2 (ja) 動画再生装置、動画再生方法、及びプログラム
CN115514987A (zh) 通过使用脚本注释进行自动叙事视频制作的系统和方法
JP2006352879A (ja) 映像フレーム内の事象を識別及び可視化する方法、及び、映像ストリーム内の事象のタイムラインを生成するためのシステム
JP5967986B2 (ja) 画像処理装置およびその制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110111