JP5389594B2 - 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置 - Google Patents

画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置 Download PDF

Info

Publication number
JP5389594B2
JP5389594B2 JP2009227975A JP2009227975A JP5389594B2 JP 5389594 B2 JP5389594 B2 JP 5389594B2 JP 2009227975 A JP2009227975 A JP 2009227975A JP 2009227975 A JP2009227975 A JP 2009227975A JP 5389594 B2 JP5389594 B2 JP 5389594B2
Authority
JP
Japan
Prior art keywords
image file
still image
sound
moving image
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009227975A
Other languages
English (en)
Other versions
JP2011077883A (ja
Inventor
直明 秦野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2009227975A priority Critical patent/JP5389594B2/ja
Publication of JP2011077883A publication Critical patent/JP2011077883A/ja
Application granted granted Critical
Publication of JP5389594B2 publication Critical patent/JP5389594B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、動画像ファイルから音声付きの静止画像ファイルを生成する画像ファイル生成方法、これをコンピュータに実施させるプログラム、このプログラムを記録したコンピュータ読み取り可能な記録媒体および画像ファイル生成装置に関するものである。
従来、動画像ファイルから音声付き静止画像ファイルを生成し、アルバムやプリントを作製する場合、静止画像に最適な音声を編集者が動画像から探し出し、動画像ファイルから別途抽出した音声ファイルを静止画像ファイルと関連付けるなど、非常に煩雑で手間がかかっていた。
これに対し、特許文献1では、動画像に付帯する音声情報を取得し、動画像を構成する複数の静止画像のなかから画像を選択し、音声情報に基づいて音声認識を行い、認識結果であるテキスト情報を選択した静止画像と共にレイアウトする画像レイアウト装置が開示されている。
また、特許文献2では、表示された画像内で任意の人物を指定して特定し、予め特定された人物ごとに記憶された声紋データである音声情報を読出し、読出された人物の音声情報に基づいて、予めユーザが登録した情報(録音された音声)などの所定の情報を出力する電子アルバム装置が開示されている。
さらに、特許文献3では、取得された音声付き動画データから動画データと音声データとを分離し、分離された動画データからフレーム分割処理を行い、複数フレームの静止画データとして取り出し、これらの中から、複数の注目フレーム候補を特定する処理を行い、一方、分離された波形データ、そのテキスト化データの中から、予め取得していた注目音声の波形データ、テキストデータと一致するものを注目音声波形、注目キーワードとして特定し、特定された音声データに対応する注目フレーム候補を注目フレームとして確定し、全ての注目音声について複数の注目フレームの静止画データをプリント情報として取得し、複数の写真プリントとして出力し、写真アルバムを作成する写真アルバム作成方法が開示されている。
特開2004−120127号公報 特開2002−190009号公報 特開2006−333065号公報
しかしながら、特許文献1に記載の画像レイアウト装置は、レイアウトする静止画像に対して、動画中のどのタイミングの音声を抽出するか明確ではなく、また、レイアウトする静止画像の近傍の音声を抽出するとした場合であっても、必ずしも最適な音声の抽出タイミングとは限らない。さらに、被写体によっては、音声情報をテキストで表示することにより、画像観賞の品質を落とす場合もあった。
また、特許文献2に記載の電子アルバム装置は、音として出力できるのは予め登録された特定された人物が録音した音声のみであり、また、人物を特定するために、予め人物の顔画像と声紋データを登録することが必要であった。
また、特許文献3に記載の写真アルバム作成方法は、注目音声を基に最適な静止画像を写真プリントするものである。しかし、注目音声の波形データ、テキストデータを予め登録する必要があり、また、注目音声のタイミングが必ずしも最適な静止画像(ベストショット)であるとは限らない。
本発明の目的は、動画像ファイルまたは動画像ファイルから生成された静止画像ファイルを解析することで、静止画像に最適なタイミングの音声を抽出し、最適な音声付きの静止画像ファイルを生成することができる画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置を提供することにある。
上記課題を解決するために、本発明は、動画像ファイルから音声付き静止画像ファイルを生成するための画像ファイル生成方法であって、動画像ファイルを読み込むステップと、読み込まれた前記動画像ファイルから選択された静止画像を抽出して静止画像ファイルを生成するステップと、前記生成された静止画像ファイルを解析し、音声モード情報を生成するステップと、前記音声モード情報によって前記動画像ファイルの解析方法を変更し、変更された前記解析方法により前記動画像ファイルを解析するステップと、前記音声モード情報、および前記動画像ファイルの解析結果から、前記生成された静止画像ファイルに最適な音声の抽出タイミングを決定するステップと、前記抽出タイミングで前記動画像ファイルから前記最適な音声を抽出するステップと、前記生成された静止画像ファイルと前記最適な音声を関連付けて音声付き静止画像ファイルを生成するステップと、を有することを特徴とする画像ファイル生成方法を提供する。
また、前記生成された静止画像ファイルの解析は、前記生成された静止画像ファイルに人物が撮影されているか検出するステップと、前記人物の大きさを検出し、所定の値以上であれば、前記人物の音声を重視して前記動画像ファイルを解析するステップと、を有するのが好ましい。
さらに、前記人物の検出は、顔検出によって検出するのが好ましい。
さらに、前記人物の大きさは、前記顔検出によって検出された顔の大きさ、および位置のうち1以上から求めるのが好ましい。
また、前記抽出タイミングは、前記生成された静止画像ファイルと同一のイベント内であるのが好ましい。
さらに、前記抽出タイミングは、音量の急な変化が発生したタイミングであるのが好ましい。
また、前記抽出タイミングは、ズームが行われたタイミングであるのが好ましい。
また、前記抽出タイミングは、前記生成された静止画像ファイルと同一のイベント内であり、前記顔検出により検出された前記顔の口の形状を解析し、口を大きく開け、かつ音量の大きいタイミングであるのが好ましい。
また、前記抽出タイミングは、前記生成された静止画像ファイルと同一のイベント内であり、前記顔検出により検出された前記顔の表情を判定し、笑顔かつ音量の大きいタイミングであるのが好ましい。
また、前記抽出タイミングは、前記生成された静止画像ファイルと同一のシーン内であるのが好ましい。
また、上記課題を解決するために、本発明は、上記に記載の画像ファイル生成方法の各工程を手順としてコンピュータに実行させるためのプログラムを提供する。
また、上記課題を解決するために、本発明は、上記に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
さらに、上記課題を解決するために、本発明は、動画像ファイルから音声付き静止画像ファイルを生成するための画像ファイル生成装置であって、動画像ファイルを読み込む動画像読込手段と、読み込まれた前記動画像ファイルから選択された静止画像を抽出して静止画像ファイルを生成する静止画像生成手段と、前記生成された静止画像ファイルを解析し、音声モード情報を生成する静止画像解析手段と、前記音声モード情報によって前記動画像ファイルの解析方法を変更し、変更された前記解析方法により前記動画像ファイルを解析し、前記音声モード情報、および前記動画像ファイルの解析結果から、前記生成された静止画像ファイルに最適な音声の抽出タイミングを決定し、前記抽出タイミングで前記動画像ファイルから前記最適な音声を抽出する動画像解析手段と、前記生成された静止画像ファイルと前記最適な音声を関連付けて音声付き静止画像ファイルを生成する音声付き静止画像生成手段と、を有することを特徴とする画像ファイル生成装置を提供する。
本発明によれば、手作業によって静止画像に最適な音声を動画像から探し出すことなく、動画像ファイルおよび動画像ファイルから生成された静止画像ファイルを自動的に解析することで、静止画像に最適な音声を抽出し、最適な音声付きの静止画像ファイルを生成することができる。また、撮影者や被写体となった人物に、最適な音声が再生される満足度の高いフォトフレームやフォトブックを作製することができる。
(a),(b)は、静止画像と最適な音声のタイミングが略同一の場合の一例を示す説明図である。 (a)〜(f)は、静止画像と最適な音声のタイミングが異なる場合の一例を示す説明図である。 (a),(b)は、抽出する最適な音声が人物の声の場合の一例を示す説明図である。 (a)〜(d)は、抽出する最適な音声が背景およびシーンの音声の場合の一例を示す説明図である。 本発明に係る画像ファイル生成方法を実施する画像ファイル生成装置の構成の一例を示すブロック図である。 本発明に係る画像ファイル生成方法の、一実施形態を示すフローチャートである。 (a)〜(c)は、静止画像に最適な音声を抽出するタイミングの一例を示す図であり、(d),(e)は、静止画像に最適な音声を抽出するタイミングの他の一例を示す図である。 (a)〜(c)は、音声を抽出する場面の一例を示す図である。 (a)は大きな音の変化がない場面の一例を示す図であり,(b)は、ほとんど音がない場面の一例を示す図である。 (a)は、本発明に係る、被写体に最適な音声が再生されるフォトフレームの一例を示す図であり、(b)は、被写体に最適な音声が再生されるフォトブックの一例を示す図である。
本発明に係る画像ファイル生成方法を実施する本発明の画像ファイル生成装置について、添付の図面に示す好適実施形態に基づいて以下に詳細に説明する。
まず、本発明に係る画像ファイル生成方法における、静止画像に対する最適な音声のタイミングについて説明する。図1(a),(b)は、静止画像と最適な音声のタイミングが略同一の場合の一例を示す説明図である。図1(a)に示す、打ち上げ花火の最適な音声である「ドーン」,「たーまや」など、および図1(b)に示す野球の打撃シーンの最適な音声である、打撃音「キーン」、あるいは空振り後の「ストライク」などは、最適な音声が静止画像に対して略同一のタイミングで動画像ファイルに記録されている。
これに対し、図2(a)〜(c)に示すように動画像で子供を撮影した場合には、最適な静止画像として図2(c)が選択されたとき、最適な音声、つまり子供の音声は異なるタイミング(図2(a)のタイミング)で動画像ファイルに記録されていることがある。また、図2(d)〜(f)に示すように動画像でトラを撮影した場合には、最適な静止画像として図2(e)が選択されたとき、最適な音声、つまりトラの鳴き声は異なるタイミング(図2(f)のタイミング)で動画像ファイルに記録されていることがある。
また、静止画像に対する最適な音声についても、図3(a),(b)に示すように、抽出する最適な音声が人物の声の場合もあれば、図4(a)〜(d)に示すように、抽出する最適な音声が背景およびシーンの音の場合もある。
図5は、本発明の画像ファイル生成装置の構成を表す一実施形態のブロック図である。
図5に示す画像ファイル生成装置10は、動画像読込手段12、静止画像生成手段14、静止画像解析手段16、動画像解析手段18、および音声付き静止画像生成手段20を有する。
動画像読込手段12では、デジタルビデオカメラ等で撮影され、MPEG−2(Moving Picture Experts Group),H.264等の形式でメモリーカード等に保存された動画像ファイルがメモリーカード等から読み込まれて取得され、動画像ファイルが出力される。なお、動画像ファイルの読み込みはメモリーカードに限られず、デジタルビデオカメラ等が直接接続されて読み込まれてもよいし、通信回線を介して読み込まれてもよい。
静止画像生成手段14には、動画像読込手段12から出力された動画像ファイルが入力される。静止画像生成手段14では、編集者により静止画像にしたい場面が動画像から選択され、当該選択された静止画像が静止画像ファイルとして生成され出力される。なお、編集者の選択によらず、例えば、画像認識技術により、自動的に人物または特定の被写体が写っている場面が静止画像ファイルとして生成され、出力されるようにしてもよい。
静止画像解析手段16には、静止画像生成手段14から出力された静止画像ファイルが入力される。静止画像解析手段16では、入力された静止画像ファイルに対して顔検出により主要被写体である人物の検出が行われ、検出された人物の大きさが所定値以上(例えば、顔の大きさが、入力された静止画像の短辺の1/6〜1/7程度の長さである正方形の大きさ等)であれば、人物の音声を重視するモード(人物モード)とされ、人物が検出されないか、人物の大きさが所定値未満である場合には、背景またはシーンの音を重視するモード(背景モード)とされる。静止画像解析手段16からは、解析が行われた静止画像ファイル、および、上記人物モードであるか背景モードであるかを表す音声モード情報が出力される。
なお、静止画像ファイルに対する顔検出技術は既存の技術を適用することができる。
動画像解析手段18には、動画像読込手段12から出力された動画像ファイルと、静止画像解析手段16から出力された音声モード情報が入力される。動画像解析手段18では、まず、入力された動画像ファイルについて、同一イベントまたは同一シーンの範囲が検出される。同一イベントまたは同一シーンの範囲は、撮影日時および画像解析等により検出することができる。
次に、入力された音声モード情報が人物モードである場合には、動画像ファイルのうち同一イベントまたは同一シーン内について、当該人物の口の形状および音声が解析され、口を大きく開け、かつ音量の大きいタイミング(つまり、声を出しているかを判別)があれば、そのタイミングが抽出タイミングとされ、口を大きく開けた場面がない場合には、表情の解析が行われ、笑顔かつ音量の大きいタイミング(つまり、表情があるときに発せられた声であるかを判別)が抽出タイミングとされる。
なお、ここで、笑顔が検出できない場合は、例えば、びっくりした顔等、表情に何らかの変化があった場面が抽出タイミングとされてもよいし、音量の変化する場面が検出されて抽出タイミングとされてもよい。
入力された音声モード情報が背景モードである場合には、動画像ファイルのうち同一イベント内について、ズームが行われた場面があるときは、そのタイミングが抽出タイミングとされ、ズームが行われた場面がないときは、音声解析が行われ、音量の急な変化が発生した場面が抽出タイミングとされる。
動画像解析手段18からは、上記のそれぞれの抽出タイミングのうち、いずれかの抽出タイミングで音声抽出が行われ、抽出音声が出力される。
音声付き静止画像生成手段20には、静止画像解析手段16から出力された静止画像ファイルと、動画像解析手段18から出力された抽出音声が入力され、抽出音声が静止画像ファイルと関連付けられて、音声付き静止画像ファイルとして出力される。
音声付き静止画像生成手段20から出力された音声付き静止画像ファイルは、図示しない記憶手段に音声付き静止画像ファイルとして記憶される。記憶手段に記憶された音声付き静止画像ファイルは、図示しないメモリーカード等にコピーすることで、メモリーカードが装着されたフォトフレームで音声付き静止画像を観賞したり、図示しないフォトブック作製装置にメモリーカードを読み込ませ、音声付きのフォトブックを作製することができる。なお、フォトフレームやフォトブック作製装置に対して通信回線により、音声付き静止画像ファイルを送信してもよい。
次に、本発明に係る画像ファイル生成方法を実現する本発明の画像ファイル生成装置の動作を説明する。
図6は、本発明に係る画像ファイル生成方法の一例のフローチャートを示す。
まず、動画像読込手段12により、デジタルビデオカメラ等で撮影された動画像ファイルが、メモリーカード等を介して動画像ファイルとして読み込まれる(ステップS100)。読み込まれた動画像ファイルは、静止画像生成手段14に入力され、編集者により静止画像にしたい場面が動画像から選択され、当該選択された静止画像にしたい場面が抽出され、静止画像ファイルとして生成され出力される。
静止画像生成手段14から出力された静止画像ファイルは、静止画像解析手段16に入力され、顔検出により主要被写体である人物の検出が行われる(ステップS104)。人物が検出され(ステップS104で“Y”)、検出された人物の大きさが所定値(閾値)以上であれば(ステップS106で“Y”)、人物モードとされる(ステップS110)。人物が検出されないか(ステップS104で“N”)、人物の大きさが所定値未満である場合には(ステップS106で“N”)、背景モードとされる(ステップS108)。静止画像解析手段16からは、解析が行われた静止画像ファイル、および、上記人物モードであるか背景モードであるかを表す音声モード情報が出力される。
静止画像解析手段16から出力された音声モード情報、および動画像読込手段12から出力された動画像ファイルは、動画像解析手段18に入力され、動画像ファイルについて同一イベントまたは同一シーンの範囲が検出される。入力された音声モード情報が人物モードである場合には(ステップS110)、動画像ファイルについて次のように解析が行われ、抽出タイミングが決定される。
まず、動画像ファイルのうち同一イベント内について、口の形状が解析され、つまり口を大きく開けている場面があるか解析される(ステップS114)。口を大きく開けていれば(ステップS114で“Y”)、音声解析が行われ(ステップS116)、口を大きく開け、かつ音量の大きいタイミングが抽出タイミングとされる。
例えば、図7(a)に示す静止画像が選択された場合、動画像ファイルが解析され、口を大きく開けている場面(図7(b))が検出される。図7(b)の場面は、子供が何か喋っているため(人物の拡大図;図7(c)参照)、音量が大きいタイミングでもあり、図7(b)のタイミングが抽出タイミングとされる。
動画像ファイルのうち同一イベント内に、口を大きく開けている場面がない場合(ステップS114で“N”)、表情の解析が行われる(ステップS118)。笑顔である場合には(ステップS118で“Y”)、音声解析が行われ(ステップS120)、笑顔かつ音量の大きいタイミングが抽出タイミングとされる。なお、口を大きく開け、笑顔であり、かつ音量の大きいタイミングが抽出タイミングとされてもよい。
笑顔でない場合には(ステップS118で“N”)、音声解析が行われ(ステップS122)、音量の変化する場面が検出されて抽出タイミングとされる(ステップS128)。
入力された音声モード情報が背景モードである場合には(ステップS108)、動画像ファイルのうち同一イベント内について、ズームが行われた場面があるときは(ステップS124で“Y”)、そのタイミングが抽出タイミングとされる。
例えば、動画像において、図7(d)から図7(e)へとズームが行われた場合、ズームが行われた直後を抽出タイミングとすることができる。
ズームが行われた場面がないときは(ステップS124で“N”)、音声解析が行われ(ステップS126)、音量の急な変化が発生した場面が検出されて抽出タイミングとされる(ステップS128)。
例えば、図8(a)に示す静止画像を含む同一イベント内の動画像ファイルには、列車がまだ来ていない状態から、列車が近づいてきて通り過ぎるまでが収録されているとすると、音量の変化が大きい場面である、列車が近づいてきて通り過ぎるまでの音が抽出されるように、抽出タイミングが決定される。
また、図8(b)に示す静止画像には、当該静止画像を含む同一イベント内の動画像ファイルから、音量の変化が大きい場面であるトラの鳴き声(吠える音)が抽出されるように、抽出タイミングが決定される。さらに他の例では、図8(c)に示す静止画像には、当該静止画像を含む同一イベント内の動画像ファイルから、音量の変化が大きい場面である波の音が抽出されるように、抽出タイミングが決定される。
しかし、動画像中に、大きな音の変化がない場合もある。
例えば、図9(a)に示す静止画像には滝が撮影されているが、滝の音は常に一定の音が流れていて、音量の急な変化がない。このような場合には、当該静止画像を含む同一イベント内の動画像ファイルから、最も大きな音声を含む所定の範囲が抽出されるように、抽出タイミングが決定される。これにより、例えば、図9(a)に示す静止画像に対して、滝の音を関連付けることができる。
さらに、動画像中に、ほとんど音がない場合もある。
例えば、図9(b)に示す静止画像には花が撮影されているが、通常、関連する音はほとんどないと考えられる。このような場合は、図9(a)の例と同様に、当該静止画像を含む同一イベント内の動画像ファイルから、最も大きな音声を含む所定の範囲が抽出されるように、抽出タイミングが決定されてもよいし、予め決定された音声を関連付けてもよいし、あるいは、音声を関連付けないと決定されてもよい。
動画像解析手段18からは、上記のそれぞれの抽出タイミングのうち、いずれかの抽出タイミングで音声抽出が行われ(ステップS130)、抽出音声が出力される。
静止画像解析手段16から出力された静止画像ファイルと、動画像解析手段18から出力された抽出音声は、音声付き静止画像生成手段20に入力され、抽出音声が静止画像ファイルと関連付けられて、音声付き静止画像ファイルが生成され出力される(ステップS132)。
音声付き静止画像生成手段20から出力された音声付き静止画像ファイルは、図示しない記憶手段に音声付き静止画像ファイルとして保存される(ステップS134)。
保存された音声付き静止画像ファイルは、メモリーカードや通信回線等で自在にコピー等を行うことができ、様々に活用することができる。
例えば、図10(a)に示すように、音声付き静止画像ファイルがコピーされたメモリーカードをフォトフレームに装着することで、音声付き静止画像を観賞することができる。また、フォトフレームに限られず、PC(Personal Computer)、携帯電話、テレビ等の音声付き静止画像ファイルを再生することができるものであれば、いずれでも音声付き静止画像を観賞することができる。
さらに、図10(b)に示すように、音声付き静止画像ファイルがコピーされたメモリーカードを、図示しないフォトブック作製装置に読み込ませることで、音声付きのフォトブックを作製することができる。
なお、本発明においては、上述した画像ファイル生成方法の各工程をコンピュータに実行させるための画像ファイル生成プログラムとして構成しても良いし、また、コンピュータを、画像ファイル生成方法の各工程を実施する各手段として、または、上述した画像ファイル生成装置を構成する各手段として機能させる画像ファイル生成プログラムとして構成しても良い。
また、本発明を、上述した画像ファイル生成プログラムをコンピュータにより読取可能な媒体またはコンピュータにより読取可能なメモリとして構成してもよい。
以上、本発明の画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置について詳細に説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、各種の改良や変更を行ってもよい。
10 画像生成装置
12 動画像読込手段
14 静止画像生成手段
16 静止画像解析手段
18 動画像解析手段
20 音声付き静止画像生成手段

Claims (13)

  1. 動画像ファイルから音声付き静止画像ファイルを生成するための画像ファイル生成方法であって、
    動画像ファイルを読み込むステップと、
    読み込まれた前記動画像ファイルから選択された静止画像を抽出して静止画像ファイルを生成するステップと、
    前記生成された静止画像ファイルを解析し、音声モード情報を生成するステップと、
    前記音声モード情報によって前記動画像ファイルの解析方法を変更し、変更された前記解析方法により前記動画像ファイルを解析するステップと、
    前記音声モード情報、および前記動画像ファイルの解析結果から、前記生成された静止画像ファイルに最適な音声の抽出タイミングを決定するステップと、
    前記抽出タイミングで前記動画像ファイルから前記最適な音声を抽出するステップと、
    前記生成された静止画像ファイルと前記最適な音声を関連付けて音声付き静止画像ファイルを生成するステップと、を有することを特徴とする画像ファイル生成方法。
  2. 前記生成された静止画像ファイルの解析は、
    前記生成された静止画像ファイルに人物が撮影されているか検出するステップと、
    前記人物の大きさを検出し、所定の値以上であれば、前記人物の音声を重視して前記動画像ファイルを解析するステップと、を有することを特徴とする請求項1に記載の画像ファイル生成方法。
  3. 前記人物の検出は、顔検出によって検出することを特徴とする請求項2に記載の画像ファイル生成方法。
  4. 前記人物の大きさは、前記顔検出によって検出された顔の大きさ、および位置のうち1以上から求めることを特徴とする請求項3に記載の画像ファイル生成方法。
  5. 前記抽出タイミングは、前記生成された静止画像ファイルと同一のイベント内であることを特徴とする請求項1〜4のいずれかに記載の画像生成方法。
  6. 前記抽出タイミングは、音量の急な変化が発生したタイミングであることを特徴とする請求項5に記載の画像ファイル生成方法。
  7. 前記抽出タイミングは、ズームが行われたタイミングであることを特徴とする請求項5に記載の画像ファイル生成方法。
  8. 前記抽出タイミングは、前記生成された静止画像ファイルと同一のイベント内であり、前記顔検出により検出された前記顔の口の形状を解析し、口を大きく開け、かつ音量の大きいタイミングであることを特徴とする請求項3または4に記載の画像ファイル生成方法。
  9. 前記抽出タイミングは、前記生成された静止画像ファイルと同一のイベント内であり、前記顔検出により検出された前記顔の表情を判定し、笑顔かつ音量の大きいタイミングであることを特徴とする請求項3または4に記載の画像ファイル生成方法。
  10. 前記抽出タイミングは、前記生成された静止画像ファイルと同一のシーン内であることを特徴とする請求項1〜4のいずれかに記載の画像ファイル生成方法。
  11. 請求項1〜10のいずれかに記載の画像ファイル生成方法の各工程を手順としてコンピュータに実行させるためのプログラム。
  12. 請求項11に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  13. 動画像ファイルから音声付き静止画像ファイルを生成するための画像ファイル生成装置であって、
    動画像ファイルを読み込む動画像読込手段と、
    読み込まれた前記動画像ファイルから選択された静止画像を抽出して静止画像ファイルを生成する静止画像生成手段と、
    前記生成された静止画像ファイルを解析し、音声モード情報を生成する静止画像解析手段と、
    前記音声モード情報によって前記動画像ファイルの解析方法を変更し、変更された前記解析方法により前記動画像ファイルを解析し、前記音声モード情報、および前記動画像ファイルの解析結果から、前記生成された静止画像ファイルに最適な音声の抽出タイミングを決定し、前記抽出タイミングで前記動画像ファイルから前記最適な音声を抽出する動画像解析手段と、
    前記生成された静止画像ファイルと前記最適な音声を関連付けて音声付き静止画像ファイルを生成する音声付き静止画像生成手段と、を有することを特徴とする画像ファイル生成装置。
JP2009227975A 2009-09-30 2009-09-30 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置 Active JP5389594B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009227975A JP5389594B2 (ja) 2009-09-30 2009-09-30 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009227975A JP5389594B2 (ja) 2009-09-30 2009-09-30 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置

Publications (2)

Publication Number Publication Date
JP2011077883A JP2011077883A (ja) 2011-04-14
JP5389594B2 true JP5389594B2 (ja) 2014-01-15

Family

ID=44021366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009227975A Active JP5389594B2 (ja) 2009-09-30 2009-09-30 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置

Country Status (1)

Country Link
JP (1) JP5389594B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149548B (zh) * 2018-09-26 2022-06-21 腾讯科技(深圳)有限公司 视频配音方法、电子装置和可读存储介质
JP7353057B2 (ja) * 2019-03-29 2023-09-29 東京瓦斯株式会社 記録システムおよびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3733984B2 (ja) * 1997-01-29 2006-01-11 富士ゼロックス株式会社 情報蓄積装置および情報蓄積方法
JP4292627B2 (ja) * 1999-06-07 2009-07-08 ソニー株式会社 動画像記録再生装置および方法、並びに記録媒体
JP4801251B2 (ja) * 2000-11-27 2011-10-26 株式会社アサカ 映像/音声ずれ補正方法及び装置
JP4226237B2 (ja) * 2001-09-11 2009-02-18 日本放送協会 漫画生成装置及び漫画生成プログラム
JP2007336283A (ja) * 2006-06-15 2007-12-27 Toshiba Corp 情報処理装置、情報処理方法および情報処理プログラム
JP2008022246A (ja) * 2006-07-12 2008-01-31 Nikon Corp デジタルカメラ
JP2008165700A (ja) * 2007-01-05 2008-07-17 Seiko Epson Corp 画像処理装置、電子機器、画像処理システム、画像処理方法、および、プログラム
JP2008205846A (ja) * 2007-02-20 2008-09-04 Canon Inc 画像処理装置、方法、及びコンピュータプログラム
JP5273042B2 (ja) * 2007-05-25 2013-08-28 日本電気株式会社 画像音響区間群対応付け装置と方法およびプログラム
JP2009278202A (ja) * 2008-05-12 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2011077883A (ja) 2011-04-14

Similar Documents

Publication Publication Date Title
JP4896838B2 (ja) 撮像装置、画像検出装置及びプログラム
KR100856407B1 (ko) 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
JP5144424B2 (ja) 撮像装置及び情報処理方法
CN104580888B (zh) 一种图像处理方法及终端
JP2010536239A (ja) 捕捉画像用音声メタデータの記録
WO2009075754A1 (en) Recording audio metadata for stored images
JP2016189158A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2009141555A (ja) 音声入力機能付き撮像装置及びその音声記録方法
JP2010237761A (ja) 電子機器
JP4968346B2 (ja) 撮像装置、画像検出装置及びプログラム
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
JP4429081B2 (ja) 情報処理装置及び情報処理方法
JP2009239348A (ja) 撮影装置
JP6081788B2 (ja) 動画像処理装置及び動画像処理方法
JP2006121661A (ja) 合成画像作成方法、合成画像作成装置、およびプログラム
JP2010200079A (ja) 撮影制御装置
JP2009239349A (ja) 撮影装置
JP6166070B2 (ja) 再生装置および再生方法
JP2005175839A (ja) 画像表示装置、画像表示方法、プログラムおよび記憶媒体
JP4228673B2 (ja) 映像処理装置、映像処理方法及びプログラム
JP5182507B2 (ja) 撮影装置、撮影案内方法、及びプログラム
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP4295540B2 (ja) 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置
JP2017211995A (ja) 再生装置、再生方法、再生プログラム、音声要約装置、音声要約方法および音声要約プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131009

R150 Certificate of patent or registration of utility model

Ref document number: 5389594

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250