JP2011019000A - 情報処理装置、音声選択方法及びそのプログラム - Google Patents
情報処理装置、音声選択方法及びそのプログラム Download PDFInfo
- Publication number
- JP2011019000A JP2011019000A JP2009160953A JP2009160953A JP2011019000A JP 2011019000 A JP2011019000 A JP 2011019000A JP 2009160953 A JP2009160953 A JP 2009160953A JP 2009160953 A JP2009160953 A JP 2009160953A JP 2011019000 A JP2011019000 A JP 2011019000A
- Authority
- JP
- Japan
- Prior art keywords
- image
- sound
- type
- control unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】画像の再生とともに、当該画像に一段と適した音声の再生を可能とする。
【解決手段】DSC100の制御部110が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン104から入力された音声の種別に基づいて選択するようにしたことにより、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして画像の再生とともに当該画像に一段と適した音声の再生を行うことができる。
【選択図】図11
【解決手段】DSC100の制御部110が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン104から入力された音声の種別に基づいて選択するようにしたことにより、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして画像の再生とともに当該画像に一段と適した音声の再生を行うことができる。
【選択図】図11
Description
本発明は、情報処理装置、音声選択方法及びそのプログラムに関し、例えば、スライドショー形式で複数の画像を再生するとともに音声を再生する際に適用して好適なものである。
近年、デジタルスチルカメラやパーソナルコンピュータ、HDD(Hard Disc Drive)レコーダ、ゲーム機などの情報処理装置では、デジタルスチルカメラで撮影された画像をスライドショー形式で再生できるものがある。尚デジタルスチルカメラを、以下、DSCとも呼ぶ。
このような情報処理装置において、画像をスライドショー形式で再生するとともに、効果音やBGM(Back Ground Music)などの音声を再生するものが提案されている。
例えば、画像の再生とともに、当該画像が撮影された日時及び場所に基づいてBGMを自動で選択して再生する情報処理装置が提案されている(例えば特許文献1参照)。
ところで、同じ日時且つ同じ場所で撮影された画像であっても、撮影時の状況が異なっている場合がある。
例えば真夏に海の近くで撮影した場合であっても、静かな砂浜で海を撮影した状況と、スイカ割りをして盛り上がっている場面を撮影した状況とでは、明らかに撮影時の状況が異なる。
しかしながら上述した情報処理装置では、このように撮影時の状況が異なっていても同じ日時且つ同じ場所で撮影された画像であれば、同じBGMを出力することしかできない。
つまり従来の情報処理装置は、必ずしも画像の撮影時の状況に合った音声の再生ができるとはいえず、結果として、必ずしも画像に適した音声の再生が可能であるとは言えなかった。
本発明は以上の点を考慮してなされたもので、画像の再生とともに、当該画像に一段と適した音声の再生を可能とする情報処理装置、音声選択方法及びそのプログラムを提案しようとするものである。
かかる課題を解決するため本発明の情報処理装置においては、画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択する制御部を設けるようにした。
こうすることで、本発明の情報処理装置は、例えば自然の音が聞こえる状況で撮影された画像とともに自然をテーマにしたBGMを再生させたり、笑い声が聞こえる状況で撮影された画像とともに笑い声の効果音を再生させたりすることができる。つまり、本発明の情報処理装置は、画像とともに、当該画像の撮影時の状況に合った音声を再生部に再生させることができる。
本発明によれば、画像とともに、当該画像の撮影時の状況に合った音声を再生部に再生させることができる。かくして、画像の再生とともに、当該画像に一段と適した音声の再生を可能とする情報処理装置、音声選択方法及びそのプログラムを実現できる。
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明する。尚、説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.他の実施の形態
1.第1の実施の形態
2.第2の実施の形態
3.他の実施の形態
<1.第1の実施の形態>
[1−1.第1の実施の形態の概要]
まず、第1の実施の形態の概要を説明する。因みにこの概要を説明した後、第1の実施の形態の具体例の説明に移る。
[1−1.第1の実施の形態の概要]
まず、第1の実施の形態の概要を説明する。因みにこの概要を説明した後、第1の実施の形態の具体例の説明に移る。
図1において1は、第1の実施の形態の概要となる情報処理装置の機能構成を示す。この情報処理装置1は、制御部2を有している。制御部2は、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン3から入力された音声の種別に基づいて選択するようになされている。
このような構成により、情報処理装置1は、例えば自然の音が聞こえる状況で撮影された画像とともに自然をテーマにしたBGMを再生させたり、笑い声が聞こえる状況で撮影された画像とともに笑い声の効果音を再生させたりすることができる。
つまり、情報処理装置1は、画像とともに、当該画像の撮影時の状況に合った音声を再生部に再生させることができ、かくして画像の再生とともに、当該画像に一段と適した音声を再生させることができる。
またこのような構成を基本構成とする情報処理装置1に対して、以下のような構成を追加してもよい。
すなわちこの情報処理装置1においては、画像の撮影時にマイクロホン3から入力された音声の種別に基づいて当該画像を分類する分類部4を有していてもよい。
さらにこの情報処理装置1においては、分類部4が当該種別ごとに画像を分類し、制御部2が当該種別ごとに画像を連続して再生部5に再生させると共に、当該種別ごとに音声を選択して再生部5に再生させるようにしてもよい。
さらにこの情報処理装置1においては、撮像部6と、マイクロホン3から入力された音声の種別を認識する認識部7と、撮像部6で撮像した画像と、当該画像の撮影時に認識部7により認識された音声の種別とを関連付けて記録媒体8に記録する記録制御部9とを有していてもよい。この場合、制御部2は、記録媒体8に記録された画像とともに再生させる音声を、当該画像に関連付けられている種別に基づいて選択するようにしてもよい。
このような機能構成でなる情報処理装置1の具体例について、以下、詳しく説明する。
[1−2.DSC(デジタルスチルカメラ)の外観構成]
図2(A)及び(B)において100は、全体として上述した情報処理装置1の具体例であるDSC(デジタルスチルカメラ)を示す。このDSC100は、片手で把持し得る程度の大きさの略扁平矩形状でなる筐体101を有している。この筐体101の前面101Aには、レンズ103とマイクロホン104とが設けられている。
図2(A)及び(B)において100は、全体として上述した情報処理装置1の具体例であるDSC(デジタルスチルカメラ)を示す。このDSC100は、片手で把持し得る程度の大きさの略扁平矩形状でなる筐体101を有している。この筐体101の前面101Aには、レンズ103とマイクロホン104とが設けられている。
また筐体101の上面101Bには、シャッタボタン105が設けられている。さらに筐体2の背面101Cには、液晶ディスプレイ106とスピーカ107と操作ボタン108とが設けられている。
このDSC100は、撮影モード時、レンズ103を介して撮像した被写体の画像をスルー画像として液晶ディスプレイ106に表示する。そしてDSC100は、シャッタボタン105の押下操作に応じて、撮像した画像を記録する。
さらにDSC100は、再生モード時、記録した画像を例えばスライドショー形式で液晶ディスプレイ106に表示する。またDSC100は、画像の表示と共に効果音やBGMをスピーカ107から出力する。
さらにDSC100は、液晶ディスプレイ106にアイコンやボタンなどを表示し、操作ボタン108の押下操作に応じて、動作モードの切り替えなどを行う。
[1−3.DSCのハードウェア構成]
次にDSC100のハードウェア構成について図3を用いて説明する。DSC100は、制御部110が、記憶部111に書き込まれているプログラムを実行することで各種処理を実行すると共に、操作入力部112からの入力信号に応じて各部を制御するようになっている。尚記憶部111は、例えば内蔵のフラッシュメモリなどである。また操作入力部112には、上述したシャッタボタン105及び操作ボタン108が含まれる。
次にDSC100のハードウェア構成について図3を用いて説明する。DSC100は、制御部110が、記憶部111に書き込まれているプログラムを実行することで各種処理を実行すると共に、操作入力部112からの入力信号に応じて各部を制御するようになっている。尚記憶部111は、例えば内蔵のフラッシュメモリなどである。また操作入力部112には、上述したシャッタボタン105及び操作ボタン108が含まれる。
具体的に、制御部110は、操作入力部112を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。
すると撮像部113は、制御部110の制御のもと、上述したレンズ103を介して取り込んだ被写体からの光を撮像素子で電気信号に変換(すなわち光電変換)することで、アナログの画像信号を得る。尚この撮像素子は、例えばCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などである。そして撮像部113は、この画像信号をデジタルの画像信号に変換した後、制御部110に送る。
制御部110は、撮像部113から送られてくる画像信号を表示制御部114に送る。表示制御部114は、この画像信号に所定の処理を施して液晶ディスプレイ106に送る。この結果、液晶ディスプレイ106には、被写体の画像がスルー画像として表示される。こうすることで、DSC100は、撮影者に被写体を確認させることができる。
またこのとき制御部110は、アイコンやボタンなどからなるグラフィックス信号を表示制御部114に送る。表示制御部114は、このグラフィックス信号を、撮像部113から送られてくる画像信号に重畳する。この結果、液晶ディスプレイ106には、スルー画像と共に、アイコンやボタンなどが表示される。
ここで、操作入力部112のシャッタボタン105が押下されると、制御部110は画像を記録する。
すなわち、制御部110は、撮像部113から送られてくる1フレーム分の画像信号を所定の静止画フォーマットで圧縮することで、画像データを生成する。尚、ここでは、所定の静止画フォーマットとして、例えば、JPEG(Joint Photographic Experts Group)フォーマットを利用することとする。
また音声入力処理部115は、制御部110の制御のもと、シャッタボタン105が押下されてから所定時間(例えば5秒間)マイクロホン104から入力される音声信号を、音声データに変換して制御部110に送る。
制御部110は、音声入力処理部115から送られてきた音声データを解析して、入力された音声の種別を認識する。音声の種別とは例えば「波の音」、「川の音」、「鳥の声」、「セミの声」などである。尚、このマイクロホン104から入力された音声の種別を認識する処理については、詳しくは後述する。
そして制御部110は、認識した音声の種別と画像データとを記録制御部116に送る。記録制御部116は、制御部110の制御のもと、送られてきた音声の種別を画像データにメタデータとして付加して画像ファイルPFを生成する。またメタデータには、この他撮影日時なども記される。そして記録制御部116は、画像ファイルPFを記録媒体117に記録する。このようにしてDSC100は、画像を記録する。
因みに記録媒体117は、例えば磁気テープ、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。尚、記録媒体117は、DSC100に予め内蔵された記録媒体であってもよいし、DSC100に着脱可能な記録媒体であってもよい。
また制御部110は、操作入力部112を介して再生モードへ切り換えるよう指示されると、動作モードを再生モードに切り替える。そして制御部110は、操作入力部112を介して指定された画像ファイルPFを記録媒体117から読み出し、この画像ファイルPFから画像データを抽出する。
そして制御部110は、この画像データを圧縮されたときと同一の静止画フォーマットで伸張することで、元の画像信号を得、表示制御部114に送る。表示制御部114は、この画像信号に所定の処理を施して液晶ディスプレイ106に送る。この結果、液晶ディスプレイ106には、画像信号に基づく画像が表示される。このようにしてDSC100は、画像を再生する。
また制御部110は、画像を再生するのに合わせて、効果音やBGMなどの音声データを記憶部111から読み出し、所定のフォーマットで伸張することで音声信号を得、これを音声出力処理部118に送る。
音声出力処理部118は、この音声信号に所定の処理を施してスピーカ107に送る。この結果、画像の表示とともに、この音声信号に基づく音声がスピーカ107から出力される。尚、この画像を再生するとともに効果音やBGMなどの音声を再生する処理については、詳しくは後述する。
因みに、このDSC100の制御部110が、上述した情報処理装置1の制御部2、分類部4、再生部5、認識部7に相当するハードウェアである。またDSC100のマイクロホン104が、上述した情報処理装置1のマイクロホン3に相当するハードウェアである。さらにDSC100の撮像部113が、上述した情報処理装置1の撮像部6に相当するハードウェアである。さらにDSC100の記録媒体117が、上述した情報処理装置1の記録媒体8に相当するハードウェアである。さらにDSC100の記録制御部116が、上述した情報処理装置1の記録制御部9に相当するハードウェアである。
[1−4.音声種別認識処理手順]
上述したようにDSC100は、撮影時にマイクロホン104から入力された音声の種別を認識する音声種別認識処理を行うようになっている。以下、この音声種別認識処理における動作処理手順(これを音声種別認識処理手順とも呼ぶ)について、図4に示すフローチャートを用いて説明する。この音声種別認識処理手順RT1は、DSC100の制御部110が、記憶部111に書き込まれているプログラムに従って実行する処理手順である。
上述したようにDSC100は、撮影時にマイクロホン104から入力された音声の種別を認識する音声種別認識処理を行うようになっている。以下、この音声種別認識処理における動作処理手順(これを音声種別認識処理手順とも呼ぶ)について、図4に示すフローチャートを用いて説明する。この音声種別認識処理手順RT1は、DSC100の制御部110が、記憶部111に書き込まれているプログラムに従って実行する処理手順である。
制御部110は、操作入力部112のシャッタボタン105が押下されたことを認識すると、画像を記録するとともに、音声種別認識処理手順RT1を開始して、ステップSP1に移る。
ステップSP1において制御部110は、シャッタボタン105が押下されてから所定時間マイクロホン104から入力された音声を、音声入力処理部115を介して音声データDとして取得して、次のステップSP2に移る。尚、シャッタボタン105が押下されてからの所定時間のことを音声種別認識期間とも呼ぶ。
ステップSP2において制御部110は、図5に示すように、音声種別認識期間をM等分(例えば12等分)した区間(これを区間Tn(n=1〜M)とも呼ぶ)で音声データDを分割して、次のステップSP3に移る。
因みに音声種別認識期間をL秒とすると、音声データDはL/M(例えばL/12)秒ずつに分割されることとなる。
ステップSP3において制御部110は、区間Tnの音声データD(つまり分割された音声データD)から、例えばMFCC(Mel-frequency Cepstral Coefficient)処理を用いて特徴データを抽出して、次のステップSP4に移る。
ステップSP4において制御部110は、抽出した特徴データと記憶部111に保持されている特徴データベース111A内に格納されている特徴データとを比較し、抽出した特徴データに最も類似する特徴データを検索する。
この特徴データベース111Aには、いろいろな音声の種別の特徴データが予め格納されている。因みに特徴データを比較する方法としては、例えばGMM(Gaussian Mixture Model)やSVM(Support Vector Machine)などの手法を用いることができる。
制御部110は、検索の結果特徴データベース111Aから得られた特徴データに対応する音声の種別を、区間Tnにおける音声の種別として認識して、次のステップSP5に移る。
ステップSP5において制御部110は、全ての区間Tnにおいて音声の種別を認識したか否かを判別する。
このステップSP5において否定結果が得られると、制御部110はステップSP3に戻り、まだ音声の種別を認識していない区間Tnにおいて、音声データDから特徴データを抽出し音声の種別を認識する。つまり、制御部110は、ステップSP3及びSP4を区間Tnの個数分(つまりM回分)繰り返す。
一方ステップSP5において肯定結果が得られると、このことは全ての区間Tnにおいて音声の種別を認識したことを意味し、このとき制御部110は、ステップSP6に移る。
ステップSP6において制御部110は、最も多くの区間Tnで認識された音声の種別を、撮影時にマイクロホン104から入力された音声の種別であると認識する。
例えば図5に示すように各区間Tnにおいて音声の種別が認識されたとする。すなわち区間T1〜T3、T5、T10〜T12において「セミの声」が認識され、区間T4において「鳥の声」が認識され、区間T6〜T9において「笑い声」が認識されたとする。
このとき制御部110は、認識された回数が最も多い「セミの声」を、撮影時にマイクロホン104から入力された音声の種別として認識する。
因みにここでは、「鳥の声」は1回しか認識されておらず、なんらかのノイズの影響で誤認識されてしまったと考えられる。
しかし、最も多くの区間Tnで認識された音声の種別を、撮影時に入力された音声の種別として認識することにより、一部の区間Tnにおいて音声の種別を誤認識したとしても、撮影時に入力された音声の種別を誤認識するのを防ぐことができる。
このように制御部110は、撮影時にマイクロホン104から入力された音声の種別(例えば「セミの声」)を認識し、この音声の種別を記録制御部116に送って、次のステップSP7に移る。
ステップSP7において制御部110は、記録制御部116に、音声の種別を画像データにメタデータとして付加させ、画像ファイルPFを生成させる。すなわち記録制御部116は、図6に示すように、画像ファイルPFのメタデータ領域に音声の種別を記す。
そして制御部110は、記録制御部116に、この画像ファイルPFを記録媒体117に記録させ、音声種別認識処理手順RT1を終了する。
このような音声種別認識処理手順RT1により、DSC100は、画像の撮影時にマイクロホン104から入力された音声の種別を認識し、この音声の種別を当該画像と関連付けて記録媒体117に記録するようになっている。
[1−5.分類表示処理手順]
またDSC100は、撮影時に入力された音声の種別に基づいて画像を分類して表示する分類表示処理を行うようになっている。以下、この分類表示処理における動作処理手順(これを分類表示処理手順とも呼ぶ)について図7に示すフローチャートを用いて説明する。この分類表示処理手順RT2は、DSC100の制御部110が、記憶部111に書き込まれているプログラムに従って実行する処理手順である。
またDSC100は、撮影時に入力された音声の種別に基づいて画像を分類して表示する分類表示処理を行うようになっている。以下、この分類表示処理における動作処理手順(これを分類表示処理手順とも呼ぶ)について図7に示すフローチャートを用いて説明する。この分類表示処理手順RT2は、DSC100の制御部110が、記憶部111に書き込まれているプログラムに従って実行する処理手順である。
制御部110は、操作入力部112を介して再生モードへ切り換えるよう指示されると、動作モードを再生モードに切り換えるとともに、分類表示処理手順RT2を開始して、ステップSP101に移る。
ステップSP101において制御部110は、図8に示すように、画像を分類して表示する際の条件をユーザに指定させる分類メニュー画面MGを、液晶ディスプレイ106に表示させる。
具体的に分類メニュー画面MGには、分類の対象とする画像の条件(これを対象画像条件とも呼ぶ)を指定するためのプルダウンメニューPM1が設けられる。対象画像条件は、プルダウンメニューPM1により、「全て」又は「月日指定」のいずれかを、操作入力部112を介してユーザが指定できるようになされる。
制御部110は、対象画像条件が「全て」に指定された場合、記録媒体117に記録されている全ての画像を分類の対象とする。
一方制御部110は、対象画像条件が「月日指定」に指定された場合、ユーザに指定された月日に記録された画像を分類の対象とする。
また分類メニュー画面MGには、表示させる画像の大分類の条件(これを大分類条件とも呼ぶ)を指定するためのプルダウンメニューPM2が設けられる。
大分類とは、似たような音声の種別をグルーピングしたものである。例えば、音声の種別が「波の音」、「川の音」などである画像は、大分類「自然」に分類され、音声の種別が「笑い声」、「歓声」などである画像は、大分類「盛り上り」に分類される。
大分類条件は、プルダウンメニューPM2により、「自然」又は「盛り上り」のいずれかを、操作入力部112を介してユーザが指定できるようになされる。
制御部110は、分類メニュー画面MGにおいてOKボタンOBが選択されると、ユーザの指定に基づいて対象画像条件及び大分類条件を設定し、次のステップSP102に移る。
ステップSP102において制御部110は、記憶部111に保持された分類テーブル111Bから、設定した大分類条件に対応する音声の種別を取得して、次のステップSP103に移る。
具体的に図9に、分類テーブル111Bの例を示す。分類テーブル111Bにおいて、各大分類には、複数の音声の種別が対応づけられている。例えば、大分類「自然」には、「波の音」、「川の音」、「鳥の声」、「セミの声」といった音声の種別が対応づけられている。また例えば、大分類「盛り上り」には、「笑い声」、「歓声」、「拍手」といった音声の種別が対応づけられている。
ゆえに制御部110は、設定した大分類条件が例えば「自然」である場合、分類テーブル111Bに基づいて、「波の音」、「川の音」、「鳥の声」、「セミの声」という音声の種別を取得する。
ステップSP103において制御部110は、取得した音声の種別をメタデータに含む画像ファイルPFを、設定した対象画像条件において分類の対象となる画像ファイルPFの中から検索する。
ここで、制御部110が取得した音声の種別が、例えば「波の音」、「川の音」、「鳥の声」、「セミの声」であるとする。この場合、制御部110は、音声の種別が「波の音」である画像ファイルPF、音声の種別が「川の音」である画像ファイルPF、音声の種別が「鳥の声」である画像ファイルPF、音声の種別が「セミの声」である画像ファイルPFをそれぞれ検索する。
そして制御部110は、検索の結果得られた画像ファイルPFの中から画像データを抽出して、次のステップSP104に移る。
ステップSP104において制御部110は、抽出した画像データをもとに、図10に示すような分類表示画面BGを生成し、表示制御部114を介して液晶ディスプレイ106に表示させる。
具体的に制御部110は、分類表示画面BGに、設定した大分類条件を示す大分類名CNと、その大分類に対応する音声の種別を示す音声種別名MNとを表示させる。
例えば、制御部110は、設定した大分類条件が「自然」である場合、大分類名CNとして「自然」を表示させ、その下側に、音声種別名MNである「波の音」、「川の音」、「鳥の声」、「セミの声」を表示させる。
また制御部110は、抽出した各画像データに基づく画像を縮小したサムネイル画像Th(Th1、Th2、・・・、Thn)を生成する。そして制御部110は、サムネイル画像Thを音声の種別ごとにまとめたサムネイル群Thgを、音声種別名MNの下側近傍に表示させる。
例えば、制御部110は、音声種別名MNである「川の音」の下側には、音声の種別が「川の音」である画像のサムネイル画像Thのサムネイル群Thgを表示させる。
同様に制御部110は、音声種別名MN「波の音」の下側には音声の種別が「波の音」であるサムネイル群Thg、音声種別名MN「鳥の声」の下側には音声の種別が「鳥の声」であるサムネイル群Thg、音声種別名MN「セミの声」の下側には音声の種別が「セミの声」であるサムネイル群Thgを表示させる。
つまり制御部110は、大分類ごとに分類された画像を、さらに音声の種別ごとに分類して液晶ディスプレイ106に表示させるようになされている。
このように制御部110は、分類表示画面BGを液晶ディスプレイ106に表示させ、分類表示処理手順RT2を終了する。
上述したような分類表示処理手順RT2により、DSC100は、音声の種別に基づいて画像を分類して表示させるようになっている。
[1−6.画像音声再生処理手順]
さらにDSC100は、画像をスライドショー形式で再生するとともに、当該画像の撮影時に入力された音声の種別に基づいて音声を選択して再生する画像音声再生処理を行うようになっている。以下、この画像音声再生処理における動作処理手順(これを画像音声再生処理手順とも呼ぶ)について図11に示すフローチャートを用いて説明する。この画像音声再生処理手順RT3は、DSC100の制御部110が、記憶部111に書き込まれているプログラムに従って実行する処理手順である。
さらにDSC100は、画像をスライドショー形式で再生するとともに、当該画像の撮影時に入力された音声の種別に基づいて音声を選択して再生する画像音声再生処理を行うようになっている。以下、この画像音声再生処理における動作処理手順(これを画像音声再生処理手順とも呼ぶ)について図11に示すフローチャートを用いて説明する。この画像音声再生処理手順RT3は、DSC100の制御部110が、記憶部111に書き込まれているプログラムに従って実行する処理手順である。
制御部110は、例えば分類表示画面BGに表示されている画像の中からスライドショー形式で再生する画像がユーザに指定されると、画像音声再生処理手順RT3を開始して、ステップSP201に移る。
例えば、DSC100では、ユーザが操作入力部112を介して分類表示画面BG(図8)に表示されている大分類名CNを選択すると、その大分類名CNが示す大分類に分類された画像を、再生する画像として指定できるようになされている。
またDSC100では、ユーザが操作入力部112を介して分類表示画面BGに表示されている音声種別名MNを選択すると、その音声種別名MNが示す音声の種別に分類された画像を、再生する画像として指定できるようになされている。
ステップSP201において制御部110は、このようなユーザの指定に基づいてスライドショー形式で再生する画像を設定し、次のステップSP202に移る。
ステップSP202において制御部110は、図12に示すように、画像をスライドショー形式で再生する際の条件をユーザに指定させるためのスライドショー設定メニュー画面SGを液晶ディスプレイ106に表示させる。
具体的にスライドショー設定メニュー画面SGには、スライドショー時に効果音を再生するか否かを選択する条件(これを効果音条件とも呼ぶ)を指定するためのプルダウンメニューPM3が設けられる。効果音条件は、プルダウンメニューPM3により、「有り」(効果音を再生する)又は「無し」(効果音を再生しない)のいずれかを、操作入力部112を介してユーザが指定できるようになされる。
またスライドショー設定メニュー画面SGには、スライドショー時にBGMを再生するか否かとBGMの指定方法を選択する条件(これをBGM条件とも呼ぶ)を指定するためのプルダウンメニューPM4が設けられる。BGM条件は、プルダウンメニューPM4により、「自動」(DSC100が自動で選択したBGMを再生する)、「ユーザ指定」(ユーザが指定したBGMを再生する)、「無し」(BGMを再生しない)のいずれかを、操作入力部112を介してユーザが指定できるようになされる。
制御部110は、スライドショー設定メニュー画面SGにおいてOKボタンOBが選択されると、ユーザの指定に基づいて効果音条件及びBGM条件を設定し、次のステップSP203に移る。
ステップSP203において制御部110は、効果音条件が「有り」又は「無し」のどれに設定されているかを判別する。
このステップSP203において効果音条件が「有り」と設定されていると判別されると、このことはスライドショー時に効果音を再生することを意味し、このとき制御部110はステップSP204に移る。
ステップSP204において制御部110は、分類テーブル111B(図8)から、再生するよう設定された画像に関連付けられている音声の種別に対応付けられている効果音を取得する。
例えば再生するよう設定された画像の音声の種別が「波の音」であったとする。このとき制御部110は、分類テーブル111Bから、「波の音」に対応付けられている効果音「波の音」を取得する。尚、効果音「波の音」は、記憶部111に保持されている効果音データベース111Cに格納されている波の音の効果音のデータを示している。
そして制御部110は、取得した効果音をスライドショー時に再生する効果音として選択して、次のステップSP205に移る。
一方ステップSP203において効果音条件が「無し」と設定されていると判別されると、このことはスライドショー時に効果音を再生しないことを意味し、このとき制御部110はステップSP205に移る。
ステップSP205において制御部110は、BGM条件が「自動」又は「ユーザ指定」又は「無し」のどれに設定されているかを判別する。
このステップSP205においてBGM条件が「自動」と設定されていると判別されると、このことはスライドショー時に再生するBGMをDSC100が自動で選択することを意味し、このとき制御部110はステップSP206に移る。
ステップSP206において制御部110は、分類テーブル111Bから、画像の大分類に対応付けられているBGMを取得する。
例えば再生するよう設定された画像に関連付けられている音声の種別が「波の音」であったとすると、その画像の大分類は、「自然」となる。このとき制御部110は、分類テーブル111Bから、大分類「自然」に対応付けられているBGM「自然」を取得する。尚、BGM「自然」は、記憶部111に保持されているBGMデータベース111Dに格納されている自然をイメージしたBGMのデータを示している。
そして制御部110は、取得したBGMをスライドショー時に再生するBGMとして選択して、次のステップSP208に移る。
一方ステップSP205においてBGM条件が「ユーザ指定」と設定されていると判別されると、このことはスライドショー時に再生するBGMをユーザが指定することを意味し、このとき制御部110はステップSP207に移る。
ステップSP207において制御部110は、BGMデータベース111Dに格納されているBGMの中から、スライドショー時に再生するBGMをユーザに指定させるためのBGM指定画面(図示せず)を液晶ディスプレイ106に表示させる。そして制御部110は、操作部112を介してユーザにより指定されたBGMをスライドショー時に再生するBGMとして選択して、次のステップSP208に移る。
また一方ステップSP205においてBGM条件が「無し」と設定されていると判別されると、このことはスライドショー時にBGMを再生しないことを意味し、このとき制御部110はステップSP208に移る。
ステップSP208において制御部110は、画像をスライドショー時に再生する音声(これをスライドショー用音声とも呼ぶ)を生成する。
例えば、スライドショー形式で再生する画像として、図13に示すように、音声の種別が「波の音」の画像が4枚、「川の音」の画像が3枚、「鳥の声」の画像が2枚、「セミの声」の画像が3枚設定されている場合について説明する。
制御部110は、スライドショー時に再生する効果音を選択した場合、記憶部111に保持されている効果音データベース111Cから、選択した効果音のデータを読み出す。ここでは、制御部110は、効果音「波の音」、効果音「川の音」、効果音「鳥の声」、効果音「セミの声」のデータを読み出す。
なお制御部110は、スライドショーにおいて画像をそれぞれの音声の種別ごとに連続して再生するようになされている。例えば最初に、音声の種別が「波の音」の画像を4枚連続して再生した後、音声の種別が「川の音」の画像を3枚連続して再生する。その後、音声の種別が「鳥の声」の画像を2枚連続して再生した後、音声の種別が「セミの声」の画像を3枚連続して再生する。
ゆえに制御部110は、音声の種別が「波の音」の画像を再生している間は効果音「波の音」を再生できるよう、効果音「波の音」のデータを繰り返しつなぎあわせて、スライドショー用の効果音「波の音」のデータを生成する。
同様にして、効果音「川の音」、「鳥の声」、「セミの声」のデータについても、それぞれに対応する画像の再生時間に合わせて繰り返しつなぎあわせて、スライドショー用の効果音「川の音」、「鳥の声」、「セミの声」のデータを生成する。
そして制御部110は、スライドショー形式で画像が再生される順番に合わせて、スライドショー用の効果音「波の音」、「川の音」、「鳥の声」、「セミの声」のデータを順につなぎ合わせる。尚制御部110は、効果音の切り替わり目でノイズを発生させないよう、手前の効果音の終わりにはフェードアウト、後の効果音の始めにはフェードインの処理を施す。
このようにして制御部110は、スライドショー用の効果音のデータを生成する。尚、スライドショー時に再生するBGMを選択していない場合は、これがスライドショー用音声のデータとなる。
一方制御部110は、スライドショー時に再生するBGMを選択した場合、記憶部111に保持されているBGMデータベース111Dから、選択したBGMのデータを読み出す。ここでは、制御部110は、BGM「自然」のデータを読み出す。
制御部110は、スライドショー形式で画像を再生している間は、BGM「自然」を再生できるよう、BGM「自然」のデータを繰り返しつなぎあわせて、スライドショー用のBGMのデータを生成する。尚、スライドショー時に再生する効果音を選択していない場合は、これがスライドショー用音声のデータとなる。
さらに制御部110は、効果音及びBGMの両方をスライドショー時に再生するよう選択した場合は、生成したスライドショー用の効果音のデータ及びBGMのデータを合成(すなわちミックス)して、スライドショー用音声のデータを生成する。
尚制御部110は、効果音及びBGMのいずれもスライドショー時に再生しないよう設定した場合は、スライドショー用音声を生成しない。
このように制御部110は、スライドショー時に再生する効果音やBGMを選択した場合、スライドショー用音声を生成して、次のステップSP209に移る。
ステップSP209において制御部110は、画像をスライドショー形式で再生するとともに、スライドショー用音声を再生して、画像音声再生処理手順RT3を終了する。
この結果DSC100は、効果音条件「有り」且つBGM条件「無し」の場合は、例えば音声の種別が「波の音」である画像とともに効果音「波の音」のみを再生する。
またDSC100は、効果音条件「無し」且つBGM条件「自動」の場合は、例えば音声の種別が「波の音」である画像とともにBGM「自然」のみを再生する。
またDSC100は、効果音条件「有り」且つBGM条件「自動」の場合は、例えば音声の種別が「波の音」である画像とともに効果音「波の音」及びBGM「自然」をミックス再生する。
このような画像音声再生処理手順RT3により、DSC100は、画像をスライドショー形式で再生するとともに、画像の撮影時に入力された音声の種別に基づいて音声を選択して再生するようになされている。
[1−7.第1の実施の形態における動作及び効果]
以上の構成においてDSC100の制御部110は、画像の撮影時にマイクロホン104から入力された音声の種別を認識して、DSC100の記録制御部116に送る。
以上の構成においてDSC100の制御部110は、画像の撮影時にマイクロホン104から入力された音声の種別を認識して、DSC100の記録制御部116に送る。
記録制御部116は、制御部110から送られてきた音声の種別を画像データにメタデータとして付加することで、撮影した画像と、当該画像の撮影時に入力された音声の種別とを関連づけて記録媒体117に記録する。
そして制御部110は、似たような音声の種別ごとにグルーピングされたグループ(つまり大分類)のうち、ユーザに所望のグループが指定されると、指定されたグループに属している音声の種別が関連づけられている画像を検索する。
そして制御部110は、検索の結果得られた画像を、音声の種別ごとにまとめて、液晶ディスプレイ106に表示させる。
これにより、制御部110は、似たような音声の種別ごとにグルーピングされたグループごと且つ音声の種別ごとに画像を分類したことになる。
また制御部110は、グループごと且つ音声の種別ごとに画像を連続して再生すると共に、グループごとに選択したBGMと音声の種別ごとに選択した効果音とを合わせて再生する。
このようにDSC100は、画像とともに再生させる効果音やBGMなどの音声を、当該画像の撮影時に入力された音声の種別に基づいて選択するようにした。これにより、DSC100は、例えば自然の音が聞こえる状況で撮影された画像とともに自然をテーマにしたBGMを再生することができる。
つまりDSC100は、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして当該画像に一段と適した音声を再生することができる。
またDSC100は、グループごとに画像を連続して再生すると共にグループごとに選択したBGMを再生するようにしたことにより、BGMを短時間で切り替えることなく再生できるので、ユーザに違和感や不快感などを与えないようにできる。またDSC100は、音声の種別ごとに画像を連続して再生すると共に音声の種別ごとに選択した効果音を再生するようにしたことにより、効果音を短時間で切り替えることなく再生できるので、ユーザに違和感や不快感などを与えないようにできる。
さらにDSC100は、グループごとに選択したBGMと音声の種別ごとに選択した効果音とを合わせて再生することにより、画像に適した効果音及びBGMの両方をユーザに聴取させることができ、一段と娯楽性を高めることができる。
さらにDSC100は、撮影時に入力された音声の種別に基づいて画像を分類するようにしたことにより、どのような状況で画像を撮影したのかという観点から画像を分類することができる。
例えば撮影日時などよりも、どのような状況で画像を撮影したのかの方がユーザの印象に残りやすく、どのような状況で画像を撮影したのかという観点から分類した方が、ユーザが所望の画像を見付け出し易いと考えられる。
ゆえにDSC100は、どのような状況で画像を撮影したのかという観点から画像を分類できるので、撮影日時で画像を分類する場合と比して、所望の画像をユーザが見付け出し易くすることができる。
ところで、画像の撮影時の状況に合った音声を再生するために、当該画像の撮影時に入力された音声を記録しておいて、画像の再生時にその音声をそのまま再生することも考えられる。しかし画像の撮影時に入力された音声には騒音が含まれている場合も多く、ユーザに不快感を与えてしまう可能性がある。
これに対して本発明のDSC100は、画像とともに再生する音声を、撮影時に入力された音声の種別に基づいて、予め用意されている音声の中から選択するようにした。これにより本発明のDSC100は、撮影時の状況に合っていて且つ騒音のない音声を画像とともに再生できるので、ユーザに不快感を与えることなく画像に適した音声を聴取させることができる。
以上の構成によれば、DSC100の制御部110は、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン104から入力された音声の種別に基づいて選択するようにした。
これによりDSC100は、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして画像の再生とともに当該画像に一段と適した音声の再生を行うことができる。
<2.第2の実施の形態>
次に第2の実施の形態について説明する。この第2の実施の形態では、第1の実施の形態と異なり、DSC100は、撮影モードの間、マイクロホン104から入力された音声の種別を所定時間ごとに認識し続けるようになっている。
次に第2の実施の形態について説明する。この第2の実施の形態では、第1の実施の形態と異なり、DSC100は、撮影モードの間、マイクロホン104から入力された音声の種別を所定時間ごとに認識し続けるようになっている。
尚DSC100の構成については、第1の実施の形態と同様であるので第1の実施の形態を参照とする。
[2−1.音声種別認識処理]
DSC100の制御部110は、操作入力部112を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。これとともに、音声入力処理部115は、制御部110の制御のもと、マイクロホン104から入力される音声信号を音声データDに変換して制御部110に送る。
DSC100の制御部110は、操作入力部112を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。これとともに、音声入力処理部115は、制御部110の制御のもと、マイクロホン104から入力される音声信号を音声データDに変換して制御部110に送る。
制御部110は、所定時間(例えば10秒)ごとに、音声入力処理部115から送られてきた音声データDを解析して、上述した第1の実施の形態と同様にして音声の種別を認識する。
そして制御部110は、音声の入力日時とその音声の種別とを記録制御部116に送る。記録制御部116は、制御部110の制御のもと、送られてきた音声の入力日時とその音声の種別とを関連づけて、図14に示す音声種別テーブルに登録する。尚、音声種別テーブルは記録媒体117に記録されている。
また制御部110は、音声の種別が切り替わったときだけ、音声の入力日時とその音声の種別とを記録制御部116に送り、記録制御部116に音声種別テーブルに登録させるようにしてもよい。
例えば図14に示す音声種別テーブルでは、入力日時「2009/8/1,10:15.00」及び音声の種別「セミの声」が登録されており、次に入力日時「2009/8/1,10:17.10」及び音声の種別「笑い声」が登録されている。
これは、「2009/8/1,10:15.00」〜「2009/8/1,10:17.10」の間に入力された音声の種別は「セミの声」であったことを示している。また「2009/8/1,10:17.10」から音声の種別が「笑い声」に切り替わったことを示している。
尚制御部110は、例えばノイズなどにより音声の種別が認識できないときは、その前の音声の種別と同一であると認識するようにしてもよいし、前後の音声の種別から音声の種別を認識するようにしてもよい。
このようにDSC100は、撮影モードの間マイクロホン104から入力された音声について、その音声の入力日時と種別とを関連付けて記録媒体117に記録するようになされている。これによりDSC100は、撮影モードの間、いつどのような音声が入力されたかを認識できるようになされている。
[2−2.分類表示処理]
また上述した第1の実施の形態と同様に、第2の実施の形態におけるDSC100も撮影時に入力された音声の種別に基づいて画像を分類して表示する分類表示処理を行うようになっている。
また上述した第1の実施の形態と同様に、第2の実施の形態におけるDSC100も撮影時に入力された音声の種別に基づいて画像を分類して表示する分類表示処理を行うようになっている。
具体的に制御部110は、操作入力部112を介して、再生モードへ切り替えるよう指示されると、動作モードを再生モードに切り替えるとともに、分類メニュー画面MG(図8)を液晶ディスプレイ106に表示させる。
分類メニュー画面MGは、上述した第1の実施の形態と同様に、対象画像条件及び大分類条件をユーザが指定できるようになされており、制御部110は、ユーザの指定に基づいて対象画像条件及び大分類条件を設定する。
そして制御部110は、分類テーブル111B(図9)から、設定した大分類条件に対応する音声の種別を取得する。
また制御部110は、設定した対象画像条件において分類の対象となる画像ファイルPFを記録媒体117から読み出す。
そして制御部110は、画像ファイルPFのメタデータに記されている撮影日時をもとに、音声種別テーブル(図14)から、撮影日時にマイクロホン104から入力された音声の種別を取得する。つまり制御部110は、音声の入力日時及び種別と撮影日時とに基づいて、画像の撮影時にマイクロホン104から入力された音声の種別を判別する。
例えば、画像の撮影日時が「2009/8/1,10:16.00」である場合、制御部110は、図14に示す音声種別テーブルを用いて、画像の撮影時にマイクロホン104から入力された音声の種別を「セミの声」と判別する。
このようにして制御部110は、設定した対象画像条件により分類の対象となる画像すべてにおいて、当該画像の撮影時にマイクロホン104から入力された音声の種別を判別する。
そして制御部110は、判別した音声の種別に基づいて、設定した大分類条件に対応する音声の種別である画像を検索する。制御部110は、検索の結果得られた画像のサムネイル画像Thを、音声の種別ごとにサムネイル群Thgとしてまとめて分類表示画面BG(図10)に表示させる。
すなわち制御部110は、判別した音声の種別に基づいて画像を大分類ごと及び音声の種別ごとに分類して表示させるようになされている。
[2−3.画像音声再生処理]
さらに上述した第1の実施の形態と同様に、第2の実施の形態におけるDSC100も画像とともに、当該画像の撮影時に入力された音声の種別に基づいて音声を選択して再生する画像音声再生処理を行うようになっている。
さらに上述した第1の実施の形態と同様に、第2の実施の形態におけるDSC100も画像とともに、当該画像の撮影時に入力された音声の種別に基づいて音声を選択して再生する画像音声再生処理を行うようになっている。
具体的に制御部110は、操作入力部112を介して、スライドショー形式で再生する画像がユーザに指定されると、ユーザの指定に基づいてスライドショー形式で再生する画像を設定する。
そして制御部110は、スライドショーメニュー設定画面SG(図12)を液晶ディスプレイ106に表示させる。
スライドショーメニュー設定画面SGは、上述した第1の実施の形態と同様に効果音条件及びBGM条件をユーザが指定できるようになされており、制御部110は、ユーザの指定に基づいて効果音条件及びBGM条件を設定する。
そして制御部110は、再生するよう設定された画像の画像ファイルPFを記録媒体117から読み出す。
制御部110は、画像ファイルPFのメタデータに記されている撮影日時をもとに、音声種別テーブル(図14)から、撮影日時にマイクロホン104から入力された音声の種別を取得する。つまり制御部110は、音声の入力日時及び種別と撮影日時とに基づいて、画像の撮影時にマイクロホン104から入力された音声の種別を判別する。
このようにして制御部110は、再生するよう設定した画像すべてにおいて、当該画像の撮影時にマイクロホン104から入力された音声の種別を判別する。
そして制御部110は、効果音条件を「有り」と設定した場合、判別した音声の種別に対応する効果音を分類テーブル111B(図8)から取得して、画像とともに再生する効果音として選択する。
また制御部110は、BGM条件を「自動」と設定した場合、判別した音声の種別に対応するBGMを分類テーブル111Bから取得して、画像とともに再生するBGMとして選択する。
そして制御部110は、スライドショー形式で画像を再生するとともに、選択した効果音又はBGM、又は選択した効果音及びBGMの両方を再生する。
このように制御部110は、画像の撮影時にマイクロホン104から入力された音声の種別を判別し、判別した音声の種別に基づいて効果音やBGMを選択して当該画像とともに再生するようになされている。
[2−4.第2の実施の形態における動作及び効果]
以上の構成においてDSC100の制御部110は、撮影モードの間所定時間ごとに、マイクロホン104から入力された音声の種別を認識し、認識した音声の種別とその音声の入力日時とをDSC100の記録制御部116に送る。
以上の構成においてDSC100の制御部110は、撮影モードの間所定時間ごとに、マイクロホン104から入力された音声の種別を認識し、認識した音声の種別とその音声の入力日時とをDSC100の記録制御部116に送る。
記録制御部116は、制御部110から送られてきた音声の種別とその音声の入力日時とを関連付けて記録媒体117に記録する。
制御部110は、画像を再生するようユーザに指定されると、記録媒体117に記録されている音声の種別及び入力日時と、再生するよう指定された画像の撮影日時とに基づいて、当該画像の撮影時に入力された音声の種別を判別する。
そして制御部110は、判別した音声の種別に基づいて効果音やBGMなどの音声を選択して、画像とともに再生する。
このようにDSC100は、撮影モードの間所定時間ごとに、マイクロホン104から入力された音声の種別を認識し、音声の種別及び入力日時と撮影日時とから、画像の撮影時にマイクロホン104から入力された音声の種別を判別するようにした。
これによりDSC100は、撮影の前後に入力された音声の種別から、画像の撮影時の音声の種別を認識することができる。つまり、第2の実施の形態におけるDSC100は、撮影後(シャッタボタン105押下後)に入力された音声の種別から撮影時の音声の種別を認識する第1の実施の形態と比して、一段と正確に画像の撮影時の音声の種別を認識することができる。
この他第2の実施の形態におけるDSC100は、第1の実施の形態と同様の作用効果を奏しうる。
<3.他の実施の形態>
[3−1.他の実施の形態1]
尚上述した第1及び第2の実施の形態では、画像の撮影時にマイクロホン104から入力された音声の種別に基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにした。
[3−1.他の実施の形態1]
尚上述した第1及び第2の実施の形態では、画像の撮影時にマイクロホン104から入力された音声の種別に基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにした。
これに限らず、制御部110は、画像の撮影時の音声の種別と当該画像に関連する他の情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。
例えば、制御部110は、画像の撮影時の音声の種別と、画像から認識された人物の顔の情報を示す顔情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。
この場合制御部110は、画像の撮影時に、画像を解析し人物の顔を認識する顔認識処理を行う。例えば制御部110は、画像から顔を認識できたか否か、認識された顔の個数は多いか否か、認識された顔は笑顔かなどを顔認識処理の結果として得る。
そして制御部110は顔認識処理の結果を顔情報として例えば画像ファイルPFのメタデータ領域に記すことで、画像と顔情報とを関連付けて記録する。
例えば制御部110は、顔を認識できなかった場合は「顔無し」、認識された顔の個数が多い場合は「顔多数」、認識された顔が笑顔の場合は「笑顔」、顔を認識したが「顔多数」でも「笑顔」でもない場合は「顔」を、顔情報として記録する。
そして制御部110は、図15に示す分類テーブル111Bを用いて、音声の種別と顔情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりする。
例えば音声の種別が「波の音」且つ顔情報が「顔無し」の場合は、画像が海の風景を撮影したものである確率が高い。ゆえに制御部110は、分類テーブル115Bをもとに、当該画像を大分類「自然」に分類し、当該画像とともに再生する音声として効果音「波の音」又はBGM「自然」を選択するようになされている。
また制御部110は、万一、画像の撮影時に入力された音声の種別が認識できなかった場合(つまり音声の種別が「無し」の場合)でも、例えば顔情報が「笑顔」であれば、画像を大分類「盛り上り」に分類し、当該画像とともに再生する音声としてBGM「盛り上り」を選択してもよい。
こうすることで制御部110は、万一、画像の撮影時に入力された音声の種別が認識できなかった場合でも、画像を分類したり画像の撮影時の状況に合った音声を選択して再生したりすることができる。
またこれに限らず、制御部110は、画像の撮影時の音声の種別と、撮影時の場所情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。
この場合DSC100には、現在位置を測位するGPS(Global Positioning System)モジュール(図示せず)が設けられているとする。制御部110は、画像の撮影時に、GPSモジュールから現在位置を示す現在位置情報(緯度、経度)を取得する。
そして制御部110は、位置情報(緯度、経度)とその位置がどのような場所であるか(例えば海付近か、都市かなど)を示す場所情報とが関連づけられて登録されている場所情報データベースから、現在位置情報をもとに、現在位置の場所情報を取得する。
そして制御部110は、取得した場所情報を、画像撮影時の場所情報として例えば画像ファイルPFのメタデータ領域に記すことで、画像と場所情報とを関連付けて記録する。
例えば制御部110は、撮影場所が海付近の場合は「海」、山付近の場合は「山」、川付近の場合は「川」を場所情報として記録する。
そして制御部110は、分類テーブル111B(図15)をもとに、例えば音声の種別が「川の音」且つ場所情報が「川」の場合は、画像を大分類「自然」に分類し、画像とともに再生する音声として効果音「川の音」又はBGM「自然」を選択する。
また制御部110は、万一、画像の撮影時の音声の種別が認識できなかった場合でも、例えば場所情報が「海」、「川」、「山」のいずれかであれば、画像を大分類「自然」に分類し、画像とともに再生する音声としてBGM「自然」を選択してもよい。
またこれに限らず、制御部110は、画像の撮影時の音声の種別と、撮影モードとに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。
この場合制御部110は、画像の撮影時、画像を解析し撮影シーンを認識するシーン認識処理を行い、撮影シーンに合った撮影モードで画像を撮影する。
制御部110は、例えば画像から顔を認識できた場合は人物を撮影している、つまり撮影シーンが「人物」であると認識し、撮影モードを「人物」に設定する。また例えば制御部110は、画像に青色の部分が多い(つまり空の占める割合が多い)場合は風景を撮影している、つまり撮影シーンが「風景」であると認識し、撮影モードを「風景」に設定する。
尚制御部110は、ユーザにより指定された撮影モードで画像を撮影するようにしてもよい。
そして制御部110は、画像の撮影モードを例えば画像ファイルPFのメタデータ領域に記すことで、画像と撮影モードとを関連づけて記録する。
そして制御部110は、分類テーブル111B(図15)をもとに、例えば音声の種別が「鳥の声」且つ撮影モードが「風景」の場合は、画像を大分類「自然」に分類し、画像とともに再生する音声として効果音「鳥の声」又はBGM「自然」を選択する。
またこれに限らず、制御部110は、画像の撮影時の音声の種別と、顔情報、場所情報、撮影モードのいずれかまたは全てを組み合わせて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。
例えば制御部110は、分類テーブル111B(図15)をもとに、例えば音声の種別が「セミの声」、顔情報が「顔無し」、場所情報が「山」、撮影モードが「風景」の場合に、画像を大分類「自然」に分類するようにしてもよい。またこの場合、当該画像とともに再生する音声として効果音「鳥の声」又はBGM「自然」を選択するようにしてもよい。
このようにDSC100は、画像の音声の種別に加えて画像に関連する情報にも基づいて画像を分類することで、画像の分類の精度を高めることができる。またDSC100は、画像の音声の種別に加えて画像に関連する情報にも基づいて画像とともに再生する音声を選択することで、一段と画像の撮影時の状況に合った音声を選択して画像とともに再生することができる。
[3−2.他の実施の形態2]
また上述した第1及び第2の実施の形態では、画像の大分類として「自然」「盛り上り」を用いるようにしたが、これに限らず、種々の大分類を用いるようにしてもよい。
また上述した第1及び第2の実施の形態では、画像の大分類として「自然」「盛り上り」を用いるようにしたが、これに限らず、種々の大分類を用いるようにしてもよい。
例えば図16に示すように、大分類として季節(春夏秋冬)を用いるようにしてもよい。この場合、制御部110は、例えば音声の種別が「ウグイスの声」の画像を大分類「春」に分類し、「セミの声」及び「波の音」の画像を大分類「夏」に分類し、「鈴虫の声」の画像を大分類「秋」に分類し、「風の音」の画像を大分類「冬」に分類する。
さらに上述した第1及び第2の実施の形態では、制御部110は、音声の種別ごとに効果音を選択するようにしたが、これに限らず、例えば大分類ごとに効果音を選択するようにしてもよい。
例えば図16では、制御部110は、大分類が「夏」の場合、夏をイメージした効果音である効果音「夏」を選択する。
この効果音「夏」は例えばセミの声であるとすると、音声の種別が例えば「波の音」であっても、制御部110は、大分類である「夏」に基づいて効果音「夏」を選択し、セミの声を効果音として再生することとなる。つまり制御部110は、撮影時に入力されていない音声であっても、画像の撮影時の状況(例えば季節など)に合っていれば、画像とともに再生する効果音やBGMとして選択してもよい。
またこれに限らず、制御部110は、音声の種別ごとにBGMを選択するようにしてもよい。
またこれに限らず、制御部110は、音声の種別と撮影日時とに基づいて、画像を分類したり、画像とともに再生する効果音やBGMを選択したりするようにしてもよい。
この場合、例えば図16では、制御部110は、音声の種別が「ウグイスの声」且つ撮影日時が「春」である場合、画像を大分類「春」に分類する。また制御部110は、音声の種別が「ウグイスの声」且つ撮影日時が「春」である場合、効果音「春」またはBGM「春」を画像とともに再生する効果音またはBGMとして選択する。
[3−3.他の実施の形態3]
また上述した第1の実施の形態では、音声種別認識期間をM等分に分割した区間Tnごとに音声データを解析して音声の種別を認識し、最も多くの区間Tnで認識した音声の種別を、撮影時に入力された音声の種別であると認識するようにした。
また上述した第1の実施の形態では、音声種別認識期間をM等分に分割した区間Tnごとに音声データを解析して音声の種別を認識し、最も多くの区間Tnで認識した音声の種別を、撮影時に入力された音声の種別であると認識するようにした。
これに限らず、この他種々の方法で画像の撮影時に入力された音声の種別を認識するようにしてもよい。
例えば制御部110は、区間Tnごとに認識した音声の種別のうち、X%以上の区間Tnで認識した音声の種別を撮影時に入力された音声の種別として認識するようにしてもよい。
この場合、例えばX=30とすると、図4において、制御部110は、12個の区間Tnのうち4個以上の区間Tnで認識した「セミの声」及び「笑い声」を撮影時に入力された音声の種別として認識することになる。
またこのように複数の音声の種別を認識した場合、記録制御部116は、複数の音声の種別をメタデータとして画像データに付加するようにしてもよい。この場合、制御部110は、画像を再生するとともに、複数の音声の種別のそれぞれに対応付けられている効果音をミックスして再生するようにしてもよい。
例えば画像に音声の種別として「川の音」と「セミの声」とが関連付けられている場合、制御部110は、当該画像を再生する際に、効果音「川の音」と効果音「セミの声」とをミックスして再生するようにしてもよい。こうすることでDSC100は、画像とともに、より臨場感あふれる音声を再生することができる。
また例えば制御部110は、連続したY個以上の区間Tnで認識した音声の種別を撮影時に入力された音声の種別として認識するようにしてもよい。
この場合、例えばY=4とすると、図4において、制御部110は、連続した4個の区間Tnで認識した「笑い声」を画像撮影時の音声の種別として認識することになる。
また制御部110は、種々の認識方法を組み合わせるようにしてもよい。例えば、制御部110は、X%以上の区間Tnで認識し、且つ連続したY個以上の区間Tnで認識した音声の種別を撮影時に入力された音声の種別として認識するようにしてもよい。
[3−4.他の実施の形態4]
さらに上述した第1の実施の形態では、制御部110は、画像をスライドショー形式で再生する前に、スライドショー用音声を生成するようにした。
さらに上述した第1の実施の形態では、制御部110は、画像をスライドショー形式で再生する前に、スライドショー用音声を生成するようにした。
これに限らず、制御部110は、画像をスライドショー形式で再生しながら、スライドショー用音声を生成して再生するようにしてもよい。
[3−5.他の実施の形態5]
さらに上述した第1及び第2の実施の形態では、DSC100が音声種別認識処理、分類表示処理、画像音声再生処理を行う場合について述べた。
さらに上述した第1及び第2の実施の形態では、DSC100が音声種別認識処理、分類表示処理、画像音声再生処理を行う場合について述べた。
これに限らず、音声種別認識処理、分類表示処理、画像音声再生処理を別々の機器で行うようにしてもよい。例えば、DSC100が音声種別認識処理を行って、音声の種別を画像と関連付けて画像ファイルPFとして記録媒体117に記録した後、外部のパーソナルコンピュータが記録媒体117から画像ファイルPFを読み出して、分類表示処理、又は画像音声再生処理を行うようにしてもよい。
[3−6.他の実施の形態6]
さらに上述した第1及び第2の実施の形態では、特徴データベース111A、効果音データベース111C、BGMデータベース111DがDSC100の記憶部111に保持されている場合について述べた。
さらに上述した第1及び第2の実施の形態では、特徴データベース111A、効果音データベース111C、BGMデータベース111DがDSC100の記憶部111に保持されている場合について述べた。
これに限らず、特徴データベース111A又は効果音データベース111C又はBGMデータベース111Dが外部装置に保持されていてもよい。この場合、DSC100がネットワークを介して当該外部装置と接続することにより、特徴データベース111A又は効果音データベース111C又はBGMデータベース111Dからデータを取得するようにすればよい。
[3−7.他の実施の形態7]
さらに上述した第1及び第2の実施の形態では、情報処理装置としてのDSC100に、制御部、分類部、認識部としての制御部110と、撮像部としての撮像部113と、記録制御部としての記録制御部116とを設けるようにした。
さらに上述した第1及び第2の実施の形態では、情報処理装置としてのDSC100に、制御部、分類部、認識部としての制御部110と、撮像部としての撮像部113と、記録制御部としての記録制御部116とを設けるようにした。
本発明はこれに限らず、同様の機能を有するのであれば、上述したDSC100の各部を、他の種々のハードウェアもしくはソフトウェアにより構成するようにしてもよい。
さらに上述した第1及び第2の実施の形態では、DSC100に本発明を適用するようにした。これに限らず、デジタルビデオカメラ、携帯電話機、パーソナルコンピュータ、デジタルフォトフレーム、テレビジョン受像機など、この他種々の機器に適用するようにしてもよく、また適用することができる。
[3−8.他の実施の形態8]
さらに上述した第1の実施の形態では、音声種別認識処理手順RT1、分類表示処理手順RT2、画像音声処理手順RT3を実行するためのプログラムを、DSC100の記憶部111に書き込んでおくようにした。
さらに上述した第1の実施の形態では、音声種別認識処理手順RT1、分類表示処理手順RT2、画像音声処理手順RT3を実行するためのプログラムを、DSC100の記憶部111に書き込んでおくようにした。
これに限らず、このプログラムを例えば記録媒体117に記録しておき、DSC100の制御部110が、このプログラムを記録媒体117から読み出して実行するようにしてもよい。また記録媒体117から読み出したプログラムを、記憶部111にインストールするようにしてもよい。
さらに、このプログラムを、ネットワーク上の所定のサーバからダウンロードして、記憶部111にインストールしてもよい。
[3−9.他の実施の形態9]
さらに本発明は、上述した第1及び第2の実施の形態と他の実施の形態とに限定されるものではない。すなわち本発明は、上述した第1及び第2の実施の形態と他の実施の形態の一部または全部を任意に組み合わせた形態、もしくは一部を抽出した形態にもその適用範囲が及ぶものである。
さらに本発明は、上述した第1及び第2の実施の形態と他の実施の形態とに限定されるものではない。すなわち本発明は、上述した第1及び第2の実施の形態と他の実施の形態の一部または全部を任意に組み合わせた形態、もしくは一部を抽出した形態にもその適用範囲が及ぶものである。
本発明は、画像と音声とを再生する機能を有する電子機器で広く利用することができる。
1……情報処理装置、2、110……制御部、3、104……マイクロホン、4……分類部、5……再生部、6、113……撮像部、7……認識部、8、117……記録媒体、9、116……記録制御部、100……DSC、103……レンズ、106……液晶ディスプレイ、107……スピーカ、111……記憶部、114……表示制御部。
Claims (9)
- 画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択する制御部
を具える情報処理装置。 - 上記種別に基づいて上記画像を分類する分類部
を具える請求項1に記載の情報処理装置。 - 上記分類部は、
上記種別ごとに上記画像を分類し、
上記制御部は、
上記種別ごとに上記画像を連続して再生部に再生させると共に、上記種別ごとに音声を選択して再生部に再生させる
請求項2に記載の情報処理装置。 - 上記種別は、少なくとも1以上のグループにグルーピングされており、
上記分類部は、
上記グループごとに上記画像を分類し、
上記制御部は、
上記グループごとに上記画像を連続して再生部に再生させると共に、上記グループごとに音声を選択して再生部に再生させる
請求項2に記載の情報処理装置。 - 上記種別は、少なくとも1以上のグループにグルーピングされており、
上記制御部は、
上記画像とともに再生させる音声として、当該画像の撮影時にマイクロホンから入力された音声の種別に対応付けられている音声と、当該種別が属するグループに対応付けられている音声とを選択する
請求項2に記載の情報処理装置。 - 撮像部と、
マイクロホンから入力された音声の種別を認識する認識部と
上記撮像部で撮像した画像と、当該画像の撮影時に上記認識部により認識された種別とを関連付けて記録媒体に記録する記録制御部
を具え、
上記制御部は、
上記記録媒体に記録された画像とともに再生させる音声を、当該画像に関連付けられている上記種別に基づいて選択する
請求項1に記載の情報処理装置。 - 撮像部と、
マイクロホンから入力された音声の種別を認識する認識部と
上記認識部により認識された種別と当該音声の入力日時とを関連付けて記録媒体に記録する記録制御部
を具え、
上記制御部は、
上記記録媒体に記録されている音声の種別及び入力日時と、上記撮像部で撮像した画像の撮影日時とに基づいて、当該画像の撮影時に入力された音声の種別を判別し、判別した種別に基づいて当該画像とともに再生させる音声を選択する
請求項1に記載の情報処理装置。 - 情報処理装置の制御部が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択する
音声選択方法。 - 情報処理装置の制御部が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択するステップ
を情報処理装置に実行させるための音声選択プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009160953A JP2011019000A (ja) | 2009-07-07 | 2009-07-07 | 情報処理装置、音声選択方法及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009160953A JP2011019000A (ja) | 2009-07-07 | 2009-07-07 | 情報処理装置、音声選択方法及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011019000A true JP2011019000A (ja) | 2011-01-27 |
Family
ID=43596475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009160953A Pending JP2011019000A (ja) | 2009-07-07 | 2009-07-07 | 情報処理装置、音声選択方法及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011019000A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014155208A (ja) * | 2013-02-14 | 2014-08-25 | Casio Comput Co Ltd | 撮像装置、撮像方法及びプログラム |
JP2015507762A (ja) * | 2011-12-22 | 2015-03-12 | ノキア コーポレイション | オーディオトラックの決定方法,装置およびコンピュータプログラム |
-
2009
- 2009-07-07 JP JP2009160953A patent/JP2011019000A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015507762A (ja) * | 2011-12-22 | 2015-03-12 | ノキア コーポレイション | オーディオトラックの決定方法,装置およびコンピュータプログラム |
JP2014155208A (ja) * | 2013-02-14 | 2014-08-25 | Casio Comput Co Ltd | 撮像装置、撮像方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112400325B (zh) | 数据驱动的音频增强 | |
JP5331936B2 (ja) | 音声制御画像編集 | |
WO2021143599A1 (zh) | 基于场景识别的语音处理方法及其装置、介质和系统 | |
US20120050570A1 (en) | Audio processing based on scene type | |
US8396351B2 (en) | Information processing apparatus, information processing method, information processing program and imaging apparatus | |
KR20140114238A (ko) | 오디오와 결합된 이미지 표시 방법 | |
CN101715142B (zh) | 信息记录再现装置和视频摄像机 | |
CN106412645B (zh) | 向多媒体服务器上传视频文件的方法和装置 | |
JP2011217197A (ja) | 電子機器、再生制御システム、再生制御方法及びプログラム | |
KR20140010989A (ko) | 특정한 사람을 포함하는 비디오 요약본 | |
KR20120068078A (ko) | 영상 처리 장치 및 그의 영상 데이터와 오디오 데이터의 연결 방법 | |
JP2014086849A (ja) | コンテンツ取得装置及びプログラム | |
JP2010252008A (ja) | 撮影装置、表示装置、再生装置、撮影方法、および表示方法 | |
JP2006203860A (ja) | 撮像装置、撮像方法、再生装置、再生方法、及びプログラム | |
JP2011019000A (ja) | 情報処理装置、音声選択方法及びそのプログラム | |
JP5201540B2 (ja) | カラオケ装置及びカラオケ歌唱者の静止画出力方法 | |
JP2004221666A (ja) | 撮像記録装置 | |
US20180330758A1 (en) | Information processing device, shooting apparatus and information processing method | |
JP6166070B2 (ja) | 再生装置および再生方法 | |
JP2003125346A (ja) | 記録再生装置および方法、記録媒体、並びにプログラム | |
KR102493886B1 (ko) | 사진 촬영시의 분위기 정보를 저장하는 방법 및 그 재생 방법 | |
JP2007172675A (ja) | 再生装置、プログラムおよび再生システム | |
JP2006203867A (ja) | 撮像装置、撮像方法、及びプログラム | |
JP2017211995A (ja) | 再生装置、再生方法、再生プログラム、音声要約装置、音声要約方法および音声要約プログラム | |
CN109376266A (zh) | 慢动作视频的处理方法、装置、电子设备和存储介质 |