JP2011019000A

JP2011019000A - 情報処理装置、音声選択方法及びそのプログラム

Info

Publication number: JP2011019000A
Application number: JP2009160953A
Authority: JP
Inventors: Kaoru Suwabe; 薫諏訪部; Homare Nishizaki; 誉西崎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-07-07
Filing date: 2009-07-07
Publication date: 2011-01-27

Abstract

【課題】画像の再生とともに、当該画像に一段と適した音声の再生を可能とする。
【解決手段】ＤＳＣ１００の制御部１１０が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン１０４から入力された音声の種別に基づいて選択するようにしたことにより、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして画像の再生とともに当該画像に一段と適した音声の再生を行うことができる。
【選択図】図１１

Description

本発明は、情報処理装置、音声選択方法及びそのプログラムに関し、例えば、スライドショー形式で複数の画像を再生するとともに音声を再生する際に適用して好適なものである。

近年、デジタルスチルカメラやパーソナルコンピュータ、ＨＤＤ（Hard Disc Drive）レコーダ、ゲーム機などの情報処理装置では、デジタルスチルカメラで撮影された画像をスライドショー形式で再生できるものがある。尚デジタルスチルカメラを、以下、ＤＳＣとも呼ぶ。

このような情報処理装置において、画像をスライドショー形式で再生するとともに、効果音やＢＧＭ（Back Ground Music）などの音声を再生するものが提案されている。

例えば、画像の再生とともに、当該画像が撮影された日時及び場所に基づいてＢＧＭを自動で選択して再生する情報処理装置が提案されている（例えば特許文献１参照）。

特開２００６−７４５４８公報

ところで、同じ日時且つ同じ場所で撮影された画像であっても、撮影時の状況が異なっている場合がある。

例えば真夏に海の近くで撮影した場合であっても、静かな砂浜で海を撮影した状況と、スイカ割りをして盛り上がっている場面を撮影した状況とでは、明らかに撮影時の状況が異なる。

しかしながら上述した情報処理装置では、このように撮影時の状況が異なっていても同じ日時且つ同じ場所で撮影された画像であれば、同じＢＧＭを出力することしかできない。

つまり従来の情報処理装置は、必ずしも画像の撮影時の状況に合った音声の再生ができるとはいえず、結果として、必ずしも画像に適した音声の再生が可能であるとは言えなかった。

本発明は以上の点を考慮してなされたもので、画像の再生とともに、当該画像に一段と適した音声の再生を可能とする情報処理装置、音声選択方法及びそのプログラムを提案しようとするものである。

かかる課題を解決するため本発明の情報処理装置においては、画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択する制御部を設けるようにした。

こうすることで、本発明の情報処理装置は、例えば自然の音が聞こえる状況で撮影された画像とともに自然をテーマにしたＢＧＭを再生させたり、笑い声が聞こえる状況で撮影された画像とともに笑い声の効果音を再生させたりすることができる。つまり、本発明の情報処理装置は、画像とともに、当該画像の撮影時の状況に合った音声を再生部に再生させることができる。

本発明によれば、画像とともに、当該画像の撮影時の状況に合った音声を再生部に再生させることができる。かくして、画像の再生とともに、当該画像に一段と適した音声の再生を可能とする情報処理装置、音声選択方法及びそのプログラムを実現できる。

第１の実施の形態の概要となる情報処理装置の機能構成を示すブロック図である。ＤＳＣ（デジタルスチルカメラ）の外観構成を示す略線図である。ＤＳＣのハードウェア構成を示すブロック図である。音声種別認識処理手順を示すフローチャートである。音声の種別の認識の説明に供する略線図である。画像ファイルの説明に供する略線図である。分類表示処理手順を示すフローチャートである。分類メニュー画面の説明に供する略線図である。分類テーブルの説明に供する略線図である。分類表示画面の説明に供する略線図である。画像音声再生処理手順を示すフローチャートである。スライドショー設定メニュー画面の説明に供する略線図である。スライドショー用音声の説明に供する略線図である。第２の実施の形態における音声種別テーブルの説明に供する略線図である。他の実施の形態における分類テーブル（１）の説明に供する略線図である。他の実施の形態における分類テーブル（２）の説明に供する略線図である。

以下、発明を実施するための最良の形態（以下実施の形態とする）について説明する。尚、説明は以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態
３．他の実施の形態

＜１．第１の実施の形態＞
［１−１．第１の実施の形態の概要］
まず、第１の実施の形態の概要を説明する。因みにこの概要を説明した後、第１の実施の形態の具体例の説明に移る。

図１において１は、第１の実施の形態の概要となる情報処理装置の機能構成を示す。この情報処理装置１は、制御部２を有している。制御部２は、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン３から入力された音声の種別に基づいて選択するようになされている。

このような構成により、情報処理装置１は、例えば自然の音が聞こえる状況で撮影された画像とともに自然をテーマにしたＢＧＭを再生させたり、笑い声が聞こえる状況で撮影された画像とともに笑い声の効果音を再生させたりすることができる。

つまり、情報処理装置１は、画像とともに、当該画像の撮影時の状況に合った音声を再生部に再生させることができ、かくして画像の再生とともに、当該画像に一段と適した音声を再生させることができる。

またこのような構成を基本構成とする情報処理装置１に対して、以下のような構成を追加してもよい。

すなわちこの情報処理装置１においては、画像の撮影時にマイクロホン３から入力された音声の種別に基づいて当該画像を分類する分類部４を有していてもよい。

さらにこの情報処理装置１においては、分類部４が当該種別ごとに画像を分類し、制御部２が当該種別ごとに画像を連続して再生部５に再生させると共に、当該種別ごとに音声を選択して再生部５に再生させるようにしてもよい。

さらにこの情報処理装置１においては、撮像部６と、マイクロホン３から入力された音声の種別を認識する認識部７と、撮像部６で撮像した画像と、当該画像の撮影時に認識部７により認識された音声の種別とを関連付けて記録媒体８に記録する記録制御部９とを有していてもよい。この場合、制御部２は、記録媒体８に記録された画像とともに再生させる音声を、当該画像に関連付けられている種別に基づいて選択するようにしてもよい。

このような機能構成でなる情報処理装置１の具体例について、以下、詳しく説明する。

［１−２．ＤＳＣ（デジタルスチルカメラ）の外観構成］
図２（Ａ）及び（Ｂ）において１００は、全体として上述した情報処理装置１の具体例であるＤＳＣ（デジタルスチルカメラ）を示す。このＤＳＣ１００は、片手で把持し得る程度の大きさの略扁平矩形状でなる筐体１０１を有している。この筐体１０１の前面１０１Ａには、レンズ１０３とマイクロホン１０４とが設けられている。

また筐体１０１の上面１０１Ｂには、シャッタボタン１０５が設けられている。さらに筐体２の背面１０１Ｃには、液晶ディスプレイ１０６とスピーカ１０７と操作ボタン１０８とが設けられている。

このＤＳＣ１００は、撮影モード時、レンズ１０３を介して撮像した被写体の画像をスルー画像として液晶ディスプレイ１０６に表示する。そしてＤＳＣ１００は、シャッタボタン１０５の押下操作に応じて、撮像した画像を記録する。

さらにＤＳＣ１００は、再生モード時、記録した画像を例えばスライドショー形式で液晶ディスプレイ１０６に表示する。またＤＳＣ１００は、画像の表示と共に効果音やＢＧＭをスピーカ１０７から出力する。

さらにＤＳＣ１００は、液晶ディスプレイ１０６にアイコンやボタンなどを表示し、操作ボタン１０８の押下操作に応じて、動作モードの切り替えなどを行う。

［１−３．ＤＳＣのハードウェア構成］
次にＤＳＣ１００のハードウェア構成について図３を用いて説明する。ＤＳＣ１００は、制御部１１０が、記憶部１１１に書き込まれているプログラムを実行することで各種処理を実行すると共に、操作入力部１１２からの入力信号に応じて各部を制御するようになっている。尚記憶部１１１は、例えば内蔵のフラッシュメモリなどである。また操作入力部１１２には、上述したシャッタボタン１０５及び操作ボタン１０８が含まれる。

具体的に、制御部１１０は、操作入力部１１２を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。

すると撮像部１１３は、制御部１１０の制御のもと、上述したレンズ１０３を介して取り込んだ被写体からの光を撮像素子で電気信号に変換（すなわち光電変換）することで、アナログの画像信号を得る。尚この撮像素子は、例えばＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などである。そして撮像部１１３は、この画像信号をデジタルの画像信号に変換した後、制御部１１０に送る。

制御部１１０は、撮像部１１３から送られてくる画像信号を表示制御部１１４に送る。表示制御部１１４は、この画像信号に所定の処理を施して液晶ディスプレイ１０６に送る。この結果、液晶ディスプレイ１０６には、被写体の画像がスルー画像として表示される。こうすることで、ＤＳＣ１００は、撮影者に被写体を確認させることができる。

またこのとき制御部１１０は、アイコンやボタンなどからなるグラフィックス信号を表示制御部１１４に送る。表示制御部１１４は、このグラフィックス信号を、撮像部１１３から送られてくる画像信号に重畳する。この結果、液晶ディスプレイ１０６には、スルー画像と共に、アイコンやボタンなどが表示される。

ここで、操作入力部１１２のシャッタボタン１０５が押下されると、制御部１１０は画像を記録する。

すなわち、制御部１１０は、撮像部１１３から送られてくる１フレーム分の画像信号を所定の静止画フォーマットで圧縮することで、画像データを生成する。尚、ここでは、所定の静止画フォーマットとして、例えば、ＪＰＥＧ（Joint Photographic Experts Group）フォーマットを利用することとする。

また音声入力処理部１１５は、制御部１１０の制御のもと、シャッタボタン１０５が押下されてから所定時間（例えば５秒間）マイクロホン１０４から入力される音声信号を、音声データに変換して制御部１１０に送る。

制御部１１０は、音声入力処理部１１５から送られてきた音声データを解析して、入力された音声の種別を認識する。音声の種別とは例えば「波の音」、「川の音」、「鳥の声」、「セミの声」などである。尚、このマイクロホン１０４から入力された音声の種別を認識する処理については、詳しくは後述する。

そして制御部１１０は、認識した音声の種別と画像データとを記録制御部１１６に送る。記録制御部１１６は、制御部１１０の制御のもと、送られてきた音声の種別を画像データにメタデータとして付加して画像ファイルＰＦを生成する。またメタデータには、この他撮影日時なども記される。そして記録制御部１１６は、画像ファイルＰＦを記録媒体１１７に記録する。このようにしてＤＳＣ１００は、画像を記録する。

因みに記録媒体１１７は、例えば磁気テープ、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。尚、記録媒体１１７は、ＤＳＣ１００に予め内蔵された記録媒体であってもよいし、ＤＳＣ１００に着脱可能な記録媒体であってもよい。

また制御部１１０は、操作入力部１１２を介して再生モードへ切り換えるよう指示されると、動作モードを再生モードに切り替える。そして制御部１１０は、操作入力部１１２を介して指定された画像ファイルＰＦを記録媒体１１７から読み出し、この画像ファイルＰＦから画像データを抽出する。

そして制御部１１０は、この画像データを圧縮されたときと同一の静止画フォーマットで伸張することで、元の画像信号を得、表示制御部１１４に送る。表示制御部１１４は、この画像信号に所定の処理を施して液晶ディスプレイ１０６に送る。この結果、液晶ディスプレイ１０６には、画像信号に基づく画像が表示される。このようにしてＤＳＣ１００は、画像を再生する。

また制御部１１０は、画像を再生するのに合わせて、効果音やＢＧＭなどの音声データを記憶部１１１から読み出し、所定のフォーマットで伸張することで音声信号を得、これを音声出力処理部１１８に送る。

音声出力処理部１１８は、この音声信号に所定の処理を施してスピーカ１０７に送る。この結果、画像の表示とともに、この音声信号に基づく音声がスピーカ１０７から出力される。尚、この画像を再生するとともに効果音やＢＧＭなどの音声を再生する処理については、詳しくは後述する。

因みに、このＤＳＣ１００の制御部１１０が、上述した情報処理装置１の制御部２、分類部４、再生部５、認識部７に相当するハードウェアである。またＤＳＣ１００のマイクロホン１０４が、上述した情報処理装置１のマイクロホン３に相当するハードウェアである。さらにＤＳＣ１００の撮像部１１３が、上述した情報処理装置１の撮像部６に相当するハードウェアである。さらにＤＳＣ１００の記録媒体１１７が、上述した情報処理装置１の記録媒体８に相当するハードウェアである。さらにＤＳＣ１００の記録制御部１１６が、上述した情報処理装置１の記録制御部９に相当するハードウェアである。

［１−４．音声種別認識処理手順］
上述したようにＤＳＣ１００は、撮影時にマイクロホン１０４から入力された音声の種別を認識する音声種別認識処理を行うようになっている。以下、この音声種別認識処理における動作処理手順（これを音声種別認識処理手順とも呼ぶ）について、図４に示すフローチャートを用いて説明する。この音声種別認識処理手順ＲＴ１は、ＤＳＣ１００の制御部１１０が、記憶部１１１に書き込まれているプログラムに従って実行する処理手順である。

制御部１１０は、操作入力部１１２のシャッタボタン１０５が押下されたことを認識すると、画像を記録するとともに、音声種別認識処理手順ＲＴ１を開始して、ステップＳＰ１に移る。

ステップＳＰ１において制御部１１０は、シャッタボタン１０５が押下されてから所定時間マイクロホン１０４から入力された音声を、音声入力処理部１１５を介して音声データＤとして取得して、次のステップＳＰ２に移る。尚、シャッタボタン１０５が押下されてからの所定時間のことを音声種別認識期間とも呼ぶ。

ステップＳＰ２において制御部１１０は、図５に示すように、音声種別認識期間をＭ等分（例えば１２等分）した区間（これを区間Ｔｎ（ｎ＝１〜Ｍ）とも呼ぶ）で音声データＤを分割して、次のステップＳＰ３に移る。

因みに音声種別認識期間をＬ秒とすると、音声データＤはＬ／Ｍ（例えばＬ／１２）秒ずつに分割されることとなる。

ステップＳＰ３において制御部１１０は、区間Ｔｎの音声データＤ（つまり分割された音声データＤ）から、例えばＭＦＣＣ（Mel-frequency Cepstral Coefficient）処理を用いて特徴データを抽出して、次のステップＳＰ４に移る。

ステップＳＰ４において制御部１１０は、抽出した特徴データと記憶部１１１に保持されている特徴データベース１１１Ａ内に格納されている特徴データとを比較し、抽出した特徴データに最も類似する特徴データを検索する。

この特徴データベース１１１Ａには、いろいろな音声の種別の特徴データが予め格納されている。因みに特徴データを比較する方法としては、例えばＧＭＭ（Gaussian Mixture Model）やＳＶＭ（Support Vector Machine）などの手法を用いることができる。

制御部１１０は、検索の結果特徴データベース１１１Ａから得られた特徴データに対応する音声の種別を、区間Ｔｎにおける音声の種別として認識して、次のステップＳＰ５に移る。

ステップＳＰ５において制御部１１０は、全ての区間Ｔｎにおいて音声の種別を認識したか否かを判別する。

このステップＳＰ５において否定結果が得られると、制御部１１０はステップＳＰ３に戻り、まだ音声の種別を認識していない区間Ｔｎにおいて、音声データＤから特徴データを抽出し音声の種別を認識する。つまり、制御部１１０は、ステップＳＰ３及びＳＰ４を区間Ｔｎの個数分（つまりＭ回分）繰り返す。

一方ステップＳＰ５において肯定結果が得られると、このことは全ての区間Ｔｎにおいて音声の種別を認識したことを意味し、このとき制御部１１０は、ステップＳＰ６に移る。

ステップＳＰ６において制御部１１０は、最も多くの区間Ｔｎで認識された音声の種別を、撮影時にマイクロホン１０４から入力された音声の種別であると認識する。

例えば図５に示すように各区間Ｔｎにおいて音声の種別が認識されたとする。すなわち区間Ｔ１〜Ｔ３、Ｔ５、Ｔ１０〜Ｔ１２において「セミの声」が認識され、区間Ｔ４において「鳥の声」が認識され、区間Ｔ６〜Ｔ９において「笑い声」が認識されたとする。

このとき制御部１１０は、認識された回数が最も多い「セミの声」を、撮影時にマイクロホン１０４から入力された音声の種別として認識する。

因みにここでは、「鳥の声」は１回しか認識されておらず、なんらかのノイズの影響で誤認識されてしまったと考えられる。

しかし、最も多くの区間Ｔｎで認識された音声の種別を、撮影時に入力された音声の種別として認識することにより、一部の区間Ｔｎにおいて音声の種別を誤認識したとしても、撮影時に入力された音声の種別を誤認識するのを防ぐことができる。

このように制御部１１０は、撮影時にマイクロホン１０４から入力された音声の種別（例えば「セミの声」）を認識し、この音声の種別を記録制御部１１６に送って、次のステップＳＰ７に移る。

ステップＳＰ７において制御部１１０は、記録制御部１１６に、音声の種別を画像データにメタデータとして付加させ、画像ファイルＰＦを生成させる。すなわち記録制御部１１６は、図６に示すように、画像ファイルＰＦのメタデータ領域に音声の種別を記す。

そして制御部１１０は、記録制御部１１６に、この画像ファイルＰＦを記録媒体１１７に記録させ、音声種別認識処理手順ＲＴ１を終了する。

このような音声種別認識処理手順ＲＴ１により、ＤＳＣ１００は、画像の撮影時にマイクロホン１０４から入力された音声の種別を認識し、この音声の種別を当該画像と関連付けて記録媒体１１７に記録するようになっている。

［１−５．分類表示処理手順］
またＤＳＣ１００は、撮影時に入力された音声の種別に基づいて画像を分類して表示する分類表示処理を行うようになっている。以下、この分類表示処理における動作処理手順（これを分類表示処理手順とも呼ぶ）について図７に示すフローチャートを用いて説明する。この分類表示処理手順ＲＴ２は、ＤＳＣ１００の制御部１１０が、記憶部１１１に書き込まれているプログラムに従って実行する処理手順である。

制御部１１０は、操作入力部１１２を介して再生モードへ切り換えるよう指示されると、動作モードを再生モードに切り換えるとともに、分類表示処理手順ＲＴ２を開始して、ステップＳＰ１０１に移る。

ステップＳＰ１０１において制御部１１０は、図８に示すように、画像を分類して表示する際の条件をユーザに指定させる分類メニュー画面ＭＧを、液晶ディスプレイ１０６に表示させる。

具体的に分類メニュー画面ＭＧには、分類の対象とする画像の条件（これを対象画像条件とも呼ぶ）を指定するためのプルダウンメニューＰＭ１が設けられる。対象画像条件は、プルダウンメニューＰＭ１により、「全て」又は「月日指定」のいずれかを、操作入力部１１２を介してユーザが指定できるようになされる。

制御部１１０は、対象画像条件が「全て」に指定された場合、記録媒体１１７に記録されている全ての画像を分類の対象とする。

一方制御部１１０は、対象画像条件が「月日指定」に指定された場合、ユーザに指定された月日に記録された画像を分類の対象とする。

また分類メニュー画面ＭＧには、表示させる画像の大分類の条件（これを大分類条件とも呼ぶ）を指定するためのプルダウンメニューＰＭ２が設けられる。

大分類とは、似たような音声の種別をグルーピングしたものである。例えば、音声の種別が「波の音」、「川の音」などである画像は、大分類「自然」に分類され、音声の種別が「笑い声」、「歓声」などである画像は、大分類「盛り上り」に分類される。

大分類条件は、プルダウンメニューＰＭ２により、「自然」又は「盛り上り」のいずれかを、操作入力部１１２を介してユーザが指定できるようになされる。

制御部１１０は、分類メニュー画面ＭＧにおいてＯＫボタンＯＢが選択されると、ユーザの指定に基づいて対象画像条件及び大分類条件を設定し、次のステップＳＰ１０２に移る。

ステップＳＰ１０２において制御部１１０は、記憶部１１１に保持された分類テーブル１１１Ｂから、設定した大分類条件に対応する音声の種別を取得して、次のステップＳＰ１０３に移る。

具体的に図９に、分類テーブル１１１Ｂの例を示す。分類テーブル１１１Ｂにおいて、各大分類には、複数の音声の種別が対応づけられている。例えば、大分類「自然」には、「波の音」、「川の音」、「鳥の声」、「セミの声」といった音声の種別が対応づけられている。また例えば、大分類「盛り上り」には、「笑い声」、「歓声」、「拍手」といった音声の種別が対応づけられている。

ゆえに制御部１１０は、設定した大分類条件が例えば「自然」である場合、分類テーブル１１１Ｂに基づいて、「波の音」、「川の音」、「鳥の声」、「セミの声」という音声の種別を取得する。

ステップＳＰ１０３において制御部１１０は、取得した音声の種別をメタデータに含む画像ファイルＰＦを、設定した対象画像条件において分類の対象となる画像ファイルＰＦの中から検索する。

ここで、制御部１１０が取得した音声の種別が、例えば「波の音」、「川の音」、「鳥の声」、「セミの声」であるとする。この場合、制御部１１０は、音声の種別が「波の音」である画像ファイルＰＦ、音声の種別が「川の音」である画像ファイルＰＦ、音声の種別が「鳥の声」である画像ファイルＰＦ、音声の種別が「セミの声」である画像ファイルＰＦをそれぞれ検索する。

そして制御部１１０は、検索の結果得られた画像ファイルＰＦの中から画像データを抽出して、次のステップＳＰ１０４に移る。

ステップＳＰ１０４において制御部１１０は、抽出した画像データをもとに、図１０に示すような分類表示画面ＢＧを生成し、表示制御部１１４を介して液晶ディスプレイ１０６に表示させる。

具体的に制御部１１０は、分類表示画面ＢＧに、設定した大分類条件を示す大分類名ＣＮと、その大分類に対応する音声の種別を示す音声種別名ＭＮとを表示させる。

例えば、制御部１１０は、設定した大分類条件が「自然」である場合、大分類名ＣＮとして「自然」を表示させ、その下側に、音声種別名ＭＮである「波の音」、「川の音」、「鳥の声」、「セミの声」を表示させる。

また制御部１１０は、抽出した各画像データに基づく画像を縮小したサムネイル画像Ｔｈ（Ｔｈ１、Ｔｈ２、・・・、Ｔｈｎ）を生成する。そして制御部１１０は、サムネイル画像Ｔｈを音声の種別ごとにまとめたサムネイル群Ｔｈｇを、音声種別名ＭＮの下側近傍に表示させる。

例えば、制御部１１０は、音声種別名ＭＮである「川の音」の下側には、音声の種別が「川の音」である画像のサムネイル画像Ｔｈのサムネイル群Ｔｈｇを表示させる。

同様に制御部１１０は、音声種別名ＭＮ「波の音」の下側には音声の種別が「波の音」であるサムネイル群Ｔｈｇ、音声種別名ＭＮ「鳥の声」の下側には音声の種別が「鳥の声」であるサムネイル群Ｔｈｇ、音声種別名ＭＮ「セミの声」の下側には音声の種別が「セミの声」であるサムネイル群Ｔｈｇを表示させる。

つまり制御部１１０は、大分類ごとに分類された画像を、さらに音声の種別ごとに分類して液晶ディスプレイ１０６に表示させるようになされている。

このように制御部１１０は、分類表示画面ＢＧを液晶ディスプレイ１０６に表示させ、分類表示処理手順ＲＴ２を終了する。

上述したような分類表示処理手順ＲＴ２により、ＤＳＣ１００は、音声の種別に基づいて画像を分類して表示させるようになっている。

［１−６．画像音声再生処理手順］
さらにＤＳＣ１００は、画像をスライドショー形式で再生するとともに、当該画像の撮影時に入力された音声の種別に基づいて音声を選択して再生する画像音声再生処理を行うようになっている。以下、この画像音声再生処理における動作処理手順（これを画像音声再生処理手順とも呼ぶ）について図１１に示すフローチャートを用いて説明する。この画像音声再生処理手順ＲＴ３は、ＤＳＣ１００の制御部１１０が、記憶部１１１に書き込まれているプログラムに従って実行する処理手順である。

制御部１１０は、例えば分類表示画面ＢＧに表示されている画像の中からスライドショー形式で再生する画像がユーザに指定されると、画像音声再生処理手順ＲＴ３を開始して、ステップＳＰ２０１に移る。

例えば、ＤＳＣ１００では、ユーザが操作入力部１１２を介して分類表示画面ＢＧ（図８）に表示されている大分類名ＣＮを選択すると、その大分類名ＣＮが示す大分類に分類された画像を、再生する画像として指定できるようになされている。

またＤＳＣ１００では、ユーザが操作入力部１１２を介して分類表示画面ＢＧに表示されている音声種別名ＭＮを選択すると、その音声種別名ＭＮが示す音声の種別に分類された画像を、再生する画像として指定できるようになされている。

ステップＳＰ２０１において制御部１１０は、このようなユーザの指定に基づいてスライドショー形式で再生する画像を設定し、次のステップＳＰ２０２に移る。

ステップＳＰ２０２において制御部１１０は、図１２に示すように、画像をスライドショー形式で再生する際の条件をユーザに指定させるためのスライドショー設定メニュー画面ＳＧを液晶ディスプレイ１０６に表示させる。

具体的にスライドショー設定メニュー画面ＳＧには、スライドショー時に効果音を再生するか否かを選択する条件（これを効果音条件とも呼ぶ）を指定するためのプルダウンメニューＰＭ３が設けられる。効果音条件は、プルダウンメニューＰＭ３により、「有り」（効果音を再生する）又は「無し」（効果音を再生しない）のいずれかを、操作入力部１１２を介してユーザが指定できるようになされる。

またスライドショー設定メニュー画面ＳＧには、スライドショー時にＢＧＭを再生するか否かとＢＧＭの指定方法を選択する条件（これをＢＧＭ条件とも呼ぶ）を指定するためのプルダウンメニューＰＭ４が設けられる。ＢＧＭ条件は、プルダウンメニューＰＭ４により、「自動」（ＤＳＣ１００が自動で選択したＢＧＭを再生する）、「ユーザ指定」（ユーザが指定したＢＧＭを再生する）、「無し」（ＢＧＭを再生しない）のいずれかを、操作入力部１１２を介してユーザが指定できるようになされる。

制御部１１０は、スライドショー設定メニュー画面ＳＧにおいてＯＫボタンＯＢが選択されると、ユーザの指定に基づいて効果音条件及びＢＧＭ条件を設定し、次のステップＳＰ２０３に移る。

ステップＳＰ２０３において制御部１１０は、効果音条件が「有り」又は「無し」のどれに設定されているかを判別する。

このステップＳＰ２０３において効果音条件が「有り」と設定されていると判別されると、このことはスライドショー時に効果音を再生することを意味し、このとき制御部１１０はステップＳＰ２０４に移る。

ステップＳＰ２０４において制御部１１０は、分類テーブル１１１Ｂ（図８）から、再生するよう設定された画像に関連付けられている音声の種別に対応付けられている効果音を取得する。

例えば再生するよう設定された画像の音声の種別が「波の音」であったとする。このとき制御部１１０は、分類テーブル１１１Ｂから、「波の音」に対応付けられている効果音「波の音」を取得する。尚、効果音「波の音」は、記憶部１１１に保持されている効果音データベース１１１Ｃに格納されている波の音の効果音のデータを示している。

そして制御部１１０は、取得した効果音をスライドショー時に再生する効果音として選択して、次のステップＳＰ２０５に移る。

一方ステップＳＰ２０３において効果音条件が「無し」と設定されていると判別されると、このことはスライドショー時に効果音を再生しないことを意味し、このとき制御部１１０はステップＳＰ２０５に移る。

ステップＳＰ２０５において制御部１１０は、ＢＧＭ条件が「自動」又は「ユーザ指定」又は「無し」のどれに設定されているかを判別する。

このステップＳＰ２０５においてＢＧＭ条件が「自動」と設定されていると判別されると、このことはスライドショー時に再生するＢＧＭをＤＳＣ１００が自動で選択することを意味し、このとき制御部１１０はステップＳＰ２０６に移る。

ステップＳＰ２０６において制御部１１０は、分類テーブル１１１Ｂから、画像の大分類に対応付けられているＢＧＭを取得する。

例えば再生するよう設定された画像に関連付けられている音声の種別が「波の音」であったとすると、その画像の大分類は、「自然」となる。このとき制御部１１０は、分類テーブル１１１Ｂから、大分類「自然」に対応付けられているＢＧＭ「自然」を取得する。尚、ＢＧＭ「自然」は、記憶部１１１に保持されているＢＧＭデータベース１１１Ｄに格納されている自然をイメージしたＢＧＭのデータを示している。

そして制御部１１０は、取得したＢＧＭをスライドショー時に再生するＢＧＭとして選択して、次のステップＳＰ２０８に移る。

一方ステップＳＰ２０５においてＢＧＭ条件が「ユーザ指定」と設定されていると判別されると、このことはスライドショー時に再生するＢＧＭをユーザが指定することを意味し、このとき制御部１１０はステップＳＰ２０７に移る。

ステップＳＰ２０７において制御部１１０は、ＢＧＭデータベース１１１Ｄに格納されているＢＧＭの中から、スライドショー時に再生するＢＧＭをユーザに指定させるためのＢＧＭ指定画面（図示せず）を液晶ディスプレイ１０６に表示させる。そして制御部１１０は、操作部１１２を介してユーザにより指定されたＢＧＭをスライドショー時に再生するＢＧＭとして選択して、次のステップＳＰ２０８に移る。

また一方ステップＳＰ２０５においてＢＧＭ条件が「無し」と設定されていると判別されると、このことはスライドショー時にＢＧＭを再生しないことを意味し、このとき制御部１１０はステップＳＰ２０８に移る。

ステップＳＰ２０８において制御部１１０は、画像をスライドショー時に再生する音声（これをスライドショー用音声とも呼ぶ）を生成する。

例えば、スライドショー形式で再生する画像として、図１３に示すように、音声の種別が「波の音」の画像が４枚、「川の音」の画像が３枚、「鳥の声」の画像が２枚、「セミの声」の画像が３枚設定されている場合について説明する。

制御部１１０は、スライドショー時に再生する効果音を選択した場合、記憶部１１１に保持されている効果音データベース１１１Ｃから、選択した効果音のデータを読み出す。ここでは、制御部１１０は、効果音「波の音」、効果音「川の音」、効果音「鳥の声」、効果音「セミの声」のデータを読み出す。

なお制御部１１０は、スライドショーにおいて画像をそれぞれの音声の種別ごとに連続して再生するようになされている。例えば最初に、音声の種別が「波の音」の画像を４枚連続して再生した後、音声の種別が「川の音」の画像を３枚連続して再生する。その後、音声の種別が「鳥の声」の画像を２枚連続して再生した後、音声の種別が「セミの声」の画像を３枚連続して再生する。

ゆえに制御部１１０は、音声の種別が「波の音」の画像を再生している間は効果音「波の音」を再生できるよう、効果音「波の音」のデータを繰り返しつなぎあわせて、スライドショー用の効果音「波の音」のデータを生成する。

同様にして、効果音「川の音」、「鳥の声」、「セミの声」のデータについても、それぞれに対応する画像の再生時間に合わせて繰り返しつなぎあわせて、スライドショー用の効果音「川の音」、「鳥の声」、「セミの声」のデータを生成する。

そして制御部１１０は、スライドショー形式で画像が再生される順番に合わせて、スライドショー用の効果音「波の音」、「川の音」、「鳥の声」、「セミの声」のデータを順につなぎ合わせる。尚制御部１１０は、効果音の切り替わり目でノイズを発生させないよう、手前の効果音の終わりにはフェードアウト、後の効果音の始めにはフェードインの処理を施す。

このようにして制御部１１０は、スライドショー用の効果音のデータを生成する。尚、スライドショー時に再生するＢＧＭを選択していない場合は、これがスライドショー用音声のデータとなる。

一方制御部１１０は、スライドショー時に再生するＢＧＭを選択した場合、記憶部１１１に保持されているＢＧＭデータベース１１１Ｄから、選択したＢＧＭのデータを読み出す。ここでは、制御部１１０は、ＢＧＭ「自然」のデータを読み出す。

制御部１１０は、スライドショー形式で画像を再生している間は、ＢＧＭ「自然」を再生できるよう、ＢＧＭ「自然」のデータを繰り返しつなぎあわせて、スライドショー用のＢＧＭのデータを生成する。尚、スライドショー時に再生する効果音を選択していない場合は、これがスライドショー用音声のデータとなる。

さらに制御部１１０は、効果音及びＢＧＭの両方をスライドショー時に再生するよう選択した場合は、生成したスライドショー用の効果音のデータ及びＢＧＭのデータを合成（すなわちミックス）して、スライドショー用音声のデータを生成する。

尚制御部１１０は、効果音及びＢＧＭのいずれもスライドショー時に再生しないよう設定した場合は、スライドショー用音声を生成しない。

このように制御部１１０は、スライドショー時に再生する効果音やＢＧＭを選択した場合、スライドショー用音声を生成して、次のステップＳＰ２０９に移る。

ステップＳＰ２０９において制御部１１０は、画像をスライドショー形式で再生するとともに、スライドショー用音声を再生して、画像音声再生処理手順ＲＴ３を終了する。

この結果ＤＳＣ１００は、効果音条件「有り」且つＢＧＭ条件「無し」の場合は、例えば音声の種別が「波の音」である画像とともに効果音「波の音」のみを再生する。

またＤＳＣ１００は、効果音条件「無し」且つＢＧＭ条件「自動」の場合は、例えば音声の種別が「波の音」である画像とともにＢＧＭ「自然」のみを再生する。

またＤＳＣ１００は、効果音条件「有り」且つＢＧＭ条件「自動」の場合は、例えば音声の種別が「波の音」である画像とともに効果音「波の音」及びＢＧＭ「自然」をミックス再生する。

このような画像音声再生処理手順ＲＴ３により、ＤＳＣ１００は、画像をスライドショー形式で再生するとともに、画像の撮影時に入力された音声の種別に基づいて音声を選択して再生するようになされている。

［１−７．第１の実施の形態における動作及び効果］
以上の構成においてＤＳＣ１００の制御部１１０は、画像の撮影時にマイクロホン１０４から入力された音声の種別を認識して、ＤＳＣ１００の記録制御部１１６に送る。

記録制御部１１６は、制御部１１０から送られてきた音声の種別を画像データにメタデータとして付加することで、撮影した画像と、当該画像の撮影時に入力された音声の種別とを関連づけて記録媒体１１７に記録する。

そして制御部１１０は、似たような音声の種別ごとにグルーピングされたグループ（つまり大分類）のうち、ユーザに所望のグループが指定されると、指定されたグループに属している音声の種別が関連づけられている画像を検索する。

そして制御部１１０は、検索の結果得られた画像を、音声の種別ごとにまとめて、液晶ディスプレイ１０６に表示させる。

これにより、制御部１１０は、似たような音声の種別ごとにグルーピングされたグループごと且つ音声の種別ごとに画像を分類したことになる。

また制御部１１０は、グループごと且つ音声の種別ごとに画像を連続して再生すると共に、グループごとに選択したＢＧＭと音声の種別ごとに選択した効果音とを合わせて再生する。

このようにＤＳＣ１００は、画像とともに再生させる効果音やＢＧＭなどの音声を、当該画像の撮影時に入力された音声の種別に基づいて選択するようにした。これにより、ＤＳＣ１００は、例えば自然の音が聞こえる状況で撮影された画像とともに自然をテーマにしたＢＧＭを再生することができる。

つまりＤＳＣ１００は、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして当該画像に一段と適した音声を再生することができる。

またＤＳＣ１００は、グループごとに画像を連続して再生すると共にグループごとに選択したＢＧＭを再生するようにしたことにより、ＢＧＭを短時間で切り替えることなく再生できるので、ユーザに違和感や不快感などを与えないようにできる。またＤＳＣ１００は、音声の種別ごとに画像を連続して再生すると共に音声の種別ごとに選択した効果音を再生するようにしたことにより、効果音を短時間で切り替えることなく再生できるので、ユーザに違和感や不快感などを与えないようにできる。

さらにＤＳＣ１００は、グループごとに選択したＢＧＭと音声の種別ごとに選択した効果音とを合わせて再生することにより、画像に適した効果音及びＢＧＭの両方をユーザに聴取させることができ、一段と娯楽性を高めることができる。

さらにＤＳＣ１００は、撮影時に入力された音声の種別に基づいて画像を分類するようにしたことにより、どのような状況で画像を撮影したのかという観点から画像を分類することができる。

例えば撮影日時などよりも、どのような状況で画像を撮影したのかの方がユーザの印象に残りやすく、どのような状況で画像を撮影したのかという観点から分類した方が、ユーザが所望の画像を見付け出し易いと考えられる。

ゆえにＤＳＣ１００は、どのような状況で画像を撮影したのかという観点から画像を分類できるので、撮影日時で画像を分類する場合と比して、所望の画像をユーザが見付け出し易くすることができる。

ところで、画像の撮影時の状況に合った音声を再生するために、当該画像の撮影時に入力された音声を記録しておいて、画像の再生時にその音声をそのまま再生することも考えられる。しかし画像の撮影時に入力された音声には騒音が含まれている場合も多く、ユーザに不快感を与えてしまう可能性がある。

これに対して本発明のＤＳＣ１００は、画像とともに再生する音声を、撮影時に入力された音声の種別に基づいて、予め用意されている音声の中から選択するようにした。これにより本発明のＤＳＣ１００は、撮影時の状況に合っていて且つ騒音のない音声を画像とともに再生できるので、ユーザに不快感を与えることなく画像に適した音声を聴取させることができる。

以上の構成によれば、ＤＳＣ１００の制御部１１０は、画像とともに再生させる音声を、当該画像の撮影時にマイクロホン１０４から入力された音声の種別に基づいて選択するようにした。

これによりＤＳＣ１００は、画像とともに、当該画像の撮影時の状況に合った音声を再生することができ、かくして画像の再生とともに当該画像に一段と適した音声の再生を行うことができる。

＜２．第２の実施の形態＞
次に第２の実施の形態について説明する。この第２の実施の形態では、第１の実施の形態と異なり、ＤＳＣ１００は、撮影モードの間、マイクロホン１０４から入力された音声の種別を所定時間ごとに認識し続けるようになっている。

尚ＤＳＣ１００の構成については、第１の実施の形態と同様であるので第１の実施の形態を参照とする。

［２−１．音声種別認識処理］
ＤＳＣ１００の制御部１１０は、操作入力部１１２を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。これとともに、音声入力処理部１１５は、制御部１１０の制御のもと、マイクロホン１０４から入力される音声信号を音声データＤに変換して制御部１１０に送る。

制御部１１０は、所定時間（例えば１０秒）ごとに、音声入力処理部１１５から送られてきた音声データＤを解析して、上述した第１の実施の形態と同様にして音声の種別を認識する。

そして制御部１１０は、音声の入力日時とその音声の種別とを記録制御部１１６に送る。記録制御部１１６は、制御部１１０の制御のもと、送られてきた音声の入力日時とその音声の種別とを関連づけて、図１４に示す音声種別テーブルに登録する。尚、音声種別テーブルは記録媒体１１７に記録されている。

また制御部１１０は、音声の種別が切り替わったときだけ、音声の入力日時とその音声の種別とを記録制御部１１６に送り、記録制御部１１６に音声種別テーブルに登録させるようにしてもよい。

例えば図１４に示す音声種別テーブルでは、入力日時「２００９／８／１，１０：１５．００」及び音声の種別「セミの声」が登録されており、次に入力日時「２００９／８／１，１０：１７．１０」及び音声の種別「笑い声」が登録されている。

これは、「２００９／８／１，１０：１５．００」〜「２００９／８／１，１０：１７．１０」の間に入力された音声の種別は「セミの声」であったことを示している。また「２００９／８／１，１０：１７．１０」から音声の種別が「笑い声」に切り替わったことを示している。

尚制御部１１０は、例えばノイズなどにより音声の種別が認識できないときは、その前の音声の種別と同一であると認識するようにしてもよいし、前後の音声の種別から音声の種別を認識するようにしてもよい。

このようにＤＳＣ１００は、撮影モードの間マイクロホン１０４から入力された音声について、その音声の入力日時と種別とを関連付けて記録媒体１１７に記録するようになされている。これによりＤＳＣ１００は、撮影モードの間、いつどのような音声が入力されたかを認識できるようになされている。

［２−２．分類表示処理］
また上述した第１の実施の形態と同様に、第２の実施の形態におけるＤＳＣ１００も撮影時に入力された音声の種別に基づいて画像を分類して表示する分類表示処理を行うようになっている。

具体的に制御部１１０は、操作入力部１１２を介して、再生モードへ切り替えるよう指示されると、動作モードを再生モードに切り替えるとともに、分類メニュー画面ＭＧ（図８）を液晶ディスプレイ１０６に表示させる。

分類メニュー画面ＭＧは、上述した第１の実施の形態と同様に、対象画像条件及び大分類条件をユーザが指定できるようになされており、制御部１１０は、ユーザの指定に基づいて対象画像条件及び大分類条件を設定する。

そして制御部１１０は、分類テーブル１１１Ｂ（図９）から、設定した大分類条件に対応する音声の種別を取得する。

また制御部１１０は、設定した対象画像条件において分類の対象となる画像ファイルＰＦを記録媒体１１７から読み出す。

そして制御部１１０は、画像ファイルＰＦのメタデータに記されている撮影日時をもとに、音声種別テーブル（図１４）から、撮影日時にマイクロホン１０４から入力された音声の種別を取得する。つまり制御部１１０は、音声の入力日時及び種別と撮影日時とに基づいて、画像の撮影時にマイクロホン１０４から入力された音声の種別を判別する。

例えば、画像の撮影日時が「２００９／８／１，１０：１６．００」である場合、制御部１１０は、図１４に示す音声種別テーブルを用いて、画像の撮影時にマイクロホン１０４から入力された音声の種別を「セミの声」と判別する。

このようにして制御部１１０は、設定した対象画像条件により分類の対象となる画像すべてにおいて、当該画像の撮影時にマイクロホン１０４から入力された音声の種別を判別する。

そして制御部１１０は、判別した音声の種別に基づいて、設定した大分類条件に対応する音声の種別である画像を検索する。制御部１１０は、検索の結果得られた画像のサムネイル画像Ｔｈを、音声の種別ごとにサムネイル群Ｔｈｇとしてまとめて分類表示画面ＢＧ（図１０）に表示させる。

すなわち制御部１１０は、判別した音声の種別に基づいて画像を大分類ごと及び音声の種別ごとに分類して表示させるようになされている。

［２−３．画像音声再生処理］
さらに上述した第１の実施の形態と同様に、第２の実施の形態におけるＤＳＣ１００も画像とともに、当該画像の撮影時に入力された音声の種別に基づいて音声を選択して再生する画像音声再生処理を行うようになっている。

具体的に制御部１１０は、操作入力部１１２を介して、スライドショー形式で再生する画像がユーザに指定されると、ユーザの指定に基づいてスライドショー形式で再生する画像を設定する。

そして制御部１１０は、スライドショーメニュー設定画面ＳＧ（図１２）を液晶ディスプレイ１０６に表示させる。

スライドショーメニュー設定画面ＳＧは、上述した第１の実施の形態と同様に効果音条件及びＢＧＭ条件をユーザが指定できるようになされており、制御部１１０は、ユーザの指定に基づいて効果音条件及びＢＧＭ条件を設定する。

そして制御部１１０は、再生するよう設定された画像の画像ファイルＰＦを記録媒体１１７から読み出す。

制御部１１０は、画像ファイルＰＦのメタデータに記されている撮影日時をもとに、音声種別テーブル（図１４）から、撮影日時にマイクロホン１０４から入力された音声の種別を取得する。つまり制御部１１０は、音声の入力日時及び種別と撮影日時とに基づいて、画像の撮影時にマイクロホン１０４から入力された音声の種別を判別する。

このようにして制御部１１０は、再生するよう設定した画像すべてにおいて、当該画像の撮影時にマイクロホン１０４から入力された音声の種別を判別する。

そして制御部１１０は、効果音条件を「有り」と設定した場合、判別した音声の種別に対応する効果音を分類テーブル１１１Ｂ（図８）から取得して、画像とともに再生する効果音として選択する。

また制御部１１０は、ＢＧＭ条件を「自動」と設定した場合、判別した音声の種別に対応するＢＧＭを分類テーブル１１１Ｂから取得して、画像とともに再生するＢＧＭとして選択する。

そして制御部１１０は、スライドショー形式で画像を再生するとともに、選択した効果音又はＢＧＭ、又は選択した効果音及びＢＧＭの両方を再生する。

このように制御部１１０は、画像の撮影時にマイクロホン１０４から入力された音声の種別を判別し、判別した音声の種別に基づいて効果音やＢＧＭを選択して当該画像とともに再生するようになされている。

［２−４．第２の実施の形態における動作及び効果］
以上の構成においてＤＳＣ１００の制御部１１０は、撮影モードの間所定時間ごとに、マイクロホン１０４から入力された音声の種別を認識し、認識した音声の種別とその音声の入力日時とをＤＳＣ１００の記録制御部１１６に送る。

記録制御部１１６は、制御部１１０から送られてきた音声の種別とその音声の入力日時とを関連付けて記録媒体１１７に記録する。

制御部１１０は、画像を再生するようユーザに指定されると、記録媒体１１７に記録されている音声の種別及び入力日時と、再生するよう指定された画像の撮影日時とに基づいて、当該画像の撮影時に入力された音声の種別を判別する。

そして制御部１１０は、判別した音声の種別に基づいて効果音やＢＧＭなどの音声を選択して、画像とともに再生する。

このようにＤＳＣ１００は、撮影モードの間所定時間ごとに、マイクロホン１０４から入力された音声の種別を認識し、音声の種別及び入力日時と撮影日時とから、画像の撮影時にマイクロホン１０４から入力された音声の種別を判別するようにした。

これによりＤＳＣ１００は、撮影の前後に入力された音声の種別から、画像の撮影時の音声の種別を認識することができる。つまり、第２の実施の形態におけるＤＳＣ１００は、撮影後（シャッタボタン１０５押下後）に入力された音声の種別から撮影時の音声の種別を認識する第１の実施の形態と比して、一段と正確に画像の撮影時の音声の種別を認識することができる。

この他第２の実施の形態におけるＤＳＣ１００は、第１の実施の形態と同様の作用効果を奏しうる。

＜３．他の実施の形態＞
［３−１．他の実施の形態１］
尚上述した第１及び第２の実施の形態では、画像の撮影時にマイクロホン１０４から入力された音声の種別に基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにした。

これに限らず、制御部１１０は、画像の撮影時の音声の種別と当該画像に関連する他の情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。

例えば、制御部１１０は、画像の撮影時の音声の種別と、画像から認識された人物の顔の情報を示す顔情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。

この場合制御部１１０は、画像の撮影時に、画像を解析し人物の顔を認識する顔認識処理を行う。例えば制御部１１０は、画像から顔を認識できたか否か、認識された顔の個数は多いか否か、認識された顔は笑顔かなどを顔認識処理の結果として得る。

そして制御部１１０は顔認識処理の結果を顔情報として例えば画像ファイルＰＦのメタデータ領域に記すことで、画像と顔情報とを関連付けて記録する。

例えば制御部１１０は、顔を認識できなかった場合は「顔無し」、認識された顔の個数が多い場合は「顔多数」、認識された顔が笑顔の場合は「笑顔」、顔を認識したが「顔多数」でも「笑顔」でもない場合は「顔」を、顔情報として記録する。

そして制御部１１０は、図１５に示す分類テーブル１１１Ｂを用いて、音声の種別と顔情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりする。

例えば音声の種別が「波の音」且つ顔情報が「顔無し」の場合は、画像が海の風景を撮影したものである確率が高い。ゆえに制御部１１０は、分類テーブル１１５Ｂをもとに、当該画像を大分類「自然」に分類し、当該画像とともに再生する音声として効果音「波の音」又はＢＧＭ「自然」を選択するようになされている。

また制御部１１０は、万一、画像の撮影時に入力された音声の種別が認識できなかった場合（つまり音声の種別が「無し」の場合）でも、例えば顔情報が「笑顔」であれば、画像を大分類「盛り上り」に分類し、当該画像とともに再生する音声としてＢＧＭ「盛り上り」を選択してもよい。

こうすることで制御部１１０は、万一、画像の撮影時に入力された音声の種別が認識できなかった場合でも、画像を分類したり画像の撮影時の状況に合った音声を選択して再生したりすることができる。

またこれに限らず、制御部１１０は、画像の撮影時の音声の種別と、撮影時の場所情報とに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。

この場合ＤＳＣ１００には、現在位置を測位するＧＰＳ（Global Positioning System）モジュール（図示せず）が設けられているとする。制御部１１０は、画像の撮影時に、ＧＰＳモジュールから現在位置を示す現在位置情報（緯度、経度）を取得する。

そして制御部１１０は、位置情報（緯度、経度）とその位置がどのような場所であるか（例えば海付近か、都市かなど）を示す場所情報とが関連づけられて登録されている場所情報データベースから、現在位置情報をもとに、現在位置の場所情報を取得する。

そして制御部１１０は、取得した場所情報を、画像撮影時の場所情報として例えば画像ファイルＰＦのメタデータ領域に記すことで、画像と場所情報とを関連付けて記録する。

例えば制御部１１０は、撮影場所が海付近の場合は「海」、山付近の場合は「山」、川付近の場合は「川」を場所情報として記録する。

そして制御部１１０は、分類テーブル１１１Ｂ（図１５）をもとに、例えば音声の種別が「川の音」且つ場所情報が「川」の場合は、画像を大分類「自然」に分類し、画像とともに再生する音声として効果音「川の音」又はＢＧＭ「自然」を選択する。

また制御部１１０は、万一、画像の撮影時の音声の種別が認識できなかった場合でも、例えば場所情報が「海」、「川」、「山」のいずれかであれば、画像を大分類「自然」に分類し、画像とともに再生する音声としてＢＧＭ「自然」を選択してもよい。

またこれに限らず、制御部１１０は、画像の撮影時の音声の種別と、撮影モードとに基づいて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。

この場合制御部１１０は、画像の撮影時、画像を解析し撮影シーンを認識するシーン認識処理を行い、撮影シーンに合った撮影モードで画像を撮影する。

制御部１１０は、例えば画像から顔を認識できた場合は人物を撮影している、つまり撮影シーンが「人物」であると認識し、撮影モードを「人物」に設定する。また例えば制御部１１０は、画像に青色の部分が多い（つまり空の占める割合が多い）場合は風景を撮影している、つまり撮影シーンが「風景」であると認識し、撮影モードを「風景」に設定する。

尚制御部１１０は、ユーザにより指定された撮影モードで画像を撮影するようにしてもよい。

そして制御部１１０は、画像の撮影モードを例えば画像ファイルＰＦのメタデータ領域に記すことで、画像と撮影モードとを関連づけて記録する。

そして制御部１１０は、分類テーブル１１１Ｂ（図１５）をもとに、例えば音声の種別が「鳥の声」且つ撮影モードが「風景」の場合は、画像を大分類「自然」に分類し、画像とともに再生する音声として効果音「鳥の声」又はＢＧＭ「自然」を選択する。

またこれに限らず、制御部１１０は、画像の撮影時の音声の種別と、顔情報、場所情報、撮影モードのいずれかまたは全てを組み合わせて、画像を分類したり、画像とともに再生する音声を選択したりするようにしてもよい。

例えば制御部１１０は、分類テーブル１１１Ｂ（図１５）をもとに、例えば音声の種別が「セミの声」、顔情報が「顔無し」、場所情報が「山」、撮影モードが「風景」の場合に、画像を大分類「自然」に分類するようにしてもよい。またこの場合、当該画像とともに再生する音声として効果音「鳥の声」又はＢＧＭ「自然」を選択するようにしてもよい。

このようにＤＳＣ１００は、画像の音声の種別に加えて画像に関連する情報にも基づいて画像を分類することで、画像の分類の精度を高めることができる。またＤＳＣ１００は、画像の音声の種別に加えて画像に関連する情報にも基づいて画像とともに再生する音声を選択することで、一段と画像の撮影時の状況に合った音声を選択して画像とともに再生することができる。

［３−２．他の実施の形態２］
また上述した第１及び第２の実施の形態では、画像の大分類として「自然」「盛り上り」を用いるようにしたが、これに限らず、種々の大分類を用いるようにしてもよい。

例えば図１６に示すように、大分類として季節（春夏秋冬）を用いるようにしてもよい。この場合、制御部１１０は、例えば音声の種別が「ウグイスの声」の画像を大分類「春」に分類し、「セミの声」及び「波の音」の画像を大分類「夏」に分類し、「鈴虫の声」の画像を大分類「秋」に分類し、「風の音」の画像を大分類「冬」に分類する。

さらに上述した第１及び第２の実施の形態では、制御部１１０は、音声の種別ごとに効果音を選択するようにしたが、これに限らず、例えば大分類ごとに効果音を選択するようにしてもよい。

例えば図１６では、制御部１１０は、大分類が「夏」の場合、夏をイメージした効果音である効果音「夏」を選択する。

この効果音「夏」は例えばセミの声であるとすると、音声の種別が例えば「波の音」であっても、制御部１１０は、大分類である「夏」に基づいて効果音「夏」を選択し、セミの声を効果音として再生することとなる。つまり制御部１１０は、撮影時に入力されていない音声であっても、画像の撮影時の状況（例えば季節など）に合っていれば、画像とともに再生する効果音やＢＧＭとして選択してもよい。

またこれに限らず、制御部１１０は、音声の種別ごとにＢＧＭを選択するようにしてもよい。

またこれに限らず、制御部１１０は、音声の種別と撮影日時とに基づいて、画像を分類したり、画像とともに再生する効果音やＢＧＭを選択したりするようにしてもよい。

この場合、例えば図１６では、制御部１１０は、音声の種別が「ウグイスの声」且つ撮影日時が「春」である場合、画像を大分類「春」に分類する。また制御部１１０は、音声の種別が「ウグイスの声」且つ撮影日時が「春」である場合、効果音「春」またはＢＧＭ「春」を画像とともに再生する効果音またはＢＧＭとして選択する。

［３−３．他の実施の形態３］
また上述した第１の実施の形態では、音声種別認識期間をＭ等分に分割した区間Ｔｎごとに音声データを解析して音声の種別を認識し、最も多くの区間Ｔｎで認識した音声の種別を、撮影時に入力された音声の種別であると認識するようにした。

これに限らず、この他種々の方法で画像の撮影時に入力された音声の種別を認識するようにしてもよい。

例えば制御部１１０は、区間Ｔｎごとに認識した音声の種別のうち、Ｘ％以上の区間Ｔｎで認識した音声の種別を撮影時に入力された音声の種別として認識するようにしてもよい。

この場合、例えばＸ＝３０とすると、図４において、制御部１１０は、１２個の区間Ｔｎのうち４個以上の区間Ｔｎで認識した「セミの声」及び「笑い声」を撮影時に入力された音声の種別として認識することになる。

またこのように複数の音声の種別を認識した場合、記録制御部１１６は、複数の音声の種別をメタデータとして画像データに付加するようにしてもよい。この場合、制御部１１０は、画像を再生するとともに、複数の音声の種別のそれぞれに対応付けられている効果音をミックスして再生するようにしてもよい。

例えば画像に音声の種別として「川の音」と「セミの声」とが関連付けられている場合、制御部１１０は、当該画像を再生する際に、効果音「川の音」と効果音「セミの声」とをミックスして再生するようにしてもよい。こうすることでＤＳＣ１００は、画像とともに、より臨場感あふれる音声を再生することができる。

また例えば制御部１１０は、連続したＹ個以上の区間Ｔｎで認識した音声の種別を撮影時に入力された音声の種別として認識するようにしてもよい。

この場合、例えばＹ＝４とすると、図４において、制御部１１０は、連続した４個の区間Ｔｎで認識した「笑い声」を画像撮影時の音声の種別として認識することになる。

また制御部１１０は、種々の認識方法を組み合わせるようにしてもよい。例えば、制御部１１０は、Ｘ％以上の区間Ｔｎで認識し、且つ連続したＹ個以上の区間Ｔｎで認識した音声の種別を撮影時に入力された音声の種別として認識するようにしてもよい。

［３−４．他の実施の形態４］
さらに上述した第１の実施の形態では、制御部１１０は、画像をスライドショー形式で再生する前に、スライドショー用音声を生成するようにした。

これに限らず、制御部１１０は、画像をスライドショー形式で再生しながら、スライドショー用音声を生成して再生するようにしてもよい。

［３−５．他の実施の形態５］
さらに上述した第１及び第２の実施の形態では、ＤＳＣ１００が音声種別認識処理、分類表示処理、画像音声再生処理を行う場合について述べた。

これに限らず、音声種別認識処理、分類表示処理、画像音声再生処理を別々の機器で行うようにしてもよい。例えば、ＤＳＣ１００が音声種別認識処理を行って、音声の種別を画像と関連付けて画像ファイルＰＦとして記録媒体１１７に記録した後、外部のパーソナルコンピュータが記録媒体１１７から画像ファイルＰＦを読み出して、分類表示処理、又は画像音声再生処理を行うようにしてもよい。

［３−６．他の実施の形態６］
さらに上述した第１及び第２の実施の形態では、特徴データベース１１１Ａ、効果音データベース１１１Ｃ、ＢＧＭデータベース１１１ＤがＤＳＣ１００の記憶部１１１に保持されている場合について述べた。

これに限らず、特徴データベース１１１Ａ又は効果音データベース１１１Ｃ又はＢＧＭデータベース１１１Ｄが外部装置に保持されていてもよい。この場合、ＤＳＣ１００がネットワークを介して当該外部装置と接続することにより、特徴データベース１１１Ａ又は効果音データベース１１１Ｃ又はＢＧＭデータベース１１１Ｄからデータを取得するようにすればよい。

［３−７．他の実施の形態７］
さらに上述した第１及び第２の実施の形態では、情報処理装置としてのＤＳＣ１００に、制御部、分類部、認識部としての制御部１１０と、撮像部としての撮像部１１３と、記録制御部としての記録制御部１１６とを設けるようにした。

本発明はこれに限らず、同様の機能を有するのであれば、上述したＤＳＣ１００の各部を、他の種々のハードウェアもしくはソフトウェアにより構成するようにしてもよい。

さらに上述した第１及び第２の実施の形態では、ＤＳＣ１００に本発明を適用するようにした。これに限らず、デジタルビデオカメラ、携帯電話機、パーソナルコンピュータ、デジタルフォトフレーム、テレビジョン受像機など、この他種々の機器に適用するようにしてもよく、また適用することができる。

［３−８．他の実施の形態８］
さらに上述した第１の実施の形態では、音声種別認識処理手順ＲＴ１、分類表示処理手順ＲＴ２、画像音声処理手順ＲＴ３を実行するためのプログラムを、ＤＳＣ１００の記憶部１１１に書き込んでおくようにした。

これに限らず、このプログラムを例えば記録媒体１１７に記録しておき、ＤＳＣ１００の制御部１１０が、このプログラムを記録媒体１１７から読み出して実行するようにしてもよい。また記録媒体１１７から読み出したプログラムを、記憶部１１１にインストールするようにしてもよい。

さらに、このプログラムを、ネットワーク上の所定のサーバからダウンロードして、記憶部１１１にインストールしてもよい。

［３−９．他の実施の形態９］
さらに本発明は、上述した第１及び第２の実施の形態と他の実施の形態とに限定されるものではない。すなわち本発明は、上述した第１及び第２の実施の形態と他の実施の形態の一部または全部を任意に組み合わせた形態、もしくは一部を抽出した形態にもその適用範囲が及ぶものである。

本発明は、画像と音声とを再生する機能を有する電子機器で広く利用することができる。

１……情報処理装置、２、１１０……制御部、３、１０４……マイクロホン、４……分類部、５……再生部、６、１１３……撮像部、７……認識部、８、１１７……記録媒体、９、１１６……記録制御部、１００……ＤＳＣ、１０３……レンズ、１０６……液晶ディスプレイ、１０７……スピーカ、１１１……記憶部、１１４……表示制御部。

Claims

画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択する制御部
を具える情報処理装置。
上記種別に基づいて上記画像を分類する分類部
を具える請求項１に記載の情報処理装置。
上記分類部は、
上記種別ごとに上記画像を分類し、
上記制御部は、
上記種別ごとに上記画像を連続して再生部に再生させると共に、上記種別ごとに音声を選択して再生部に再生させる
請求項２に記載の情報処理装置。
上記種別は、少なくとも１以上のグループにグルーピングされており、
上記分類部は、
上記グループごとに上記画像を分類し、
上記制御部は、
上記グループごとに上記画像を連続して再生部に再生させると共に、上記グループごとに音声を選択して再生部に再生させる
請求項２に記載の情報処理装置。
上記種別は、少なくとも１以上のグループにグルーピングされており、
上記制御部は、
上記画像とともに再生させる音声として、当該画像の撮影時にマイクロホンから入力された音声の種別に対応付けられている音声と、当該種別が属するグループに対応付けられている音声とを選択する
請求項２に記載の情報処理装置。
撮像部と、
マイクロホンから入力された音声の種別を認識する認識部と
上記撮像部で撮像した画像と、当該画像の撮影時に上記認識部により認識された種別とを関連付けて記録媒体に記録する記録制御部
を具え、
上記制御部は、
上記記録媒体に記録された画像とともに再生させる音声を、当該画像に関連付けられている上記種別に基づいて選択する
請求項１に記載の情報処理装置。
撮像部と、
マイクロホンから入力された音声の種別を認識する認識部と
上記認識部により認識された種別と当該音声の入力日時とを関連付けて記録媒体に記録する記録制御部
を具え、
上記制御部は、
上記記録媒体に記録されている音声の種別及び入力日時と、上記撮像部で撮像した画像の撮影日時とに基づいて、当該画像の撮影時に入力された音声の種別を判別し、判別した種別に基づいて当該画像とともに再生させる音声を選択する
請求項１に記載の情報処理装置。
情報処理装置の制御部が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択する
音声選択方法。
情報処理装置の制御部が、画像とともに再生させる音声を、当該画像の撮影時にマイクロホンから入力された音声の種別に基づいて選択するステップ
を情報処理装置に実行させるための音声選択プログラム。