JP2014122978A

JP2014122978A - 撮像装置、音声認識方法、及びプログラム

Info

Publication number: JP2014122978A
Application number: JP2012278432A
Authority: JP
Inventors: Takeshi Iwamoto; 健士岩本
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2014-07-03

Abstract

【課題】音声認識の精度を向上させた撮像装置を提供する。
【解決手段】音声入力部１２１は、所定の音声入力条件にしたがって、音声を入力する。音声認識部１１２は、所定の音声認識条件にしたがって、音声入力部１２１によって入力された音声を認識する。撮影指示部１１１は、音声認識部１１２による音声の認識の結果に基づいて、撮影に関する指示を行う。条件変更部１１３は、撮影に関する状況に応じて、音声入力部１２１における音声入力条件又は音声認識部１１２における音声認識条件を変更する。
【選択図】図３

Description

本発明は、音声認識による制御機能を備えた、撮像装置、音声認識方法、及びプログラムに関する。

近年、音声で操作指示を入力することができるデジタルカメラの需要が高まりつつある。例えば、特許文献１には、操作者（ユーザ）から発せられた音声をマイクロフォンで入力し、マイクロフォンと操作者との距離に応じて当該音声のゲイン調整をするデジタルカメラが開示されている。

特開２００９−２２９８９９号公報

しかしながら、操作指示を音声入力する従来のデジタルカメラにおいては、入力された音声の認識精度が十分でなく、正確な操作指示が受け付けられないおそれがある。
具体的には例えば、このようなデジタルカメラの多くには、特許文献１に開示されているように、操作指示を音声で入力するために、筺体の前面にマイクロフォンが設けられている。これは、音源が筺体の前方に存在することが前提となっているためである。ところが、実際には、音声による操作者が自身を撮影する場合には、筺体の前方に操作者（音源）が位置することになるが、音声による操作者が他の被写体を撮影する場合には、筺体の後方に操作者（音源）が位置することになる。それにも関わらず、音声のゲイン調整のみでは、音声の認識精度が不十分になり、正確な操作指示が受け付けられないおそれがある。

本発明は、このような状況に鑑みてなされたものであり、音声認識による制御機能を備えた撮像装置の音声認識の精度を向上させることを目的とする。

上記目的を達成するため、本発明の一態様の撮像装置は、所定の音声入力条件にしたがって、音声を入力する音声入力手段と、所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、を備えることを特徴とする。

本発明によれば、音声認識による制御機能を備えた撮像装置の音声認識の精度を向上させることができる。

本発明の第１実施形態の撮像装置のハードウェアの構成を示すブロック図である。本発明の第１実施形態の撮像装置に対する、撮影者及び被撮影者の相対的な位置関係を模式的に示す図である。図１に示した撮像装置の構成のうち、音声認識処理を実行するための機能的構成を示す機能ブロック図である。第１実施形態の撮像装置が実行する音声認識処理の流れを説明するフローチャートである。図４に示した音声認識処理のうち前方用音声認識処理の詳細を説明するためのフローチャートである。図４に示した音声認識処理のうち後方用音声認識処理の詳細を説明するためのフローチャートである。本発明の第２実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。本発明の第２実施形態の特定情報を例示した図である。本発明の第３実施形態の撮像装置のハードウェア構成を示した図である。本発明の第３実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。本発明の第３実施形態の撮像装置の機能等が使用される確率を例示する図である。

以下、本発明の実施形態について、図面を用いて説明する。

［第１実施形態］
図１は、本発明の第１実施形態に係る撮像装置のハードウェアの構成を示すブロック図である。
撮像装置１は、例えば、音声による操作指示を入力可能な（以下、「音声操作可能な」と記す）デジタルカメラとして構成される。

撮像装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、画像処理部１４と、バス１５と、入出力インターフェース１６と、撮像部１７と、入力部１８と、出力部１９と、記憶部２０と、通信部２１と、ドライブ２２と、を備えている。
入力部１８には、操作指示等の音声が入力されるマイクロフォン７１が含まれている。マイクロフォン７１は、撮像装置１の前面に設けられている。第１実施形態では、マイクロフォン７１としては、操作者等の音源の、撮像装置１を基準にした方向（以下、「音声の入力方向」と呼ぶ）を特定することができるステレオマイクロフォンが採用されている。
なお、本明細書において、撮像装置１の前面とは、図示はしないが、撮像装置１の筺体の面のうち、レンズが設けられている面をいう。また、撮像装置１の前面と対向する面を、「背面」と呼ぶ。さらに、撮像装置１のレンズが向けられた方向を撮像装置１の「前方」と呼び、撮像装置１の背面が向けられた方向を撮像装置１の「後方」と呼ぶ。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部２０からＲＡＭ１３にロードされたプログラムにしたがって各種の処理を実行する。

ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

画像処理部１４は、後述する撮像画像等の各種画像のデータに対して、各種各様の画像処理を施す。画像処理としては、例えば、色補正、明るさの調整、パターン認識等がある。また、後述するように、画像処理部１４は、撮像画像等に含まれる人間の顔を検出する、顔検出処理も適宜実行する。

ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、及び画像処理部１４は、バス１５を介して相互に接続されている。このバス１５には、入出力インターフェース１６も接続されている。入出力インターフェース１６には、撮像部１７、入力部１８、出力部１９、記憶部２０、通信部２１及びドライブ２２が接続されている。

撮像部１７は、図示はしないが、光学レンズ部と、イメージセンサと、を備えている。

光学レンズ部は、被写体を撮影するために、光を集光するレンズ、例えばフォーカスレンズやズームレンズ等で構成される。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。撮像装置１は、イメージセンサ上の被写体像により、ズームレンズが焦点距離を適正な距離に自動的に合わせるオートフォーカス（ＡｕｔｏＦｏｃｕｓ）機能を備えている。
光学レンズ部にはまた、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。

イメージセンサは、光電変換素子や、ＡＦＥ（ＡｎａｌｏｇＦｒｏｎｔＥｎｄ）等から構成される。
光電変換素子は、例えばＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換（撮像）して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてＡＦＥに順次供給する。
ＡＦＥは、このアナログの画像信号に対して、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部１７の出力信号として出力される。
このような撮像部１７の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、ＣＰＵ１１や画像処理部１４等に適宜供給される。

入力部１８は、マイクロフォン７１の他、各種釦等で構成され、ユーザの操作指示に応じて各種情報を入力する。
出力部１９は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部２０は、ハードディスクやＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、撮像画像のデータ等各種データを記憶する。
通信部２１は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。

ドライブ２２には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２２によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部２０にインストールされる。また、リムーバブルメディア３１は、記憶部２０に記憶されている撮像画像のデータ等の各種データも、記憶部２０と同様に記憶することができる。

以上のハードウェア構成を有する撮像装置１は、音声認識処理を実行することができる。
音声認識処理とは、操作者が操作指示を音声でしたことに伴い、当該音声を入力し、音声認識処理を実行し、その音声認識結果に基づいて、撮影に関する指示をするまでの一連の処理をいう。後述するように、撮影に関する状況に応じ、音声入力や音声認識の条件を変更する処理も、音声認識処理に含まれる。
ここで、図２を参照しつつ、音声認識処理についてさらに詳しく説明する。

図２（ａ）〜（ｃ）は、撮像装置１に対する、撮影者及び被撮影者の相対的な位置関係を模式的に示す図である。図２（ａ）は、撮影者Ｐが自身以外の被撮影者Ｑを被写体として撮影する状況を示している。また、図２（ｂ）は、図２（ａ）に示した撮影者Ｐと被撮影者Ｑとの状況において、被撮影者Ｑが音声を発生して撮像装置１を操作する状況を示している。図２（ｃ）は、撮影者Ｑが自身を被写体として撮影する状況を示している。
図２（ａ）、（ｂ）、（ｃ）に示したように、撮影者Ｐ及び被撮影者Ｑのいずれもが、マイクロフォン７１に音声を入力し得る。即ち、撮像装置１のマイクロフォン７１には、撮影の状況により、前方からも後方からも音声が入力され得る。
このため、撮像装置１は、撮影者Ｐと被撮影者Ｑのうち音声を発生した者（以下、「音声発生者」と呼ぶ）を操作者として、撮像装置１に対する操作者の、撮像装置１に対する相対的な位置等の撮影に関する状況を特定する。そして、撮像装置１は、操作者の音声を認識するに際し、その音声認識率を向上させるべく、操作者の位置等の撮影に関する状況に応じて、音声を入力（録音）する際の条件（以下、「音声入力条件」と呼ぶ）を変更する。

詳細には、図２（ａ）乃至（ｃ）のうち何れか１つに示した状態において、撮像装置１は、自機に対して行われた操作の内容や、被写体（図２（ａ）、（ｂ）の状況であれば被撮影者Ｑであり、図２（ｃ）の状況であれば撮影者Ｐ）の状態から、撮影者Ｐと被撮影者Ｑのうち何れが音声発話者（操作者）であるのかを特定する。ここで、撮像装置１に対して行われた操作の内容としては、例えば、撮像装置１に指示が入力される時間間隔がある。また、被写体の状態としては、例えば、撮像装置１（正確にはイメージセンサ）と被写体との距離（以下、「焦点距離」と記す）や、撮像画像内の顔の有無等がある。

そして、撮像装置１は、特定結果に基づいて、音声を入力する際の音声入力条件を変更する。音声入力条件としては、例えば、音声を増幅する際のゲインやノイズ除去の条件等が存在する。

また、操作者が撮像装置１の後方で発話すると、操作者が撮像装置１の前方で発話するよりも、高域の周波数特性が劣化することが知られている。このため、第１実施形態の撮像装置１は、操作者が撮像装置１の後方に位置する場合、音声の高域の周波数が除去されないようにノイズフィルタを調整したり、高域の周波数のゲインを他の領域の周波数のゲインよりも高める等し、音声の周波数特性を変更することも可能である。

撮像装置１は、変更後の音声入力条件にしたがって、マイクロフォン７１に入力された音声に対して、増幅したり、ノイズを除去する処理を施す。そして、撮像装置１は、増幅やノイズ除去後の音声を認識し、その音声認識結果に基づいて操作指示の内容を特定して、撮像部１７に指示を出す。
以上の一連の処理が、音声認識処理である。

なお、音声認識処理が実行される場合、撮像部１７は、ライブビュー撮像処理及びライブビュー表示処理を実行している。
撮像部１７から順次出力される撮像画像のデータは、メモリ（本実施形態では図１に示した記憶部２０）に一時的に記憶される。このような一連の制御処理が、ここでいう「ライブビュー撮像処理」である。
また、メモリに一時的に記録された各撮像画像のデータは、順次読み出されて、図１に示した出力部１９に順次表示される。このような一連の制御処理が、ここでいう「ライブビュー表示処理」であり、ライブビュー表示処理により出力部１９に表示されている撮像画像が、ここでいう「ライブビュー画像」である。

ユーザは、ライブビュー画像をみながら構図を決めて、撮像画像の記録の操作指示として、入力部１８のシャッタボタンを下限まで押下することができる。このように、シャッタボタンを下限まで押下する操作を、以下、「全押し操作」又は単に「全押し」と呼ぶ。
また、ユーザは、全押し操作をする前に、オートフォーカス等を撮像装置１に実行させるため、入力部１８のシャッタボタンを途中（下限に至らない所定の位置）まで押下する操作を行うことができる。なお、このように、シャッタボタンを途中（下限に至らない所定の位置）まで押下する操作を、以下、「半押し操作」又は単に「半押し」と呼ぶ。

図３は、撮像装置１の機能的構成のうち、以上説明したような音声認識処理を実行するための機能的構成を示す機能ブロック図である。

図３に示すように、音声認識処理が実行される場合には、ＣＰＵ１１において、撮影指示部１１１と、音声認識部１１２と、条件変更部１１３と、位置特定部１１４と、音声発生者特定部１１５と、が機能する。また、画像処理部１４において、顔検出部１４１が機能する。

撮影指示部１１１は、音声認識部１１２の音声認識結果に基づいて、撮影に関する指示を行う。
音声認識部１１２は、所定の音声認識条件にしたがって、入力された音声を認識する音声認識処理を実行する。音声認識部１１２には、音声入力部１２１が含まれている。音声入力部１２１は、所定の音声入力条件にしたがって、マイクロフォン７１を介して音声を入力する。
条件変更部１１３は、撮影に関する状況に応じ、音声入力部１２１における音声入力条件や、音声認識部１１２における音声認識条件を変更する。

ここで、撮影に関する状況は、特に限定されないが、本実施形態では、撮像部１７の撮影状況や、撮像画像に対する顔検出の結果等が採用されている。そして、これらの撮影に関する状況に基づいて、音声発生者が特定され、その音声発生者の位置が特定され、その特定結果に基づいて、音声入力条件や音声認識条件が変更される。
このため、本実施形態の音声認識処理が実行される場合には、位置特定部１１４乃至顔検出結果取得部１１７が機能する。
位置特定部１１４は、音声発生者特定部１１５の特定結果に基づいて、音声発生者の位置を特定する。
音声発生者特定部１１５は、撮影状況検出部１１６の検出結果や、顔検出結果取得部１１７により取得された顔検出の結果に基づいて、撮像装置１に操作指示を行った音声発生者（即ち操作者）を特定する。
撮影状況検出部１１６は、撮像部１７による撮像動作に関する各種情報を用いて、撮影状況を検出する。
顔検出結果取得部１１７は、顔検出部１４１による顔検出の結果を取得する。
顔検出部１４１は、撮像画像の中から人間の顔を検出する、顔検出処理を実行する。なお、顔検出処理は、例えば、Ａｄａｂｏｏｓｔをベースにした顔検出プログラム等、公知の技術を採用することができる。

以下、さらに、図３の機能的構成について、詳細に説明する。

撮影指示部１１１は、例えば、オートフォーカスの動作が半押し等の操作によって又は音声入力によって実行されたことを示す情報を、撮影状況検出部１１６に出力する。
撮影状況検出部１１６は、例えば撮像部１７においてオートフォーカスの動作が実行されている場合、当該動作が半押し等の物理的操作によって行われたのか、それとも、音声入力による操作指示によって行われたのか等の情報を、撮像部１７や撮影指示部１１１から入力する。この場合、撮影状況検出部１１６は、情報が入力される毎に、当該情報をその入力時刻と対応付けて記録しておくことで、撮像装置１に対する操作の時間間隔を記録することができる。なお、操作の記録については、多数の操作について記録する必要はなく、数回分、あるいは直前になされた操作と今回行われた操作との時間間隔だけを記録するようにしてもよい。撮影状況検出部１１６は、記録された時間間隔を示す情報を、音声発生者特定部１１５に出力する。

また、撮影状況検出部１１６は、オートフォーカスの実行結果に基づいて焦点距離を検出し、焦点距離を示す情報を、撮影状況検出部１１６に出力する。

画像処理部１４の顔検出部１４１は、上述の焦点距離の検出と並行し、ライブビュー画像から顔検出処理を実行する。顔検出部１４１は、顔の検出に成功した場合、その検出結果を顔検出結果取得部１１７に出力する。
さらに、第１実施形態では、顔が検出された場合、顔検出部１４１は、検出された顔の口が動いたか否かを検出する。顔検出部１４１は、口が動いたか否かを示す情報を顔検出結果取得部１１７に出力する。

以上まとめると、本実施形態では、撮影状況検出部１１６は、焦点距離を示す情報と、操作の時間間隔を示す情報とを、撮影に関する状況の１つとして音声発生者特定部１１５に出力する。また、顔検出結果取得部１１７は、顔検出の結果、例えば顔検出がされたか否か（以下、「顔検出の有無」とも呼ぶ）を示す情報を、撮影に関する状況の別の１つとして、音声発生者特定部１１５に出力する。

音声発生者特定部１１５は、このようにして撮影状況検出部１１６や顔検出結果取得部１１７から出力された、焦点距離、操作の時間間隔、顔検出の有無等の撮影に関する状況を示す情報に基づいて、撮像装置１の音声発生者（操作者）が、撮像装置１の前方に位置しているのか、それとも後方に位置しているのかを特定する。

即ち、撮像装置１を操作する操作者が自身を被写体としない場合（図２（ａ）、（ｂ）参照）、撮影者たる操作者は、撮像装置１のライブビュー画像を目視できる位置（撮像装置１の後方）に存在する。その一方で、被写体は遠方に存在している場合と、比較的近傍に存在する場合（図２（ｂ）参照）とがと考えられる。また、撮影者たる操作者が自身を被写体とする場合（図２（ｃ）参照）、被写体（操作者）は、撮像装置１の前方に位置し、かつ、自身を被写体としない場合に比較して近傍に存在すると考えられる。このため、焦点距離は、操作者が被写体であって撮像装置１の前方に位置しているか、操作者が撮影者（被写体は自身以外）であって後方に位置している（即ち操作者は被写体ではない）かを特定する要素となり得る。

また、操作者が自身を被写体とする場合、操作者は、撮像装置１の後方でライブビュー画像を確認した後に撮像装置１の前方に移動するか、又は撮像装置１を反転させることになる。このような操作においては、自身を被写体とせず、撮像装置１の後方に位置したまま撮像の操作を行うよりも操作の時間間隔が長くなると考えられる。このため、撮像装置１の操作の時間間隔は、操作者が被写体であって撮像装置１の前方に位置しているか、操作者が撮影者（被写体は自身以外）であって後方に位置しているか（即ち操作者は被写体ではない）を特定する要素となり得る。

さらに、操作者が自身を被写体とする場合、当然のことながら、ライブビュー画像からは顔が検出されると考えられる。このため、顔検出の有無は、操作者が被写体であって撮像装置１の前方に位置しているか、操作者が撮影者（被写体は自身以外）であって後方に位置しているか（即ち操作者は被写体ではない）を特定する要素となり得る。
第１実施形態の音声発生者特定部１１５は、以上の３つの要素の組み合わせに基づいて、操作者が被写体であるのか否かを特定する。音声発生者特定部１１５は、特定の結果を示す情報を、位置特定部１１４に出力する。

位置特定部１１４は、音声発生者特定部１１５によって操作者が被写体であると特定された場合、操作者の位置は撮像装置１の前方であると特定する。これに対して、位置特定部１１４は、音声発生者特定部１１５によって操作者が被写体でないと特定された場合、操作者の位置は撮像装置１の後方であると特定する。位置特定部１１４は、特定された位置を示す情報を、条件変更部１１３に出力する。

条件変更部１１３は、操作者の位置に基づいて、音声認識部１１２の音声入力部１２１における音声入力条件、例えば、音声の増幅処理に用いるゲイン、ノイズフィルタによるノイズ除去の強度、ノイズフィルタの濾波特性等を変更する。
即ち、操作者が撮像装置１の前方に位置している場合、音声はマイクロフォン７１の比較的遠くで発生すると特定される。このため、第１実施形態では、条件変更部１１３は、音声入力時のゲインが相対的に高くなるように変更し、音声認識に十分な音量の音声が入力されるようにする。また、条件変更部１１３は、ノイズ除去の条件が相対的に強くなるように変更し、音声認識処理の精度を高めるようにしている。
これに対して、操作者が撮像装置１の後方に位置している場合、音声はマイクロフォン７１に対して比較的近くで発生すると特定される。このため、第１実施形態では、条件変更部１１３は、音声入力時のゲインが相対的に低くなるように変更し、所謂音割れを防いでいる。
条件変更部１１３は、変更された音声入力条件を示す情報を、音声認識部１１２に出力する。

音声認識部１１２は、上述したように、マイクロフォン７１からの音声を、増幅したり、ノイズを除去した後一旦入力（録音）する音声入力部１２１を備えている。音声認識部１１２は、条件変更部１１３によって変更された録音の条件（音声入力条件の１つ）を音声入力部１２１に設定する。そして、音声認識部１１２は、設定された条件で音声を録音したり、加工する。音声認識部１１２は、録音された音声を解析し、音声から、撮影に関する操作指示の内容を抽出する。
音声認識部１１２は、操作指示の内容を示す情報を、撮影指示部１１１に出力する。

撮影指示部１１１は、操作指示の内容を示す情報を、撮像部１７等に指示をするため情報（以下、「撮影コマンド」と呼ぶ）に変換する。ここで、撮影コマンドとしては、例えば、ＩＳＯ感度の変更、絞りの変更、フォーカス合わせ、撮影、オフ等が存在する。
撮影コマンドは、撮像部１７等に出力される。撮影コマンドが出力された撮像部１７等の構成は、入力部１８の各種釦等によって操作された場合と同様に、撮影コマンドにしたがって動作する。

次に、図４を参照して、上述の図３の機能的構成の撮像装置１が実行する音声認識処理について説明する。
図４は、図３に示した機能的構成を有する図１の撮像装置１が実行する音声認識処理の流れを説明するフローチャートである。

音声認識処理は、撮像装置１が起動すると開始され、次のような一連の処理が実行される。
ステップＳ４１においては、撮影状況検出部１１６は、焦点距離を検出したか否かを判定する。
撮像部１７がオートフォーカスの動作をして焦点距離の検出が可能となるまで、ステップＳ４１においてＮＯであると判定され、処理はステップＳ４１に戻され、ステップＳ４１の判定処理が繰り返される。
撮像部１７がオートフォーカスの動作をして、撮影状況検出部１１６によって焦点距離が検出されて音声発生者特定部１１５に通知されると、ステップＳ４１においてＹＥＳであると判定されて、処理はステップＳ４２に進む。

ステップＳ４２において、音声発生者特定部１１５は、撮影状況検出部１１６から入力された焦点距離が５ｍ以下であるか否か判定する。焦点距離が５ｍを超えている場合、ステップＳ４２においてＮＯであると判定されて、処理はステップＳ４７に進む。ただし、ステップＳ４７以降の処理については後述する。なお、ステップＳ４２の判定においては、図２（ａ）の状況において、被撮影者Ｑと撮像装置１との距離が離れている場合にＮＯであると判定される。
これに対して、焦点距離が５ｍ以下の場合、ステップＳ４２においてＹＥＳであると判定されて、処理はステップＳ４３に進む。
ステップＳ４３においては、音声発生者特定部１１５は、顔検出結果取得部１１７から入力された顔検出の有無を判定する。
ライブビュー画像から顔検出がされていない場合、ステップＳ４３においてＮＯであると判定され、処理はステップＳ４７に進む。ただし、ステップＳ４７以降の処理については後述する。なお、ステップＳ４３の判定においては、例えば、被写体が風景等人物でない場合にＮＯであると判定される。

これに対して、ライブビュー画像から顔検出がされた場合、ステップＳ４３においてＹＥＳであると判定され、処理はステップＳ４４に進む。
ステップＳ４４において、音声発生者特定部１１５は、撮影状況検出部１１６から入力された操作の時間間隔が３秒以上あるか否か判定する。
操作の時間間隔が３秒未満の場合、ステップＳ４４においてＮＯであると判定され、処理はステップＳ４７に進む。だし、ステップＳ４７以降の処理については後述する。なお、ステップＳ４４の判定においては、図２（ａ）に示した状況において高い確率でＮＯであると判定される。
これに対して、操作の時間間隔が３秒以上であった場合、音声発生者特定部１１５は、ステップＳ４４においてＹＥＳであると判定され、処理はステップＳ４５に進む。

以上説明したように、焦点距離が５ｍ以下であって、顔の検出がされ、かつ、撮像装置１の操作の時間間隔が３秒以上であれば、ステップＳ４２乃至ステップＳ４４の何れにおいてもＹＥＳであると判定されて、処理はステップＳ４５に進む。
ステップＳ４５において、音声発生者特定部１１５は、操作者が被写体であると判定する。
ステップＳ４６において、音声認識部１１２は、操作者が撮像装置１の前方に位置している場合の認識処理（「前方用音声認識処理」と呼ぶ）を実行する。なお、前方用音声認識処理の詳細については、図５を参照して後述する。
これにより、音声認識処理は終了となる。

これに対して、上述したように、焦点距離が５ｍより長い場合、顔の検出がなされていない場合、又は、撮像装置１の操作の時間間隔が３秒未満の場合、ステップＳ４２乃至ステップＳ４４のうちの何れかにおいてもＮＯであると判定されて、処理はステップＳ４７に進む。
ステップＳ４７において、音声発生者特定部１１５は、操作者は被写体でないと判定する。
ステップＳ４８において、音声認識部１１２は、操作者が撮像装置１の後方に位置している場合の認識処理（「後方用音声認識処理」と呼ぶ）を実行する。なお、後方用音声認識処理の詳細については、図６を参照して後述する。
これにより、音声認識処理は終了となる。

次に、図５及び図６を参照して、ステップＳ４６の前方用音声認識処理と、ステップＳ４８の後方用音声認識処理とについて、その順番に個別に説明する。

図５は、図４のステップＳ４６の前方用音声認識処理の詳細を説明するためのフローチャートである。
ステップＳ５１において、条件変更部１１３は、音声入力部１２１の録音のゲインを、予め設定されている標準的なゲインよりも高い値に変更する。変更後のゲインは、音声入力部１２１に設定される。
ステップＳ５２において、条件変更部１１３は、音声入力部１２１のノイズフィルタの強度を、予め設定されている標準的な強度よりも高い値に変更する。変更後の強度は、音声入力部１２１に設定される。
ステップＳ５３において、音声発生者特定部１１５は、顔検出の有無について判定する。
顔検出がされない場合、ステップＳ５３においてはＮＯであると判定され、処理は図４に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
これに対して、顔検出がされた場合、ステップＳ５３においてＹＥＳであると判定され、処理はステップＳ５４に進む。

ステップＳ５４において、音声入力部１２１は、顔が検出された方向から入力される音声を他の方向から入力される音声に優先して取得するようにする。このような動作は、第１実施形態のマイクロフォン７１が、音声の入力方向を特定できるステレオマイクロフォンであることによって実現することができる。
ステップＳ５５において、音声発生者特定部１１５は、検出された顔の口の部分が動いたか否かを判定する。
口の部分が動いていないと判定された場合、ステップＳ５５においてＮＯであると判定され、処理は図４に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
これに対して、ステップＳ５５において、口の部分が動いたと判定された場合、ステップＳ５５においてＹＥＳであると判定され、処理はステップＳ５６に進む。ステップＳ５６において、音声認識部１１２は、音声認識の処理の速度を高速にする。
これにより、前方用音声認識処理は終了となり、処理は図４に示したメインルーチンに戻り、音声認識処理の全体が終了となる。

図５に示したステップＳ５５及びステップＳ５６の処理によれば、口の動きで操作者の発話のタイミングを認識し、発話のタイミングに合わせて音声認識の処理の精度を高めることができる。また、操作者が発話していない状態では、音声認識に係る電力の消費量を抑えることができる。

図６は、図４のステップＳ４８の後方用音声認識処理の詳細を説明するためのフローチャートである。
ステップＳ６１において、条件変更部１１３は、音声入力部１２１の録音のゲインを、予め設定されている標準的なゲインよりも低い値に変更する。
ステップＳ６２において、条件変更部１１３は、音声入力部１２１のノイズフィルタを、音声の波長の高域が劣化することがないように設定する。これにより、音声の周波数特性が変更される。音声入力部１２１は、条件変更部１１３によって設定されたゲイン及びノイズフィルタの条件を音声録音時の条件に設定する。
ステップＳ６３においては、音声入力部１２１は、カメラ背面中央からの音声を取得する。即ち、音声入力部１２１は、撮像装置１の背面から入力される音声を他の方向から入力される音声に優先して取得するようにする。このような動作は、第１実施形態のマイクロフォン７１が、音声の入力方向を特定できるステレオマイクロフォンであることによって実現することができる。
これにより、後方用音声認識処理は終了となり、処理は図４に示したメインルーチンに戻り、音声認識処理の全体が終了となる。

以上説明した第１実施形態によれば、操作者の撮像装置１に対する位置に応じたゲイン、あるいはノイズ除去の処理によって適切な音声が処理対象となって、音声認識処理ができるので、操作者の位置によらず、高い精度で音声を認識し、操作者の指示を正確に撮像装置１に入力することができる。
［第２実施形態］
次に、本発明の第２実施形態について説明する。
図７は、第２実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。図示した構成は、第１実施形態の撮像装置１の図３に示した構成と同様の構成を含んでいて、同様の構成には同様の符号を付し、その説明を一部略すものとする。なお、第２実施形態の撮像装置のハードウェア構成は、第１実施形態と同様であるから、図示及び説明を略す。

図７に示したように、第２実施形態の撮像装置２の機能的構成については、条件変更部１１３が、記憶部２０から特定情報を入力している点と、画像処理部１４によって抽出された後述する顔画像が条件変更部１１３に入力される点だけが第１実施形態の撮像装置１の機能的構成と相違している。特定情報とは、所定の人物を特定するための情報、例えば、この所定の人物の特徴に関する情報（以下、「特徴情報」と呼ぶ）を含む情報をいう。
図８は、特定情報を例示した図である。

図８に示すように、操作者αに関する情報（本実施形態では操作者αの顔画像）に対して、「男性」及び「６０代」という特徴情報が対応付けられた情報が、操作者αの特定情報として記憶部２０（図１）に登録されている。また、操作者βに関する情報に対して、「女性」及び「２０代」という特徴情報が対応付けられた情報が、操作者βの特定情報として記憶部２０に登録されている。

第２実施形態の撮像装置２では、性別や年齢に応じて、音声入力条件、具体的には例えば音声入力部１２１による音声録音時のゲインやノイズフィルタの条件（「フィルタ条件」と呼ぶ）が変更される。

第２実施形態では、画像処理部１４の顔検出部１４１は、ライブビュー画像中から顔画像を検出すると、検出された顔画像と、予め登録された操作者αや操作者βの顔画像とパターンマッチング等を実行し、何れか一方と一致した場合には、検出された顔画像は操作者α又は操作者βのものである旨を示す情報を条件変更部１１３に出力する。

条件変更部１１３は、当該情報を受け取ると、被写体が予め登録されている操作者α又は操作者βであると判定し、操作者α又は操作者βの特徴情報を記憶部２０から読み出し、当該特徴情報に応じてゲインやフィルタ条件等の音声入力条件を変更する。

なお、第２実施形態では、条件変更部１１３が、読み出されたゲインやフィルタ条件（音声入力条件の１つ）を操作者の位置に応じてさらに調整し、調整されたゲインやフィルタ条件を音声入力部１２１に設定するようにしてもよい。このような調整は、例えば、操作者が撮像装置の前方に位置している場合、読み出されたゲインを高め、フィルタ条件を強めるように行われる。また、例えば、操作者が撮像装置の後方に位置している場合、読み出されたゲインを低めて音割れを抑止し、読み出されたフィルタ条件を、音声の高域の劣化が抑止されるように調整する。

このような第２実施形態によれば、第１実施形態の効果に加え、操作者の特徴（第２実施形態の例では性別や年代）も考慮した音声認識処理が実現可能になる。その結果、音声認識の精度をいっそう向上させることができる。
なお、以上説明した第２実施形態では、被写体が所定の人物であると特定されると、当該所定の人物の特徴に応じて、音声入力条件がその都度変更される例を説明した。しかし、これに限定されるものではなく、予め顔画像と音声認識条件とを対応付けておき、顔画像に基づいて被写体が所定の人物であると特定されると、当該顔画像に対応付けられた音声入力条件に変更するといった処理を採用することも可能である。
また、第２実施形態では、音声入力条件のみが変更されたが、これに限定されず、それに代えて又はそれと共に音声認識条件の変更も可能である。音声認識条件としては、例えば、操作者が英語を母国語とする、あるいは関西出身であるといった情報を使用することができる。このような場合、条件変更部１１３は、例えば、音声認識処理のうち、イントネーションによる音声認識のウェイトを小さくする。

［第３実施形態］
次に、本発明の第３実施形態について説明する。
図９は、第３実施形態の撮像装置３のハードウェア構成を示した図である。
第３実施形態の撮像装置３のハードウェア構成は、入力部１８が、マイクロフォン７１の他、撮像装置２の瞬間的な動きを検出するための加速度センサ８２、及び撮像装置２の移動を検出するためのＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）８３を備えている点で第１実施形態の撮像装置１のハードウェア構成と相違する。その他のハードウェア構成は同一であるので、ここではその説明は省略する。

図１０は、第３実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。図示した構成は、第１実施形態の撮像装置１の図３に示した構成と同様の構成を含んでいて、同様の構成には同様の符号を付し、その説明を一部略すものとする。なお、図１０に示した第３実施形態の撮像装置３の機能的構成は、撮像装置３の状態を検出する状態検出部１１８がさらに含まれている点と、加速度センサ８２、ＧＰＳ８３及び画像処理部１４から出力された情報が、状態検出部１１８に入力される点で、第１実施形態の撮像装置１の機能的構成と相違する。
状態検出部１１８は、図９に示した加速度センサ８２やＧＰＳ８３から入力された情報に基づいて、撮像装置３の瞬間的な動きや、比較的長時間にわたる撮像装置３の移動の状態を検出する。
さらに、状態検出部１１８は、画像処理部１４から撮像画像のデータを入力し、入力されたデータのうちの輝度データから被写体の明るさを判定することができる。

第３実施形態の撮像装置３は、条件変更部１１３が、状態検出部１１８に入力される情報に基づいて、音声認識部１１２において抽出される撮影コマンドの優先順位を変更するものである。

第３実施形態では、例えば、撮影コマンドとして、以下の動作、あるいは機能（以下、「機能等」と呼ぶ）に関するワードが登録されている。以下に示した機能等に関する撮影コマンドには、その使用される確率に基づいて、「重み」が付されている。
・ＩＳＯ感度
・ＨＤＲ（ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅｉｍａｇｉｎｇ）
・ストロボＯＮ、
・シャッタボタン
・パノラマ撮影
・撮像装置起動
・撮像装置オフ
・絞り
・連写
・再生
・セルフタイマー
・ホワイトバランス
・動画撮影開始
・動画撮影停止
・オートフォーカス

なお、上述した機能等のうち、ＩＳＯ感度とは、撮像部１７における信号増幅率を変更する機能をいう。また、ＨＤＲとは、通常の写真では表現できない広いダイナミックレンジの写真を、トーンマッピングにより狭いダイナミックレンジ幅内に入れ込むことで露出過多の白飛びや露出不足の黒つぶれを補正して表現力を増大するエフェクト処理をいう。

ここで、重みとは、予め設定されている撮影コマンドが、音声認識処理によって得られたワードに該当すると判定する際のパラメータであり、音声認識条件の１つである。
即ち、第３実施形態では、重みが大きい撮影コマンドほど、ワードとの類似性が低くても、得られたワードが当該撮影コマンドに該当すると判定される。例えば、シャッタボタンに関する撮影コマンドとして「チーズ」が登録されている場合に、音声認識部１１２が、音声入力部１２１によって録音された音声から、「チース」のワードを得たとする。このとき、音声認識部１１２は、音声認識処理によって「チーズ」と「チース」との類似性を判定する。そして、「チース」と「チーズ」との類似性が予め設定されている閾値ｔｈ１以上であった場合、「チース」が撮影コマンド「チーズ」を示すものであると判定する。

重みの値は、上述した閾値ｔｈ１に反比例する値に設定される。このため、大きい重みが付された撮影コマンドほど、音声認識部１１２によって得られたワードとの類似性が低いにも関わらず、操作者によって入力された撮影コマンドであると判定されやすくなる。

第３実施形態では、状態検出部１１８が、画像処理部１４から入力された輝度を、予め設定されている閾値ｔｈ２と比較する。そして、状態検出部１１８は、輝度が閾値ｔｈ２よりも大きいか否かを示す情報を、条件変更部１１３に出力する。輝度が閾値ｔｈ２よりも大きいことから、条件変更部１１３は、撮像装置３が明るい被写体を撮影していると特定する。撮像装置３がこのような状態にある場合、操作者は、感度の調整を指示する撮影コマンド、あるいはＨＤＲの実行を指示する撮影コマンドを入力する可能性が高くなる。
このため、条件変更部１１３は、ＩＳＯ感度の調整を指示する撮影コマンド、あるいはＨＤＲの実行を指示する撮影コマンドの重み（音声認識条件の１つ）を、その値が大きくなるように変更する。
図１１は、第３実施形態の撮像装置３の機能等が使用される確率を例示する図である。
図１１（ａ）は、画像処理部１４から得られた輝度が閾値ｔｈ２よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第３実施形態では、図１１（ａ）に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。

また、第３実施形態では、状態検出部１１８は、加速度センサ８２から入力された撮像装置３の瞬間的な動きの速度を、予め設定されている閾値ｔｈ３と比較する。そして、状態検出部１１８は、瞬間的な動きの速度が閾値ｔｈ３よりも大きいか否かを示す情報を、条件変更部１１３に出力する。
撮像装置３の動きの速度が閾値ｔｈ３よりも大きいことから、条件変更部１１３は、撮像装置３が高速に移動している被写体を撮影していると特定する。撮像装置３がこのような状態にある場合、操作者は、連写を指示する撮影コマンド、あるいはＨＤＲの実行を指示する撮影コマンドを入力する可能性が高くなる。

このため、条件変更部１１３は、連写を指示する撮影コマンド、あるいはＨＤＲの実行を指示する撮影コマンドの重み（音声認識条件の１つ）を、その値が大きくなるように変更する。図１１（ｂ）は、加速度センサ８２から得られた速度が閾値ｔｈ３よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第３実施形態では、図１１（ｂ）に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。

さらに、第３実施形態では、状態検出部１１８は、ＧＰＳ８３から入力された撮像装置３の定常的な動き（移動又は停止）の状態を検出する。そして、停止の時間を予め設定されている閾値ｔｈ４と比較する。そして、停止の時間が閾値ｔｈ４よりも大きいか否かを、条件変更部１１３に出力する。
撮像装置３の停止が閾値ｔｈ４よりも大きいことから、条件変更部１１３は、撮像装置３を持った操作者が休憩をしていると特定する。撮像装置３がこのような状態にある場合、操作者は、撮像装置３の起動を指示する撮影コマンド、あるいはシャッタボタンの操作を指示する撮影コマンドを入力する可能性が高くなる。

このため、条件変更部１１３は、撮像装置３の起動を指示する撮影コマンド、あるいはシャッタボタンの操作を指示する撮影コマンドの重み（音声認識条件の１つ）を、その値が大きくなるように変更する。図１１（ｃ）は、ＧＰＳ８３から得られた停止の時間が閾値ｔｈ４よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第３実施形態では、図１１（ｃ）に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。

以上説明したように、上記の第１実施形態乃至第３実施形態等、各種各様の実施形態を取ることが可能な撮像装置は、図２等に示すように、音声入力部１２１と、音声認識部１１２と、撮影指示部１１１と、条件変更部１１３と、を有している。
音声入力部１２１は、所定の音声入力条件にしたがって、音声を入力する。
音声認識部１１２は、所定の音声認識条件にしたがって、音声入力部１２１によって入力された音声を認識する。
撮影指示部１１１は、音声認識部１１２による音声の認識の結果に基づいて、撮影に関する指示を行う。
条件変更部１１３は、撮影に関する状況に応じて、音声入力部１２１における音声入力条件又は音声認識部１１２における音声認識条件を変更する。
これにより、撮像の状況によって音声の入力条件又は音声認識の条件を変更することができる。このため、撮影の状況によらず、音声が適正に入力、又は認識され、撮像装置における音声認識の精度を高めることができる。

また、撮像装置は、図３等に示すように、音声発生者特定部１１５と、位置特定部１１４と、を有することもできる。
音声発生者特定部１１５は、撮影に関する状況に応じて、撮像装置に指示をした音声発生者を特定する。
位置特定部１１４は、音声発生者特定部１１５によって特定された音声発生者の、撮像装置に対する相対位置を特定する。
条件変更部１１３は、位置特定部１１４によって特定された音声発生者の位置に応じて、音声入力部１２１の音声入力条件、又は音声認識部１１２の音声認識条件を変更する。
これにより、音声発生者の撮像装置に対する相対的な位置に応じて、音声の入力条件又は音声認識の条件を変更することができる。このため、音声発生者と撮像装置との位置関係によらず、音声が適正に入力、又は認識され、撮像装置における音声認識の精度を高めることができる。

また、撮像装置は、図３等に示すように、音声発生者特定部１１５が、撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する。
位置特定部１１４は、音声発生者特定部１１５によって特定された音声発生者に基づいて音声発生者の撮像装置に対する相対位置を特定する。
条件変更部１１３は、位置特定部１１４によって特定された音声発生者の位置に応じて、音声入力部１２１の音声入力条件、又は音声認識部１１２の音声認識条件を変更する。
これにより、音声発生者が撮影の被写体となっているか否かにより、音声発生者の撮像装置に対する相対位置を特定することができる。このため、音声発生者が撮像装置の前方にいるのか、後方にいるのかを正確に特定することができる。

また、撮像装置は、図３等に示すように、撮影状況検出部１１６を備えている。撮影状況検出部１１６は、オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの時間間隔のうち少なくとも１つを検出する。
音声発生者特定部１１５は、撮影状況検出部１１６によって検出された撮像に関する状況に基づいて、撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する。
これによれば、オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間（時間間隔）のうち少なくとも１つを使って音声発生者が被写体となっているのか否かを検出することができる。このため、公知の撮像装置の構成を使って撮影の状況を検出することができ、新規な構成を追加することなく撮影の状況を検出することができる。

また、撮像装置は、図３等に示すように、撮像装置によって撮像された画像から顔を検出する顔検出部１４１をさらに備える。
位置特定部１１４は、顔検出部１４１によって検出された顔の位置に重み付けをし、音声発生者の撮像装置に対する相対位置を特定する。
これによれば、音声発生者が撮像装置の前方にいる場合、音声発生者の相対位置を高い精度で検出することができる。

また、撮像装置は、図５等に示すように、顔検出部１４１が、さらに、検出した顔における口の動きを検出する。
音声認識部１１２は、顔検出部によって口の動きが検出されたタイミングで、音声認識の処理速度を向上させる。
これにより、音声発生者が音声を発生するタイミングを検出し、このタイミングで音声認識の精度を高めると共に、他のタイミングにおいては電力の省力化を図ることができる。

また、撮像装置は、図２等に示すように、位置特定部１１４が、音声発生者特定部１１５によって特定された音声発生者に基づいて、音声発生者が撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する。
これによれば、撮像装置の前方、後方について、音声発生者の位置を正確に特定することができる。
また、撮像装置は、図６等に示すように、位置特定部１１４によって音声発生者が撮像装置の後方に位置すると特定された場合、条件変更部１１３が、音声入力条件のうちの、音声の周波数特性を変更する。
これによれば、音声発生者が撮像装置の後方にいるために、音声の高域が認識され難くなることを防ぐことができる。

また、撮像装置は、図５、６等に示すように、条件変更部１１３が、音声入力条件として、音声入力部によって入力された音声のゲイン、又は音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する。
これによれば、音声の音声認識に必要な音量を確保し、音割れを防ぎ、ノイズを十分に除去することができる。このため、音声認識の精度を高めることができる。
また、撮像装置は、図７、図８等に示すように、条件変更部１１３が、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が特徴情報に対応付けられた所定の人物に該当する場合、取得した特徴情報に基づいて、前記音声入力手段における音声入力条件又は音声認識部による音声認識条件を変更する。
これによれば、人物の特徴に応じて音声入力、あるいは音声認識の条件を変更することができるので、人物の個性によらず、高い精度で音声認識処理をすることができる。

また、撮像装置は、図９、図１０等に示すように、撮像装置の状態、又は被写体の状態を検出する状態検出部１１８をさらに備えている。
条件変更部１１３は、状態検出部１１８によって検出された撮像装置の状態、又は被写体の状態に基づいて、音声認識部１１２による音声認識条件を変更する。
これによれば、撮像装置や被写体の状態に応じた音声認識処理をすることができる。このため、より高い精度の音声認識処理を実現することができる。

また、撮像装置は、図１１等に示すように、撮影に関する所定の指示を示す複数の撮影コマンドが予め設定され、複数の撮影コマンドの各々には、音声認識部１１２の音声認識において用いられる重みが付されており、条件変更部１１３は、状態検出部１１８によって検出された撮像装置の状態又は被写体の状態に基づいて、複数の撮影コマンドの各々に付されている重みのうち少なくとも一部を変更する。
これによれば、撮像装置又は被写体の状態に応じて適正なコマンドが選択される可能性を高めることができる。
また、撮像装置は、図１１等に示すように、条件変更部１１３が、撮像装置の状態の１つとして、撮像装置の瞬間的な動き、撮像装置の定常的な動き、又は被写体の状態の１つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の撮影コマンドの各々に付されている重みのうち少なくとも一部を変更する。
これによれば、屋外等の被写体が明るいことが特定される場合、被写体が高速で動作していることが特定される場合、撮像装置（即ちユーザ）が移動、停止を繰り返すことが特定される場合に、適正な撮影コマンドが選択される可能性を高めることができる。

なお、本発明は、上記の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
即ち、上述の第１実施形態、第２実施形態では、入力される音声の録音条件を音声入力条件としている。しかし、本発明に適用される音声入力条件は、これらに限定されるものでなく、例えば一定の条件で音声を録音した後、録音された音声を読み出して音声認識処理する際の条件等各種各様の条件を採用することができる。

また、上述の第１実施形態では、マイクロフォンをステレオマイクロフォンとしたことによって音声の入力方向を特定している。しかし、このような構成は、指向性の高いマイクロフォンを複数設け、取得したい音声の入力方向に応じ、マイクロフォンを切り替えて使用することによっても可能になる。

また、上述の第１実施形態乃至第３実施形態では、本発明が適用される撮像装置１として、デジタルカメラを例として説明したが、特にこれに限定されない。
例えば、本発明は、音声認識機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、スマートフォン、ポータブルゲーム機等に適用可能である。

また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図３の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が撮像装置１に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図３の例に限定されない。
また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図１のリムーバブルメディア３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア３１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図１のＲＯＭ１２や、図１の記憶部２０に含まれるハードディスク等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［付記１］
所定の音声入力条件にしたがって、音声を入力する音声入力手段と、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、
前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、
を備えることを特徴とする撮像装置。
［付記２］
前記撮影に関する状況に応じて、前記撮像装置に指示をした音声発生者を特定する音声発生者特定手段と、
前記音声発生者特定手段によって特定された音声発生者の、前記撮像装置に対する相対位置を特定する位置特定手段と、をさらに備え、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする付記１に記載の撮像装置。
［付記３］
前記音声発生者特定手段は、前記撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定し、
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて音声発生者の前記撮像装置に対する相対位置を特定し、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする付記２に記載の撮像装置。
［付記４］
オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は前記撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間のうち少なくとも１つを検出する撮影状況検出手段をさらに備え、
前記音声発生者特定手段は、前記撮影状況検出手段によって検出された撮像に関する状況に基づいて、前記撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する、
ことを特徴とする付記２又は３に記載の撮像装置。
［付記５］
前記撮像装置によって撮像された画像から顔を検出する顔検出手段をさらに備え、
前記位置特定手段は、前記顔検出手段によって検出された顔の位置に重み付けをし、音声発生者の前記撮像装置に対する相対位置を特定する、
ことを特徴とする付記２から４の何れか１つに記載の撮像装置。
［付記６］
前記顔検出手段は、さらに、検出した顔における口の動きを検出し、
前記顔検出手段によって口の動きが検出されたタイミングで、前記音声認識手段は、音声認識の処理速度を向上させる、
ことを特徴とする付記５に記載の撮像装置。
［付記７］
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて、音声発生者が前記撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する、
ことを特徴とする付記４に記載の撮像装置。
［付記８］
前記位置特定手段によって音声発生者が前記撮像装置の後方に位置すると特定された場合、前記条件変更手段は、前記音声入力条件のうちの、前記音声の周波数特性を変更する、
ことを特徴とする付記７に記載の撮像装置。
［付記９］
前記条件変更手段は、前記音声入力条件として、前記音声入力手段によって入力された前記音声のゲイン、又は前記音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する、
ことを特徴とする付記１から８の何れか１つに記載の撮像装置。
［付記１０］
前記条件変更手段は、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が前記特徴情報に対応付けられた前記所定の人物に該当する場合、取得した前記特徴情報に基づいて、前記音声認識手段による音声認識条件を変更する、
ことを特徴とする付記１から７の何れか１つに記載の撮像装置。
［付記１１］
前記撮像装置の状態、又は被写体の状態を検出する状態検出手段をさらに備え、
前記条件変更手段は、前状態検出手段によって検出された前記撮像装置の状態、又は被写体の状態に基づいて、前記音声認識手段による前記音声認識条件を変更する、
ことを特徴とする付記１から１０の何れか１つに記載の撮像装置。
［付記１２］
撮影に関する所定の指示を示す複数のコマンドが予め設定され、複数の前記コマンドの各々には、前記音声認識手段の音声認識において用いられる重みが付されており、
前記条件変更手段は、前記状態検出手段によって検出された前記撮像装置の状態又は被写体の状態に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更する、
ことを特徴とする付記１１に記載の撮像装置。
［付記１３］
前記条件変更手段は、前記撮像装置の状態の１つとして、前記撮像装置の瞬間的な動き、前記撮像装置の定常的な動き、又は被写体の状態の１つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更することを特徴とする付記１２に記載の撮像装置。
［付記１４］
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置が実行する音声認識方法であって、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識ステップと、
前記音声認識ステップにおける音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示ステップと、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識ステップにおける音声認識条件を変更する条件変更ステップと、
を含むことを特徴とする音声認識方法。
［付記１５］
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置を制御するコンピュータを、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段、
前記音声認識手段における音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段、
として機能させることを特徴とするプログラム。

１、２・・・撮像装置、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ
１４・・・画像処理部、１５・・・バス、１６・・・入出力インターフェース
１７・・・撮像部、１８・・・入力部、１９・・・出力部、２０・・・記憶部
２１・・・通信部、２２・・・ドライブ、３１・・・リムーバブルメディア
７１・・・マイクロフォン、８２・・・加速度センサ
８３・・・ＧＰＳ、１１１・・・撮像指示部、１１２・・・音声認識部
１１３・・・条件変更部、１１４・・・位置特定部
１１５・・・音声発生者特定部、１１６・・・撮影状況検出部
１１７・・・顔検出結果取得部、１４１・・・顔検出部

Claims

所定の音声入力条件にしたがって、音声を入力する音声入力手段と、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、
前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、
を備えることを特徴とする撮像装置。
前記撮影に関する状況に応じて、前記撮影に関する指示を行う音声発生者を複数の音声発生者の中から特定する音声発生者特定手段と、
前記音声発生者特定手段によって特定された音声発生者の、前記撮像装置に対する相対位置を特定する位置特定手段と、をさらに備え、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする請求項１に記載の撮像装置。
前記音声発生者特定手段は、前記撮影に関する指示を行った音声発生者が撮像の被写体となっているか否かを特定し、
前記位置特定手段は、前記音声発生者特定手段による特定結果に基づいて音声発生者の前記撮像装置のレンズ方向に対する前後の相対位置を特定し、
前記条件変更手段は、前記位置特定手段によって特定された前記撮像装置のレンズ方向に対する前後の相対位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする請求項２に記載の撮像装置。
オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は前記撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間のうち少なくとも１つを検出する撮影状況検出手段をさらに備え、
前記音声発生者特定手段は、前記撮影状況検出手段によって検出された撮像に関する状況に基づいて、前記撮影に関する指示を行う音声発生者が撮像の被写体となっているか否かを特定する、
ことを特徴とする請求項２又は３に記載の撮像装置。
前記撮像装置によって撮像された画像から顔を検出する顔検出手段をさらに備え、
前記位置特定手段は、前記顔検出手段によって検出された顔の位置に重み付けをし、音声発生者の前記撮像装置に対する相対位置を特定する、
ことを特徴とする請求項２から４の何れか１項に記載の撮像装置。
前記顔検出手段は、さらに、検出した顔における口の動きを検出し、
前記顔検出手段によって口の動きが検出されたタイミングで、前記音声認識手段は、音声認識の処理速度を向上させる、
ことを特徴とする請求項５に記載の撮像装置。
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて、音声発生者が前記撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する、
ことを特徴とする請求項４に記載の撮像装置。
前記位置特定手段によって音声発生者が前記撮像装置の後方に位置すると特定された場合、前記条件変更手段は、前記音声入力条件のうちの、前記音声の周波数特性を変更する、
ことを特徴とする請求項７に記載の撮像装置。
前記条件変更手段は、前記音声入力条件として、前記音声入力手段によって入力された前記音声のゲイン、又は前記音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する、
ことを特徴とする請求項１から８の何れか１項に記載の撮像装置。
前記条件変更手段は、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が前記特徴情報に対応付けられた前記所定の人物に該当する場合、取得した前記特徴情報に基づいて、前記音声認識手段による音声認識条件を変更する、
ことを特徴とする請求項１から７の何れか１項に記載の撮像装置。
前記撮像装置の状態、又は被写体の状態を検出する状態検出手段をさらに備え、
前記条件変更手段は、前状態検出手段によって検出された前記撮像装置の状態、又は被写体の状態に基づいて、前記音声認識手段による前記音声認識条件を変更する、
ことを特徴とする請求項１から１０の何れか１項に記載の撮像装置。
撮影に関する所定の指示を示す複数のコマンドが予め設定され、複数の前記コマンドの各々には、前記音声認識手段の音声認識において用いられる重みが付されており、
前記条件変更手段は、前記状態検出手段によって検出された前記撮像装置の状態又は被写体の状態に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更する、
ことを特徴とする請求項１１に記載の撮像装置。
前記条件変更手段は、前記撮像装置の状態の１つとして、前記撮像装置の瞬間的な動き、前記撮像装置の定常的な動き、又は被写体の状態の１つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更することを特徴とする請求項１２に記載の撮像装置。
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置が実行する音声認識方法であって、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識ステップと、
前記音声認識ステップにおける音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示ステップと、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識ステップにおける音声認識条件を変更する条件変更ステップと、
を含むことを特徴とする音声認識方法。
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置を制御するコンピュータを、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段、
前記音声認識手段における音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段、
として機能させることを特徴とするプログラム。