JP2014122978A - 撮像装置、音声認識方法、及びプログラム - Google Patents
撮像装置、音声認識方法、及びプログラム Download PDFInfo
- Publication number
- JP2014122978A JP2014122978A JP2012278432A JP2012278432A JP2014122978A JP 2014122978 A JP2014122978 A JP 2014122978A JP 2012278432 A JP2012278432 A JP 2012278432A JP 2012278432 A JP2012278432 A JP 2012278432A JP 2014122978 A JP2014122978 A JP 2014122978A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- unit
- condition
- imaging device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
【解決手段】音声入力部121は、所定の音声入力条件にしたがって、音声を入力する。音声認識部112は、所定の音声認識条件にしたがって、音声入力部121によって入力された音声を認識する。撮影指示部111は、音声認識部112による音声の認識の結果に基づいて、撮影に関する指示を行う。条件変更部113は、撮影に関する状況に応じて、音声入力部121における音声入力条件又は音声認識部112における音声認識条件を変更する。
【選択図】図3
Description
具体的には例えば、このようなデジタルカメラの多くには、特許文献1に開示されているように、操作指示を音声で入力するために、筺体の前面にマイクロフォンが設けられている。これは、音源が筺体の前方に存在することが前提となっているためである。ところが、実際には、音声による操作者が自身を撮影する場合には、筺体の前方に操作者(音源)が位置することになるが、音声による操作者が他の被写体を撮影する場合には、筺体の後方に操作者(音源)が位置することになる。それにも関わらず、音声のゲイン調整のみでは、音声の認識精度が不十分になり、正確な操作指示が受け付けられないおそれがある。
図1は、本発明の第1実施形態に係る撮像装置のハードウェアの構成を示すブロック図である。
撮像装置1は、例えば、音声による操作指示を入力可能な(以下、「音声操作可能な」と記す)デジタルカメラとして構成される。
入力部18には、操作指示等の音声が入力されるマイクロフォン71が含まれている。マイクロフォン71は、撮像装置1の前面に設けられている。第1実施形態では、マイクロフォン71としては、操作者等の音源の、撮像装置1を基準にした方向(以下、「音声の入力方向」と呼ぶ)を特定することができるステレオマイクロフォンが採用されている。
なお、本明細書において、撮像装置1の前面とは、図示はしないが、撮像装置1の筺体の面のうち、レンズが設けられている面をいう。また、撮像装置1の前面と対向する面を、「背面」と呼ぶ。さらに、撮像装置1のレンズが向けられた方向を撮像装置1の「前方」と呼び、撮像装置1の背面が向けられた方向を撮像装置1の「後方」と呼ぶ。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。撮像装置1は、イメージセンサ上の被写体像により、ズームレンズが焦点距離を適正な距離に自動的に合わせるオートフォーカス(Auto Focus)機能を備えている。
光学レンズ部にはまた、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。
光電変換素子は、例えばCMOS(Complementary Metal Oxide Semiconductor)型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換(撮像)して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてAFEに順次供給する。
AFEは、このアナログの画像信号に対して、A/D(Analog/Digital)変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部17の出力信号として出力される。
このような撮像部17の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、CPU11や画像処理部14等に適宜供給される。
出力部19は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部20は、ハードディスクやDRAM(Dynamic Random Access Memory)等で構成され、撮像画像のデータ等各種データを記憶する。
通信部21は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
音声認識処理とは、操作者が操作指示を音声でしたことに伴い、当該音声を入力し、音声認識処理を実行し、その音声認識結果に基づいて、撮影に関する指示をするまでの一連の処理をいう。後述するように、撮影に関する状況に応じ、音声入力や音声認識の条件を変更する処理も、音声認識処理に含まれる。
ここで、図2を参照しつつ、音声認識処理についてさらに詳しく説明する。
図2(a)、(b)、(c)に示したように、撮影者P及び被撮影者Qのいずれもが、マイクロフォン71に音声を入力し得る。即ち、撮像装置1のマイクロフォン71には、撮影の状況により、前方からも後方からも音声が入力され得る。
このため、撮像装置1は、撮影者Pと被撮影者Qのうち音声を発生した者(以下、「音声発生者」と呼ぶ)を操作者として、撮像装置1に対する操作者の、撮像装置1に対する相対的な位置等の撮影に関する状況を特定する。そして、撮像装置1は、操作者の音声を認識するに際し、その音声認識率を向上させるべく、操作者の位置等の撮影に関する状況に応じて、音声を入力(録音)する際の条件(以下、「音声入力条件」と呼ぶ)を変更する。
以上の一連の処理が、音声認識処理である。
撮像部17から順次出力される撮像画像のデータは、メモリ(本実施形態では図1に示した記憶部20)に一時的に記憶される。このような一連の制御処理が、ここでいう「ライブビュー撮像処理」である。
また、メモリに一時的に記録された各撮像画像のデータは、順次読み出されて、図1に示した出力部19に順次表示される。このような一連の制御処理が、ここでいう「ライブビュー表示処理」であり、ライブビュー表示処理により出力部19に表示されている撮像画像が、ここでいう「ライブビュー画像」である。
また、ユーザは、全押し操作をする前に、オートフォーカス等を撮像装置1に実行させるため、入力部18のシャッタボタンを途中(下限に至らない所定の位置)まで押下する操作を行うことができる。なお、このように、シャッタボタンを途中(下限に至らない所定の位置)まで押下する操作を、以下、「半押し操作」又は単に「半押し」と呼ぶ。
音声認識部112は、所定の音声認識条件にしたがって、入力された音声を認識する音声認識処理を実行する。音声認識部112には、音声入力部121が含まれている。音声入力部121は、所定の音声入力条件にしたがって、マイクロフォン71を介して音声を入力する。
条件変更部113は、撮影に関する状況に応じ、音声入力部121における音声入力条件や、音声認識部112における音声認識条件を変更する。
このため、本実施形態の音声認識処理が実行される場合には、位置特定部114乃至顔検出結果取得部117が機能する。
位置特定部114は、音声発生者特定部115の特定結果に基づいて、音声発生者の位置を特定する。
音声発生者特定部115は、撮影状況検出部116の検出結果や、顔検出結果取得部117により取得された顔検出の結果に基づいて、撮像装置1に操作指示を行った音声発生者(即ち操作者)を特定する。
撮影状況検出部116は、撮像部17による撮像動作に関する各種情報を用いて、撮影状況を検出する。
顔検出結果取得部117は、顔検出部141による顔検出の結果を取得する。
顔検出部141は、撮像画像の中から人間の顔を検出する、顔検出処理を実行する。なお、顔検出処理は、例えば、Adaboostをベースにした顔検出プログラム等、公知の技術を採用することができる。
撮影状況検出部116は、例えば撮像部17においてオートフォーカスの動作が実行されている場合、当該動作が半押し等の物理的操作によって行われたのか、それとも、音声入力による操作指示によって行われたのか等の情報を、撮像部17や撮影指示部111から入力する。この場合、撮影状況検出部116は、情報が入力される毎に、当該情報をその入力時刻と対応付けて記録しておくことで、撮像装置1に対する操作の時間間隔を記録することができる。なお、操作の記録については、多数の操作について記録する必要はなく、数回分、あるいは直前になされた操作と今回行われた操作との時間間隔だけを記録するようにしてもよい。撮影状況検出部116は、記録された時間間隔を示す情報を、音声発生者特定部115に出力する。
さらに、第1実施形態では、顔が検出された場合、顔検出部141は、検出された顔の口が動いたか否かを検出する。顔検出部141は、口が動いたか否かを示す情報を顔検出結果取得部117に出力する。
第1実施形態の音声発生者特定部115は、以上の3つの要素の組み合わせに基づいて、操作者が被写体であるのか否かを特定する。音声発生者特定部115は、特定の結果を示す情報を、位置特定部114に出力する。
即ち、操作者が撮像装置1の前方に位置している場合、音声はマイクロフォン71の比較的遠くで発生すると特定される。このため、第1実施形態では、条件変更部113は、音声入力時のゲインが相対的に高くなるように変更し、音声認識に十分な音量の音声が入力されるようにする。また、条件変更部113は、ノイズ除去の条件が相対的に強くなるように変更し、音声認識処理の精度を高めるようにしている。
これに対して、操作者が撮像装置1の後方に位置している場合、音声はマイクロフォン71に対して比較的近くで発生すると特定される。このため、第1実施形態では、条件変更部113は、音声入力時のゲインが相対的に低くなるように変更し、所謂音割れを防いでいる。
条件変更部113は、変更された音声入力条件を示す情報を、音声認識部112に出力する。
音声認識部112は、操作指示の内容を示す情報を、撮影指示部111に出力する。
撮影コマンドは、撮像部17等に出力される。撮影コマンドが出力された撮像部17等の構成は、入力部18の各種釦等によって操作された場合と同様に、撮影コマンドにしたがって動作する。
図4は、図3に示した機能的構成を有する図1の撮像装置1が実行する音声認識処理の流れを説明するフローチャートである。
ステップS41においては、撮影状況検出部116は、焦点距離を検出したか否かを判定する。
撮像部17がオートフォーカスの動作をして焦点距離の検出が可能となるまで、ステップS41においてNOであると判定され、処理はステップS41に戻され、ステップS41の判定処理が繰り返される。
撮像部17がオートフォーカスの動作をして、撮影状況検出部116によって焦点距離が検出されて音声発生者特定部115に通知されると、ステップS41においてYESであると判定されて、処理はステップS42に進む。
これに対して、焦点距離が5m以下の場合、ステップS42においてYESであると判定されて、処理はステップS43に進む。
ステップS43においては、音声発生者特定部115は、顔検出結果取得部117から入力された顔検出の有無を判定する。
ライブビュー画像から顔検出がされていない場合、ステップS43においてNOであると判定され、処理はステップS47に進む。ただし、ステップS47以降の処理については後述する。なお、ステップS43の判定においては、例えば、被写体が風景等人物でない場合にNOであると判定される。
ステップS44において、音声発生者特定部115は、撮影状況検出部116から入力された操作の時間間隔が3秒以上あるか否か判定する。
操作の時間間隔が3秒未満の場合、ステップS44においてNOであると判定され、処理はステップS47に進む。だし、ステップS47以降の処理については後述する。なお、ステップS44の判定においては、図2(a)に示した状況において高い確率でNOであると判定される。
これに対して、操作の時間間隔が3秒以上であった場合、音声発生者特定部115は、ステップS44においてYESであると判定され、処理はステップS45に進む。
ステップS45において、音声発生者特定部115は、操作者が被写体であると判定する。
ステップS46において、音声認識部112は、操作者が撮像装置1の前方に位置している場合の認識処理(「前方用音声認識処理」と呼ぶ)を実行する。なお、前方用音声認識処理の詳細については、図5を参照して後述する。
これにより、音声認識処理は終了となる。
ステップS47において、音声発生者特定部115は、操作者は被写体でないと判定する。
ステップS48において、音声認識部112は、操作者が撮像装置1の後方に位置している場合の認識処理(「後方用音声認識処理」と呼ぶ)を実行する。なお、後方用音声認識処理の詳細については、図6を参照して後述する。
これにより、音声認識処理は終了となる。
ステップS51において、条件変更部113は、音声入力部121の録音のゲインを、予め設定されている標準的なゲインよりも高い値に変更する。変更後のゲインは、音声入力部121に設定される。
ステップS52において、条件変更部113は、音声入力部121のノイズフィルタの強度を、予め設定されている標準的な強度よりも高い値に変更する。変更後の強度は、音声入力部121に設定される。
ステップS53において、音声発生者特定部115は、顔検出の有無について判定する。
顔検出がされない場合、ステップS53においてはNOであると判定され、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
これに対して、顔検出がされた場合、ステップS53においてYESであると判定され、処理はステップS54に進む。
ステップS55において、音声発生者特定部115は、検出された顔の口の部分が動いたか否かを判定する。
口の部分が動いていないと判定された場合、ステップS55においてNOであると判定され、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
これに対して、ステップS55において、口の部分が動いたと判定された場合、ステップS55においてYESであると判定され、処理はステップS56に進む。ステップS56において、音声認識部112は、音声認識の処理の速度を高速にする。
これにより、前方用音声認識処理は終了となり、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
ステップS61において、条件変更部113は、音声入力部121の録音のゲインを、予め設定されている標準的なゲインよりも低い値に変更する。
ステップS62において、条件変更部113は、音声入力部121のノイズフィルタを、音声の波長の高域が劣化することがないように設定する。これにより、音声の周波数特性が変更される。音声入力部121は、条件変更部113によって設定されたゲイン及びノイズフィルタの条件を音声録音時の条件に設定する。
ステップS63においては、音声入力部121は、カメラ背面中央からの音声を取得する。即ち、音声入力部121は、撮像装置1の背面から入力される音声を他の方向から入力される音声に優先して取得するようにする。このような動作は、第1実施形態のマイクロフォン71が、音声の入力方向を特定できるステレオマイクロフォンであることによって実現することができる。
これにより、後方用音声認識処理は終了となり、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
[第2実施形態]
次に、本発明の第2実施形態について説明する。
図7は、第2実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。図示した構成は、第1実施形態の撮像装置1の図3に示した構成と同様の構成を含んでいて、同様の構成には同様の符号を付し、その説明を一部略すものとする。なお、第2実施形態の撮像装置のハードウェア構成は、第1実施形態と同様であるから、図示及び説明を略す。
図8は、特定情報を例示した図である。
なお、以上説明した第2実施形態では、被写体が所定の人物であると特定されると、当該所定の人物の特徴に応じて、音声入力条件がその都度変更される例を説明した。しかし、これに限定されるものではなく、予め顔画像と音声認識条件とを対応付けておき、顔画像に基づいて被写体が所定の人物であると特定されると、当該顔画像に対応付けられた音声入力条件に変更するといった処理を採用することも可能である。
また、第2実施形態では、音声入力条件のみが変更されたが、これに限定されず、それに代えて又はそれと共に音声認識条件の変更も可能である。音声認識条件としては、例えば、操作者が英語を母国語とする、あるいは関西出身であるといった情報を使用することができる。このような場合、条件変更部113は、例えば、音声認識処理のうち、イントネーションによる音声認識のウェイトを小さくする。
次に、本発明の第3実施形態について説明する。
図9は、第3実施形態の撮像装置3のハードウェア構成を示した図である。
第3実施形態の撮像装置3のハードウェア構成は、入力部18が、マイクロフォン71の他、撮像装置2の瞬間的な動きを検出するための加速度センサ82、及び撮像装置2の移動を検出するためのGPS(Global Positioning System)83を備えている点で第1実施形態の撮像装置1のハードウェア構成と相違する。その他のハードウェア構成は同一であるので、ここではその説明は省略する。
状態検出部118は、図9に示した加速度センサ82やGPS83から入力された情報に基づいて、撮像装置3の瞬間的な動きや、比較的長時間にわたる撮像装置3の移動の状態を検出する。
さらに、状態検出部118は、画像処理部14から撮像画像のデータを入力し、入力されたデータのうちの輝度データから被写体の明るさを判定することができる。
・ISO感度
・HDR(High Dynamic Range imaging)
・ストロボON、
・シャッタボタン
・パノラマ撮影
・撮像装置起動
・撮像装置オフ
・絞り
・連写
・再生
・セルフタイマー
・ホワイトバランス
・動画撮影開始
・動画撮影停止
・オートフォーカス
即ち、第3実施形態では、重みが大きい撮影コマンドほど、ワードとの類似性が低くても、得られたワードが当該撮影コマンドに該当すると判定される。例えば、シャッタボタンに関する撮影コマンドとして「チーズ」が登録されている場合に、音声認識部112が、音声入力部121によって録音された音声から、「チース」のワードを得たとする。このとき、音声認識部112は、音声認識処理によって「チーズ」と「チース」との類似性を判定する。そして、「チース」と「チーズ」との類似性が予め設定されている閾値th1以上であった場合、「チース」が撮影コマンド「チーズ」を示すものであると判定する。
このため、条件変更部113は、ISO感度の調整を指示する撮影コマンド、あるいはHDRの実行を指示する撮影コマンドの重み(音声認識条件の1つ)を、その値が大きくなるように変更する。
図11は、第3実施形態の撮像装置3の機能等が使用される確率を例示する図である。
図11(a)は、画像処理部14から得られた輝度が閾値th2よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第3実施形態では、図11(a)に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。
撮像装置3の動きの速度が閾値th3よりも大きいことから、条件変更部113は、撮像装置3が高速に移動している被写体を撮影していると特定する。撮像装置3がこのような状態にある場合、操作者は、連写を指示する撮影コマンド、あるいはHDRの実行を指示する撮影コマンドを入力する可能性が高くなる。
撮像装置3の停止が閾値th4よりも大きいことから、条件変更部113は、撮像装置3を持った操作者が休憩をしていると特定する。撮像装置3がこのような状態にある場合、操作者は、撮像装置3の起動を指示する撮影コマンド、あるいはシャッタボタンの操作を指示する撮影コマンドを入力する可能性が高くなる。
音声入力部121は、所定の音声入力条件にしたがって、音声を入力する。
音声認識部112は、所定の音声認識条件にしたがって、音声入力部121によって入力された音声を認識する。
撮影指示部111は、音声認識部112による音声の認識の結果に基づいて、撮影に関する指示を行う。
条件変更部113は、撮影に関する状況に応じて、音声入力部121における音声入力条件又は音声認識部112における音声認識条件を変更する。
これにより、撮像の状況によって音声の入力条件又は音声認識の条件を変更することができる。このため、撮影の状況によらず、音声が適正に入力、又は認識され、撮像装置における音声認識の精度を高めることができる。
音声発生者特定部115は、撮影に関する状況に応じて、撮像装置に指示をした音声発生者を特定する。
位置特定部114は、音声発生者特定部115によって特定された音声発生者の、撮像装置に対する相対位置を特定する。
条件変更部113は、位置特定部114によって特定された音声発生者の位置に応じて、音声入力部121の音声入力条件、又は音声認識部112の音声認識条件を変更する。
これにより、音声発生者の撮像装置に対する相対的な位置に応じて、音声の入力条件又は音声認識の条件を変更することができる。このため、音声発生者と撮像装置との位置関係によらず、音声が適正に入力、又は認識され、撮像装置における音声認識の精度を高めることができる。
位置特定部114は、音声発生者特定部115によって特定された音声発生者に基づいて音声発生者の撮像装置に対する相対位置を特定する。
条件変更部113は、位置特定部114によって特定された音声発生者の位置に応じて、音声入力部121の音声入力条件、又は音声認識部112の音声認識条件を変更する。
これにより、音声発生者が撮影の被写体となっているか否かにより、音声発生者の撮像装置に対する相対位置を特定することができる。このため、音声発生者が撮像装置の前方にいるのか、後方にいるのかを正確に特定することができる。
音声発生者特定部115は、撮影状況検出部116によって検出された撮像に関する状況に基づいて、撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する。
これによれば、オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間(時間間隔)のうち少なくとも1つを使って音声発生者が被写体となっているのか否かを検出することができる。このため、公知の撮像装置の構成を使って撮影の状況を検出することができ、新規な構成を追加することなく撮影の状況を検出することができる。
位置特定部114は、顔検出部141によって検出された顔の位置に重み付けをし、音声発生者の撮像装置に対する相対位置を特定する。
これによれば、音声発生者が撮像装置の前方にいる場合、音声発生者の相対位置を高い精度で検出することができる。
音声認識部112は、顔検出部によって口の動きが検出されたタイミングで、音声認識の処理速度を向上させる。
これにより、音声発生者が音声を発生するタイミングを検出し、このタイミングで音声認識の精度を高めると共に、他のタイミングにおいては電力の省力化を図ることができる。
これによれば、撮像装置の前方、後方について、音声発生者の位置を正確に特定することができる。
また、撮像装置は、図6等に示すように、位置特定部114によって音声発生者が撮像装置の後方に位置すると特定された場合、条件変更部113が、音声入力条件のうちの、音声の周波数特性を変更する。
これによれば、音声発生者が撮像装置の後方にいるために、音声の高域が認識され難くなることを防ぐことができる。
これによれば、音声の音声認識に必要な音量を確保し、音割れを防ぎ、ノイズを十分に除去することができる。このため、音声認識の精度を高めることができる。
また、撮像装置は、図7、図8等に示すように、条件変更部113が、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が特徴情報に対応付けられた所定の人物に該当する場合、取得した特徴情報に基づいて、前記音声入力手段における音声入力条件又は音声認識部による音声認識条件を変更する。
これによれば、人物の特徴に応じて音声入力、あるいは音声認識の条件を変更することができるので、人物の個性によらず、高い精度で音声認識処理をすることができる。
条件変更部113は、状態検出部118によって検出された撮像装置の状態、又は被写体の状態に基づいて、音声認識部112による音声認識条件を変更する。
これによれば、撮像装置や被写体の状態に応じた音声認識処理をすることができる。このため、より高い精度の音声認識処理を実現することができる。
これによれば、撮像装置又は被写体の状態に応じて適正なコマンドが選択される可能性を高めることができる。
また、撮像装置は、図11等に示すように、条件変更部113が、撮像装置の状態の1つとして、撮像装置の瞬間的な動き、撮像装置の定常的な動き、又は被写体の状態の1つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の撮影コマンドの各々に付されている重みのうち少なくとも一部を変更する。
これによれば、屋外等の被写体が明るいことが特定される場合、被写体が高速で動作していることが特定される場合、撮像装置(即ちユーザ)が移動、停止を繰り返すことが特定される場合に、適正な撮影コマンドが選択される可能性を高めることができる。
即ち、上述の第1実施形態、第2実施形態では、入力される音声の録音条件を音声入力条件としている。しかし、本発明に適用される音声入力条件は、これらに限定されるものでなく、例えば一定の条件で音声を録音した後、録音された音声を読み出して音声認識処理する際の条件等各種各様の条件を採用することができる。
例えば、本発明は、音声認識機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、スマートフォン、ポータブルゲーム機等に適用可能である。
換言すると、図3の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が撮像装置1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図3の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
[付記1]
所定の音声入力条件にしたがって、音声を入力する音声入力手段と、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、
前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、
を備えることを特徴とする撮像装置。
[付記2]
前記撮影に関する状況に応じて、前記撮像装置に指示をした音声発生者を特定する音声発生者特定手段と、
前記音声発生者特定手段によって特定された音声発生者の、前記撮像装置に対する相対位置を特定する位置特定手段と、をさらに備え、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする付記1に記載の撮像装置。
[付記3]
前記音声発生者特定手段は、前記撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定し、
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて音声発生者の前記撮像装置に対する相対位置を特定し、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする付記2に記載の撮像装置。
[付記4]
オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は前記撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間のうち少なくとも1つを検出する撮影状況検出手段をさらに備え、
前記音声発生者特定手段は、前記撮影状況検出手段によって検出された撮像に関する状況に基づいて、前記撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する、
ことを特徴とする付記2又は3に記載の撮像装置。
[付記5]
前記撮像装置によって撮像された画像から顔を検出する顔検出手段をさらに備え、
前記位置特定手段は、前記顔検出手段によって検出された顔の位置に重み付けをし、音声発生者の前記撮像装置に対する相対位置を特定する、
ことを特徴とする付記2から4の何れか1つに記載の撮像装置。
[付記6]
前記顔検出手段は、さらに、検出した顔における口の動きを検出し、
前記顔検出手段によって口の動きが検出されたタイミングで、前記音声認識手段は、音声認識の処理速度を向上させる、
ことを特徴とする付記5に記載の撮像装置。
[付記7]
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて、音声発生者が前記撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する、
ことを特徴とする付記4に記載の撮像装置。
[付記8]
前記位置特定手段によって音声発生者が前記撮像装置の後方に位置すると特定された場合、前記条件変更手段は、前記音声入力条件のうちの、前記音声の周波数特性を変更する、
ことを特徴とする付記7に記載の撮像装置。
[付記9]
前記条件変更手段は、前記音声入力条件として、前記音声入力手段によって入力された前記音声のゲイン、又は前記音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する、
ことを特徴とする付記1から8の何れか1つに記載の撮像装置。
[付記10]
前記条件変更手段は、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が前記特徴情報に対応付けられた前記所定の人物に該当する場合、取得した前記特徴情報に基づいて、前記音声認識手段による音声認識条件を変更する、
ことを特徴とする付記1から7の何れか1つに記載の撮像装置。
[付記11]
前記撮像装置の状態、又は被写体の状態を検出する状態検出手段をさらに備え、
前記条件変更手段は、前状態検出手段によって検出された前記撮像装置の状態、又は被写体の状態に基づいて、前記音声認識手段による前記音声認識条件を変更する、
ことを特徴とする付記1から10の何れか1つに記載の撮像装置。
[付記12]
撮影に関する所定の指示を示す複数のコマンドが予め設定され、複数の前記コマンドの各々には、前記音声認識手段の音声認識において用いられる重みが付されており、
前記条件変更手段は、前記状態検出手段によって検出された前記撮像装置の状態又は被写体の状態に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更する、
ことを特徴とする付記11に記載の撮像装置。
[付記13]
前記条件変更手段は、前記撮像装置の状態の1つとして、前記撮像装置の瞬間的な動き、前記撮像装置の定常的な動き、又は被写体の状態の1つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更することを特徴とする付記12に記載の撮像装置。
[付記14]
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置が実行する音声認識方法であって、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識ステップと、
前記音声認識ステップにおける音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示ステップと、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識ステップにおける音声認識条件を変更する条件変更ステップと、
を含むことを特徴とする音声認識方法。
[付記15]
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置を制御するコンピュータを、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段、
前記音声認識手段における音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段、
として機能させることを特徴とするプログラム。
14・・・画像処理部、15・・・バス、16・・・入出力インターフェース
17・・・撮像部、18・・・入力部、19・・・出力部、20・・・記憶部
21・・・通信部、22・・・ドライブ、31・・・リムーバブルメディア
71・・・マイクロフォン、82・・・加速度センサ
83・・・GPS、111・・・撮像指示部、112・・・音声認識部
113・・・条件変更部、114・・・位置特定部
115・・・音声発生者特定部、116・・・撮影状況検出部
117・・・顔検出結果取得部、141・・・顔検出部
Claims (15)
- 所定の音声入力条件にしたがって、音声を入力する音声入力手段と、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、
前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、
を備えることを特徴とする撮像装置。 - 前記撮影に関する状況に応じて、前記撮影に関する指示を行う音声発生者を複数の音声発生者の中から特定する音声発生者特定手段と、
前記音声発生者特定手段によって特定された音声発生者の、前記撮像装置に対する相対位置を特定する位置特定手段と、をさらに備え、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする請求項1に記載の撮像装置。 - 前記音声発生者特定手段は、前記撮影に関する指示を行った音声発生者が撮像の被写体となっているか否かを特定し、
前記位置特定手段は、前記音声発生者特定手段による特定結果に基づいて音声発生者の前記撮像装置のレンズ方向に対する前後の相対位置を特定し、
前記条件変更手段は、前記位置特定手段によって特定された前記撮像装置のレンズ方向に対する前後の相対位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする請求項2に記載の撮像装置。 - オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は前記撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間のうち少なくとも1つを検出する撮影状況検出手段をさらに備え、
前記音声発生者特定手段は、前記撮影状況検出手段によって検出された撮像に関する状況に基づいて、前記撮影に関する指示を行う音声発生者が撮像の被写体となっているか否かを特定する、
ことを特徴とする請求項2又は3に記載の撮像装置。 - 前記撮像装置によって撮像された画像から顔を検出する顔検出手段をさらに備え、
前記位置特定手段は、前記顔検出手段によって検出された顔の位置に重み付けをし、音声発生者の前記撮像装置に対する相対位置を特定する、
ことを特徴とする請求項2から4の何れか1項に記載の撮像装置。 - 前記顔検出手段は、さらに、検出した顔における口の動きを検出し、
前記顔検出手段によって口の動きが検出されたタイミングで、前記音声認識手段は、音声認識の処理速度を向上させる、
ことを特徴とする請求項5に記載の撮像装置。 - 前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて、音声発生者が前記撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する、
ことを特徴とする請求項4に記載の撮像装置。 - 前記位置特定手段によって音声発生者が前記撮像装置の後方に位置すると特定された場合、前記条件変更手段は、前記音声入力条件のうちの、前記音声の周波数特性を変更する、
ことを特徴とする請求項7に記載の撮像装置。 - 前記条件変更手段は、前記音声入力条件として、前記音声入力手段によって入力された前記音声のゲイン、又は前記音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する、
ことを特徴とする請求項1から8の何れか1項に記載の撮像装置。 - 前記条件変更手段は、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が前記特徴情報に対応付けられた前記所定の人物に該当する場合、取得した前記特徴情報に基づいて、前記音声認識手段による音声認識条件を変更する、
ことを特徴とする請求項1から7の何れか1項に記載の撮像装置。 - 前記撮像装置の状態、又は被写体の状態を検出する状態検出手段をさらに備え、
前記条件変更手段は、前状態検出手段によって検出された前記撮像装置の状態、又は被写体の状態に基づいて、前記音声認識手段による前記音声認識条件を変更する、
ことを特徴とする請求項1から10の何れか1項に記載の撮像装置。 - 撮影に関する所定の指示を示す複数のコマンドが予め設定され、複数の前記コマンドの各々には、前記音声認識手段の音声認識において用いられる重みが付されており、
前記条件変更手段は、前記状態検出手段によって検出された前記撮像装置の状態又は被写体の状態に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更する、
ことを特徴とする請求項11に記載の撮像装置。 - 前記条件変更手段は、前記撮像装置の状態の1つとして、前記撮像装置の瞬間的な動き、前記撮像装置の定常的な動き、又は被写体の状態の1つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更することを特徴とする請求項12に記載の撮像装置。
- 所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置が実行する音声認識方法であって、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識ステップと、
前記音声認識ステップにおける音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示ステップと、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識ステップにおける音声認識条件を変更する条件変更ステップと、
を含むことを特徴とする音声認識方法。 - 所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置を制御するコンピュータを、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段、
前記音声認識手段における音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012278432A JP2014122978A (ja) | 2012-12-20 | 2012-12-20 | 撮像装置、音声認識方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012278432A JP2014122978A (ja) | 2012-12-20 | 2012-12-20 | 撮像装置、音声認識方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014122978A true JP2014122978A (ja) | 2014-07-03 |
Family
ID=51403517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012278432A Pending JP2014122978A (ja) | 2012-12-20 | 2012-12-20 | 撮像装置、音声認識方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014122978A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016058888A (ja) * | 2014-09-09 | 2016-04-21 | カシオ計算機株式会社 | 検出装置、検出方法、及びプログラム |
JP2016119615A (ja) * | 2014-12-22 | 2016-06-30 | キヤノン株式会社 | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 |
US11588981B2 (en) | 2019-10-29 | 2023-02-21 | Canon Kabushiki Kaisha | Control apparatus, control method, and storage medium |
US12002463B2 (en) | 2018-03-07 | 2024-06-04 | Google Llc | Systems and methods for voice-based initiation of custom device actions |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333738A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
JP2005333582A (ja) * | 2004-05-21 | 2005-12-02 | Funai Electric Co Ltd | カメラ |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP2010130487A (ja) * | 2008-11-28 | 2010-06-10 | Canon Inc | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
JP2010154260A (ja) * | 2008-12-25 | 2010-07-08 | Victor Co Of Japan Ltd | 音声識別装置 |
-
2012
- 2012-12-20 JP JP2012278432A patent/JP2014122978A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333738A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
JP2005333582A (ja) * | 2004-05-21 | 2005-12-02 | Funai Electric Co Ltd | カメラ |
US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
JP2010130487A (ja) * | 2008-11-28 | 2010-06-10 | Canon Inc | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
JP2010154260A (ja) * | 2008-12-25 | 2010-07-08 | Victor Co Of Japan Ltd | 音声識別装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016058888A (ja) * | 2014-09-09 | 2016-04-21 | カシオ計算機株式会社 | 検出装置、検出方法、及びプログラム |
US10027878B2 (en) | 2014-09-09 | 2018-07-17 | Casio Computer Co., Ltd. | Detection of object in digital image |
JP2016119615A (ja) * | 2014-12-22 | 2016-06-30 | キヤノン株式会社 | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 |
US12002463B2 (en) | 2018-03-07 | 2024-06-04 | Google Llc | Systems and methods for voice-based initiation of custom device actions |
US11588981B2 (en) | 2019-10-29 | 2023-02-21 | Canon Kabushiki Kaisha | Control apparatus, control method, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100821801B1 (ko) | 촬상장치 및 오토포커스 제어방법 | |
KR101634247B1 (ko) | 피사체 인식을 알리는 디지털 촬영 장치, 상기 디지털 촬영 장치의 제어 방법 | |
JP5451749B2 (ja) | 撮像装置、集積回路、撮像方法、プログラム及び記録媒体 | |
JP4824586B2 (ja) | 撮像装置 | |
US7961228B2 (en) | Imaging apparatus and method for controlling exposure by determining backlight situations and detecting a face | |
KR101710626B1 (ko) | 디지털 촬영 장치 및 이의 제어 방법 | |
JP2017069776A (ja) | 撮像装置、判定方法及びプログラム | |
KR20120023901A (ko) | 디지털 영상 처리 장치, 디지털 영상 신호 처리 방법 및 상기 방법을 기록한 기록 매체 | |
JP5219761B2 (ja) | 撮像装置 | |
KR101760345B1 (ko) | 동영상 촬영 방법 및 동영상 촬영 장치 | |
KR20120025341A (ko) | 디지털 촬영 장치 및 이의 제어 방법 | |
US9652822B2 (en) | Image correcting apparatus, image correcting method and computer readable recording medium recording program thereon | |
JP2014122978A (ja) | 撮像装置、音声認識方法、及びプログラム | |
US20130311174A1 (en) | Audio control device and imaging device | |
JP2010148132A (ja) | 撮像装置、画像検出装置及びプログラム | |
KR20120080376A (ko) | 디지털 영상 촬영 장치 및 이의 제어 방법 | |
JP2014187551A (ja) | 画像取得装置、画像取得方法及びプログラム | |
KR101630304B1 (ko) | 디지털 촬영 장치, 그 제어 방법, 및 컴퓨터 판독가능 매체 | |
JP6427859B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2018098735A (ja) | 撮像装置およびその制御方法 | |
JP2013207472A (ja) | デジタルカメラ | |
JP6793369B1 (ja) | 撮像装置 | |
JP2008271181A (ja) | 撮像装置および撮像方法、再生装置および再生方法、撮像画像処理システム | |
JP5004876B2 (ja) | 撮像装置 | |
JP5413621B2 (ja) | 撮像装置及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150818 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160329 |