JP2014122978A - 撮像装置、音声認識方法、及びプログラム - Google Patents

撮像装置、音声認識方法、及びプログラム Download PDF

Info

Publication number
JP2014122978A
JP2014122978A JP2012278432A JP2012278432A JP2014122978A JP 2014122978 A JP2014122978 A JP 2014122978A JP 2012278432 A JP2012278432 A JP 2012278432A JP 2012278432 A JP2012278432 A JP 2012278432A JP 2014122978 A JP2014122978 A JP 2014122978A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
unit
condition
imaging device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012278432A
Other languages
English (en)
Inventor
Takeshi Iwamoto
健士 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2012278432A priority Critical patent/JP2014122978A/ja
Publication of JP2014122978A publication Critical patent/JP2014122978A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】音声認識の精度を向上させた撮像装置を提供する。
【解決手段】音声入力部121は、所定の音声入力条件にしたがって、音声を入力する。音声認識部112は、所定の音声認識条件にしたがって、音声入力部121によって入力された音声を認識する。撮影指示部111は、音声認識部112による音声の認識の結果に基づいて、撮影に関する指示を行う。条件変更部113は、撮影に関する状況に応じて、音声入力部121における音声入力条件又は音声認識部112における音声認識条件を変更する。
【選択図】図3

Description

本発明は、音声認識による制御機能を備えた、撮像装置、音声認識方法、及びプログラムに関する。
近年、音声で操作指示を入力することができるデジタルカメラの需要が高まりつつある。例えば、特許文献1には、操作者(ユーザ)から発せられた音声をマイクロフォンで入力し、マイクロフォンと操作者との距離に応じて当該音声のゲイン調整をするデジタルカメラが開示されている。
特開2009−229899号公報
しかしながら、操作指示を音声入力する従来のデジタルカメラにおいては、入力された音声の認識精度が十分でなく、正確な操作指示が受け付けられないおそれがある。
具体的には例えば、このようなデジタルカメラの多くには、特許文献1に開示されているように、操作指示を音声で入力するために、筺体の前面にマイクロフォンが設けられている。これは、音源が筺体の前方に存在することが前提となっているためである。ところが、実際には、音声による操作者が自身を撮影する場合には、筺体の前方に操作者(音源)が位置することになるが、音声による操作者が他の被写体を撮影する場合には、筺体の後方に操作者(音源)が位置することになる。それにも関わらず、音声のゲイン調整のみでは、音声の認識精度が不十分になり、正確な操作指示が受け付けられないおそれがある。
本発明は、このような状況に鑑みてなされたものであり、音声認識による制御機能を備えた撮像装置の音声認識の精度を向上させることを目的とする。
上記目的を達成するため、本発明の一態様の撮像装置は、所定の音声入力条件にしたがって、音声を入力する音声入力手段と、所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、を備えることを特徴とする。
本発明によれば、音声認識による制御機能を備えた撮像装置の音声認識の精度を向上させることができる。
本発明の第1実施形態の撮像装置のハードウェアの構成を示すブロック図である。 本発明の第1実施形態の撮像装置に対する、撮影者及び被撮影者の相対的な位置関係を模式的に示す図である。 図1に示した撮像装置の構成のうち、音声認識処理を実行するための機能的構成を示す機能ブロック図である。 第1実施形態の撮像装置が実行する音声認識処理の流れを説明するフローチャートである。 図4に示した音声認識処理のうち前方用音声認識処理の詳細を説明するためのフローチャートである。 図4に示した音声認識処理のうち後方用音声認識処理の詳細を説明するためのフローチャートである。 本発明の第2実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。 本発明の第2実施形態の特定情報を例示した図である。 本発明の第3実施形態の撮像装置のハードウェア構成を示した図である。 本発明の第3実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。 本発明の第3実施形態の撮像装置の機能等が使用される確率を例示する図である。
以下、本発明の実施形態について、図面を用いて説明する。
[第1実施形態]
図1は、本発明の第1実施形態に係る撮像装置のハードウェアの構成を示すブロック図である。
撮像装置1は、例えば、音声による操作指示を入力可能な(以下、「音声操作可能な」と記す)デジタルカメラとして構成される。
撮像装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、画像処理部14と、バス15と、入出力インターフェース16と、撮像部17と、入力部18と、出力部19と、記憶部20と、通信部21と、ドライブ22と、を備えている。
入力部18には、操作指示等の音声が入力されるマイクロフォン71が含まれている。マイクロフォン71は、撮像装置1の前面に設けられている。第1実施形態では、マイクロフォン71としては、操作者等の音源の、撮像装置1を基準にした方向(以下、「音声の入力方向」と呼ぶ)を特定することができるステレオマイクロフォンが採用されている。
なお、本明細書において、撮像装置1の前面とは、図示はしないが、撮像装置1の筺体の面のうち、レンズが設けられている面をいう。また、撮像装置1の前面と対向する面を、「背面」と呼ぶ。さらに、撮像装置1のレンズが向けられた方向を撮像装置1の「前方」と呼び、撮像装置1の背面が向けられた方向を撮像装置1の「後方」と呼ぶ。
CPU11は、ROM12に記録されているプログラム、又は、記憶部20からRAM13にロードされたプログラムにしたがって各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
画像処理部14は、後述する撮像画像等の各種画像のデータに対して、各種各様の画像処理を施す。画像処理としては、例えば、色補正、明るさの調整、パターン認識等がある。また、後述するように、画像処理部14は、撮像画像等に含まれる人間の顔を検出する、顔検出処理も適宜実行する。
CPU11、ROM12、RAM13、及び画像処理部14は、バス15を介して相互に接続されている。このバス15には、入出力インターフェース16も接続されている。入出力インターフェース16には、撮像部17、入力部18、出力部19、記憶部20、通信部21及びドライブ22が接続されている。
撮像部17は、図示はしないが、光学レンズ部と、イメージセンサと、を備えている。
光学レンズ部は、被写体を撮影するために、光を集光するレンズ、例えばフォーカスレンズやズームレンズ等で構成される。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。撮像装置1は、イメージセンサ上の被写体像により、ズームレンズが焦点距離を適正な距離に自動的に合わせるオートフォーカス(Auto Focus)機能を備えている。
光学レンズ部にはまた、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。
イメージセンサは、光電変換素子や、AFE(Analog Front End)等から構成される。
光電変換素子は、例えばCMOS(Complementary Metal Oxide Semiconductor)型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換(撮像)して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてAFEに順次供給する。
AFEは、このアナログの画像信号に対して、A/D(Analog/Digital)変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部17の出力信号として出力される。
このような撮像部17の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、CPU11や画像処理部14等に適宜供給される。
入力部18は、マイクロフォン71の他、各種釦等で構成され、ユーザの操作指示に応じて各種情報を入力する。
出力部19は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部20は、ハードディスクやDRAM(Dynamic Random Access Memory)等で構成され、撮像画像のデータ等各種データを記憶する。
通信部21は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
ドライブ22には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ22によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部20にインストールされる。また、リムーバブルメディア31は、記憶部20に記憶されている撮像画像のデータ等の各種データも、記憶部20と同様に記憶することができる。
以上のハードウェア構成を有する撮像装置1は、音声認識処理を実行することができる。
音声認識処理とは、操作者が操作指示を音声でしたことに伴い、当該音声を入力し、音声認識処理を実行し、その音声認識結果に基づいて、撮影に関する指示をするまでの一連の処理をいう。後述するように、撮影に関する状況に応じ、音声入力や音声認識の条件を変更する処理も、音声認識処理に含まれる。
ここで、図2を参照しつつ、音声認識処理についてさらに詳しく説明する。
図2(a)〜(c)は、撮像装置1に対する、撮影者及び被撮影者の相対的な位置関係を模式的に示す図である。図2(a)は、撮影者Pが自身以外の被撮影者Qを被写体として撮影する状況を示している。また、図2(b)は、図2(a)に示した撮影者Pと被撮影者Qとの状況において、被撮影者Qが音声を発生して撮像装置1を操作する状況を示している。図2(c)は、撮影者Qが自身を被写体として撮影する状況を示している。
図2(a)、(b)、(c)に示したように、撮影者P及び被撮影者Qのいずれもが、マイクロフォン71に音声を入力し得る。即ち、撮像装置1のマイクロフォン71には、撮影の状況により、前方からも後方からも音声が入力され得る。
このため、撮像装置1は、撮影者Pと被撮影者Qのうち音声を発生した者(以下、「音声発生者」と呼ぶ)を操作者として、撮像装置1に対する操作者の、撮像装置1に対する相対的な位置等の撮影に関する状況を特定する。そして、撮像装置1は、操作者の音声を認識するに際し、その音声認識率を向上させるべく、操作者の位置等の撮影に関する状況に応じて、音声を入力(録音)する際の条件(以下、「音声入力条件」と呼ぶ)を変更する。
詳細には、図2(a)乃至(c)のうち何れか1つに示した状態において、撮像装置1は、自機に対して行われた操作の内容や、被写体(図2(a)、(b)の状況であれば被撮影者Qであり、図2(c)の状況であれば撮影者P)の状態から、撮影者Pと被撮影者Qのうち何れが音声発話者(操作者)であるのかを特定する。ここで、撮像装置1に対して行われた操作の内容としては、例えば、撮像装置1に指示が入力される時間間隔がある。また、被写体の状態としては、例えば、撮像装置1(正確にはイメージセンサ)と被写体との距離(以下、「焦点距離」と記す)や、撮像画像内の顔の有無等がある。
そして、撮像装置1は、特定結果に基づいて、音声を入力する際の音声入力条件を変更する。音声入力条件としては、例えば、音声を増幅する際のゲインやノイズ除去の条件等が存在する。
また、操作者が撮像装置1の後方で発話すると、操作者が撮像装置1の前方で発話するよりも、高域の周波数特性が劣化することが知られている。このため、第1実施形態の撮像装置1は、操作者が撮像装置1の後方に位置する場合、音声の高域の周波数が除去されないようにノイズフィルタを調整したり、高域の周波数のゲインを他の領域の周波数のゲインよりも高める等し、音声の周波数特性を変更することも可能である。
撮像装置1は、変更後の音声入力条件にしたがって、マイクロフォン71に入力された音声に対して、増幅したり、ノイズを除去する処理を施す。そして、撮像装置1は、増幅やノイズ除去後の音声を認識し、その音声認識結果に基づいて操作指示の内容を特定して、撮像部17に指示を出す。
以上の一連の処理が、音声認識処理である。
なお、音声認識処理が実行される場合、撮像部17は、ライブビュー撮像処理及びライブビュー表示処理を実行している。
撮像部17から順次出力される撮像画像のデータは、メモリ(本実施形態では図1に示した記憶部20)に一時的に記憶される。このような一連の制御処理が、ここでいう「ライブビュー撮像処理」である。
また、メモリに一時的に記録された各撮像画像のデータは、順次読み出されて、図1に示した出力部19に順次表示される。このような一連の制御処理が、ここでいう「ライブビュー表示処理」であり、ライブビュー表示処理により出力部19に表示されている撮像画像が、ここでいう「ライブビュー画像」である。
ユーザは、ライブビュー画像をみながら構図を決めて、撮像画像の記録の操作指示として、入力部18のシャッタボタンを下限まで押下することができる。このように、シャッタボタンを下限まで押下する操作を、以下、「全押し操作」又は単に「全押し」と呼ぶ。
また、ユーザは、全押し操作をする前に、オートフォーカス等を撮像装置1に実行させるため、入力部18のシャッタボタンを途中(下限に至らない所定の位置)まで押下する操作を行うことができる。なお、このように、シャッタボタンを途中(下限に至らない所定の位置)まで押下する操作を、以下、「半押し操作」又は単に「半押し」と呼ぶ。
図3は、撮像装置1の機能的構成のうち、以上説明したような音声認識処理を実行するための機能的構成を示す機能ブロック図である。
図3に示すように、音声認識処理が実行される場合には、CPU11において、撮影指示部111と、音声認識部112と、条件変更部113と、位置特定部114と、音声発生者特定部115と、が機能する。また、画像処理部14において、顔検出部141が機能する。
撮影指示部111は、音声認識部112の音声認識結果に基づいて、撮影に関する指示を行う。
音声認識部112は、所定の音声認識条件にしたがって、入力された音声を認識する音声認識処理を実行する。音声認識部112には、音声入力部121が含まれている。音声入力部121は、所定の音声入力条件にしたがって、マイクロフォン71を介して音声を入力する。
条件変更部113は、撮影に関する状況に応じ、音声入力部121における音声入力条件や、音声認識部112における音声認識条件を変更する。
ここで、撮影に関する状況は、特に限定されないが、本実施形態では、撮像部17の撮影状況や、撮像画像に対する顔検出の結果等が採用されている。そして、これらの撮影に関する状況に基づいて、音声発生者が特定され、その音声発生者の位置が特定され、その特定結果に基づいて、音声入力条件や音声認識条件が変更される。
このため、本実施形態の音声認識処理が実行される場合には、位置特定部114乃至顔検出結果取得部117が機能する。
位置特定部114は、音声発生者特定部115の特定結果に基づいて、音声発生者の位置を特定する。
音声発生者特定部115は、撮影状況検出部116の検出結果や、顔検出結果取得部117により取得された顔検出の結果に基づいて、撮像装置1に操作指示を行った音声発生者(即ち操作者)を特定する。
撮影状況検出部116は、撮像部17による撮像動作に関する各種情報を用いて、撮影状況を検出する。
顔検出結果取得部117は、顔検出部141による顔検出の結果を取得する。
顔検出部141は、撮像画像の中から人間の顔を検出する、顔検出処理を実行する。なお、顔検出処理は、例えば、Adaboostをベースにした顔検出プログラム等、公知の技術を採用することができる。
以下、さらに、図3の機能的構成について、詳細に説明する。
撮影指示部111は、例えば、オートフォーカスの動作が半押し等の操作によって又は音声入力によって実行されたことを示す情報を、撮影状況検出部116に出力する。
撮影状況検出部116は、例えば撮像部17においてオートフォーカスの動作が実行されている場合、当該動作が半押し等の物理的操作によって行われたのか、それとも、音声入力による操作指示によって行われたのか等の情報を、撮像部17や撮影指示部111から入力する。この場合、撮影状況検出部116は、情報が入力される毎に、当該情報をその入力時刻と対応付けて記録しておくことで、撮像装置1に対する操作の時間間隔を記録することができる。なお、操作の記録については、多数の操作について記録する必要はなく、数回分、あるいは直前になされた操作と今回行われた操作との時間間隔だけを記録するようにしてもよい。撮影状況検出部116は、記録された時間間隔を示す情報を、音声発生者特定部115に出力する。
また、撮影状況検出部116は、オートフォーカスの実行結果に基づいて焦点距離を検出し、焦点距離を示す情報を、撮影状況検出部116に出力する。
画像処理部14の顔検出部141は、上述の焦点距離の検出と並行し、ライブビュー画像から顔検出処理を実行する。顔検出部141は、顔の検出に成功した場合、その検出結果を顔検出結果取得部117に出力する。
さらに、第1実施形態では、顔が検出された場合、顔検出部141は、検出された顔の口が動いたか否かを検出する。顔検出部141は、口が動いたか否かを示す情報を顔検出結果取得部117に出力する。
以上まとめると、本実施形態では、撮影状況検出部116は、焦点距離を示す情報と、操作の時間間隔を示す情報とを、撮影に関する状況の1つとして音声発生者特定部115に出力する。また、顔検出結果取得部117は、顔検出の結果、例えば顔検出がされたか否か(以下、「顔検出の有無」とも呼ぶ)を示す情報を、撮影に関する状況の別の1つとして、音声発生者特定部115に出力する。
音声発生者特定部115は、このようにして撮影状況検出部116や顔検出結果取得部117から出力された、焦点距離、操作の時間間隔、顔検出の有無等の撮影に関する状況を示す情報に基づいて、撮像装置1の音声発生者(操作者)が、撮像装置1の前方に位置しているのか、それとも後方に位置しているのかを特定する。
即ち、撮像装置1を操作する操作者が自身を被写体としない場合(図2(a)、(b)参照)、撮影者たる操作者は、撮像装置1のライブビュー画像を目視できる位置(撮像装置1の後方)に存在する。その一方で、被写体は遠方に存在している場合と、比較的近傍に存在する場合(図2(b)参照)とがと考えられる。また、撮影者たる操作者が自身を被写体とする場合(図2(c)参照)、被写体(操作者)は、撮像装置1の前方に位置し、かつ、自身を被写体としない場合に比較して近傍に存在すると考えられる。このため、焦点距離は、操作者が被写体であって撮像装置1の前方に位置しているか、操作者が撮影者(被写体は自身以外)であって後方に位置している(即ち操作者は被写体ではない)かを特定する要素となり得る。
また、操作者が自身を被写体とする場合、操作者は、撮像装置1の後方でライブビュー画像を確認した後に撮像装置1の前方に移動するか、又は撮像装置1を反転させることになる。このような操作においては、自身を被写体とせず、撮像装置1の後方に位置したまま撮像の操作を行うよりも操作の時間間隔が長くなると考えられる。このため、撮像装置1の操作の時間間隔は、操作者が被写体であって撮像装置1の前方に位置しているか、操作者が撮影者(被写体は自身以外)であって後方に位置しているか(即ち操作者は被写体ではない)を特定する要素となり得る。
さらに、操作者が自身を被写体とする場合、当然のことながら、ライブビュー画像からは顔が検出されると考えられる。このため、顔検出の有無は、操作者が被写体であって撮像装置1の前方に位置しているか、操作者が撮影者(被写体は自身以外)であって後方に位置しているか(即ち操作者は被写体ではない)を特定する要素となり得る。
第1実施形態の音声発生者特定部115は、以上の3つの要素の組み合わせに基づいて、操作者が被写体であるのか否かを特定する。音声発生者特定部115は、特定の結果を示す情報を、位置特定部114に出力する。
位置特定部114は、音声発生者特定部115によって操作者が被写体であると特定された場合、操作者の位置は撮像装置1の前方であると特定する。これに対して、位置特定部114は、音声発生者特定部115によって操作者が被写体でないと特定された場合、操作者の位置は撮像装置1の後方であると特定する。位置特定部114は、特定された位置を示す情報を、条件変更部113に出力する。
条件変更部113は、操作者の位置に基づいて、音声認識部112の音声入力部121における音声入力条件、例えば、音声の増幅処理に用いるゲイン、ノイズフィルタによるノイズ除去の強度、ノイズフィルタの濾波特性等を変更する。
即ち、操作者が撮像装置1の前方に位置している場合、音声はマイクロフォン71の比較的遠くで発生すると特定される。このため、第1実施形態では、条件変更部113は、音声入力時のゲインが相対的に高くなるように変更し、音声認識に十分な音量の音声が入力されるようにする。また、条件変更部113は、ノイズ除去の条件が相対的に強くなるように変更し、音声認識処理の精度を高めるようにしている。
これに対して、操作者が撮像装置1の後方に位置している場合、音声はマイクロフォン71に対して比較的近くで発生すると特定される。このため、第1実施形態では、条件変更部113は、音声入力時のゲインが相対的に低くなるように変更し、所謂音割れを防いでいる。
条件変更部113は、変更された音声入力条件を示す情報を、音声認識部112に出力する。
音声認識部112は、上述したように、マイクロフォン71からの音声を、増幅したり、ノイズを除去した後一旦入力(録音)する音声入力部121を備えている。音声認識部112は、条件変更部113によって変更された録音の条件(音声入力条件の1つ)を音声入力部121に設定する。そして、音声認識部112は、設定された条件で音声を録音したり、加工する。音声認識部112は、録音された音声を解析し、音声から、撮影に関する操作指示の内容を抽出する。
音声認識部112は、操作指示の内容を示す情報を、撮影指示部111に出力する。
撮影指示部111は、操作指示の内容を示す情報を、撮像部17等に指示をするため情報(以下、「撮影コマンド」と呼ぶ)に変換する。ここで、撮影コマンドとしては、例えば、ISO感度の変更、絞りの変更、フォーカス合わせ、撮影、オフ等が存在する。
撮影コマンドは、撮像部17等に出力される。撮影コマンドが出力された撮像部17等の構成は、入力部18の各種釦等によって操作された場合と同様に、撮影コマンドにしたがって動作する。
次に、図4を参照して、上述の図3の機能的構成の撮像装置1が実行する音声認識処理について説明する。
図4は、図3に示した機能的構成を有する図1の撮像装置1が実行する音声認識処理の流れを説明するフローチャートである。
音声認識処理は、撮像装置1が起動すると開始され、次のような一連の処理が実行される。
ステップS41においては、撮影状況検出部116は、焦点距離を検出したか否かを判定する。
撮像部17がオートフォーカスの動作をして焦点距離の検出が可能となるまで、ステップS41においてNOであると判定され、処理はステップS41に戻され、ステップS41の判定処理が繰り返される。
撮像部17がオートフォーカスの動作をして、撮影状況検出部116によって焦点距離が検出されて音声発生者特定部115に通知されると、ステップS41においてYESであると判定されて、処理はステップS42に進む。
ステップS42において、音声発生者特定部115は、撮影状況検出部116から入力された焦点距離が5m以下であるか否か判定する。焦点距離が5mを超えている場合、ステップS42においてNOであると判定されて、処理はステップS47に進む。ただし、ステップS47以降の処理については後述する。なお、ステップS42の判定においては、図2(a)の状況において、被撮影者Qと撮像装置1との距離が離れている場合にNOであると判定される。
これに対して、焦点距離が5m以下の場合、ステップS42においてYESであると判定されて、処理はステップS43に進む。
ステップS43においては、音声発生者特定部115は、顔検出結果取得部117から入力された顔検出の有無を判定する。
ライブビュー画像から顔検出がされていない場合、ステップS43においてNOであると判定され、処理はステップS47に進む。ただし、ステップS47以降の処理については後述する。なお、ステップS43の判定においては、例えば、被写体が風景等人物でない場合にNOであると判定される。
これに対して、ライブビュー画像から顔検出がされた場合、ステップS43においてYESであると判定され、処理はステップS44に進む。
ステップS44において、音声発生者特定部115は、撮影状況検出部116から入力された操作の時間間隔が3秒以上あるか否か判定する。
操作の時間間隔が3秒未満の場合、ステップS44においてNOであると判定され、処理はステップS47に進む。だし、ステップS47以降の処理については後述する。なお、ステップS44の判定においては、図2(a)に示した状況において高い確率でNOであると判定される。
これに対して、操作の時間間隔が3秒以上であった場合、音声発生者特定部115は、ステップS44においてYESであると判定され、処理はステップS45に進む。
以上説明したように、焦点距離が5m以下であって、顔の検出がされ、かつ、撮像装置1の操作の時間間隔が3秒以上であれば、ステップS42乃至ステップS44の何れにおいてもYESであると判定されて、処理はステップS45に進む。
ステップS45において、音声発生者特定部115は、操作者が被写体であると判定する。
ステップS46において、音声認識部112は、操作者が撮像装置1の前方に位置している場合の認識処理(「前方用音声認識処理」と呼ぶ)を実行する。なお、前方用音声認識処理の詳細については、図5を参照して後述する。
これにより、音声認識処理は終了となる。
これに対して、上述したように、焦点距離が5mより長い場合、顔の検出がなされていない場合、又は、撮像装置1の操作の時間間隔が3秒未満の場合、ステップS42乃至ステップS44のうちの何れかにおいてもNOであると判定されて、処理はステップS47に進む。
ステップS47において、音声発生者特定部115は、操作者は被写体でないと判定する。
ステップS48において、音声認識部112は、操作者が撮像装置1の後方に位置している場合の認識処理(「後方用音声認識処理」と呼ぶ)を実行する。なお、後方用音声認識処理の詳細については、図6を参照して後述する。
これにより、音声認識処理は終了となる。
次に、図5及び図6を参照して、ステップS46の前方用音声認識処理と、ステップS48の後方用音声認識処理とについて、その順番に個別に説明する。
図5は、図4のステップS46の前方用音声認識処理の詳細を説明するためのフローチャートである。
ステップS51において、条件変更部113は、音声入力部121の録音のゲインを、予め設定されている標準的なゲインよりも高い値に変更する。変更後のゲインは、音声入力部121に設定される。
ステップS52において、条件変更部113は、音声入力部121のノイズフィルタの強度を、予め設定されている標準的な強度よりも高い値に変更する。変更後の強度は、音声入力部121に設定される。
ステップS53において、音声発生者特定部115は、顔検出の有無について判定する。
顔検出がされない場合、ステップS53においてはNOであると判定され、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
これに対して、顔検出がされた場合、ステップS53においてYESであると判定され、処理はステップS54に進む。
ステップS54において、音声入力部121は、顔が検出された方向から入力される音声を他の方向から入力される音声に優先して取得するようにする。このような動作は、第1実施形態のマイクロフォン71が、音声の入力方向を特定できるステレオマイクロフォンであることによって実現することができる。
ステップS55において、音声発生者特定部115は、検出された顔の口の部分が動いたか否かを判定する。
口の部分が動いていないと判定された場合、ステップS55においてNOであると判定され、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
これに対して、ステップS55において、口の部分が動いたと判定された場合、ステップS55においてYESであると判定され、処理はステップS56に進む。ステップS56において、音声認識部112は、音声認識の処理の速度を高速にする。
これにより、前方用音声認識処理は終了となり、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
図5に示したステップS55及びステップS56の処理によれば、口の動きで操作者の発話のタイミングを認識し、発話のタイミングに合わせて音声認識の処理の精度を高めることができる。また、操作者が発話していない状態では、音声認識に係る電力の消費量を抑えることができる。
図6は、図4のステップS48の後方用音声認識処理の詳細を説明するためのフローチャートである。
ステップS61において、条件変更部113は、音声入力部121の録音のゲインを、予め設定されている標準的なゲインよりも低い値に変更する。
ステップS62において、条件変更部113は、音声入力部121のノイズフィルタを、音声の波長の高域が劣化することがないように設定する。これにより、音声の周波数特性が変更される。音声入力部121は、条件変更部113によって設定されたゲイン及びノイズフィルタの条件を音声録音時の条件に設定する。
ステップS63においては、音声入力部121は、カメラ背面中央からの音声を取得する。即ち、音声入力部121は、撮像装置1の背面から入力される音声を他の方向から入力される音声に優先して取得するようにする。このような動作は、第1実施形態のマイクロフォン71が、音声の入力方向を特定できるステレオマイクロフォンであることによって実現することができる。
これにより、後方用音声認識処理は終了となり、処理は図4に示したメインルーチンに戻り、音声認識処理の全体が終了となる。
以上説明した第1実施形態によれば、操作者の撮像装置1に対する位置に応じたゲイン、あるいはノイズ除去の処理によって適切な音声が処理対象となって、音声認識処理ができるので、操作者の位置によらず、高い精度で音声を認識し、操作者の指示を正確に撮像装置1に入力することができる。
[第2実施形態]
次に、本発明の第2実施形態について説明する。
図7は、第2実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。図示した構成は、第1実施形態の撮像装置1の図3に示した構成と同様の構成を含んでいて、同様の構成には同様の符号を付し、その説明を一部略すものとする。なお、第2実施形態の撮像装置のハードウェア構成は、第1実施形態と同様であるから、図示及び説明を略す。
図7に示したように、第2実施形態の撮像装置2の機能的構成については、条件変更部113が、記憶部20から特定情報を入力している点と、画像処理部14によって抽出された後述する顔画像が条件変更部113に入力される点だけが第1実施形態の撮像装置1の機能的構成と相違している。特定情報とは、所定の人物を特定するための情報、例えば、この所定の人物の特徴に関する情報(以下、「特徴情報」と呼ぶ)を含む情報をいう。
図8は、特定情報を例示した図である。
図8に示すように、操作者αに関する情報(本実施形態では操作者αの顔画像)に対して、「男性」及び「60代」という特徴情報が対応付けられた情報が、操作者αの特定情報として記憶部20(図1)に登録されている。また、操作者βに関する情報に対して、「女性」及び「20代」という特徴情報が対応付けられた情報が、操作者βの特定情報として記憶部20に登録されている。
第2実施形態の撮像装置2では、性別や年齢に応じて、音声入力条件、具体的には例えば音声入力部121による音声録音時のゲインやノイズフィルタの条件(「フィルタ条件」と呼ぶ)が変更される。
第2実施形態では、画像処理部14の顔検出部141は、ライブビュー画像中から顔画像を検出すると、検出された顔画像と、予め登録された操作者αや操作者βの顔画像とパターンマッチング等を実行し、何れか一方と一致した場合には、検出された顔画像は操作者α又は操作者βのものである旨を示す情報を条件変更部113に出力する。
条件変更部113は、当該情報を受け取ると、被写体が予め登録されている操作者α又は操作者βであると判定し、操作者α又は操作者βの特徴情報を記憶部20から読み出し、当該特徴情報に応じてゲインやフィルタ条件等の音声入力条件を変更する。
なお、第2実施形態では、条件変更部113が、読み出されたゲインやフィルタ条件(音声入力条件の1つ)を操作者の位置に応じてさらに調整し、調整されたゲインやフィルタ条件を音声入力部121に設定するようにしてもよい。このような調整は、例えば、操作者が撮像装置の前方に位置している場合、読み出されたゲインを高め、フィルタ条件を強めるように行われる。また、例えば、操作者が撮像装置の後方に位置している場合、読み出されたゲインを低めて音割れを抑止し、読み出されたフィルタ条件を、音声の高域の劣化が抑止されるように調整する。
このような第2実施形態によれば、第1実施形態の効果に加え、操作者の特徴(第2実施形態の例では性別や年代)も考慮した音声認識処理が実現可能になる。その結果、音声認識の精度をいっそう向上させることができる。
なお、以上説明した第2実施形態では、被写体が所定の人物であると特定されると、当該所定の人物の特徴に応じて、音声入力条件がその都度変更される例を説明した。しかし、これに限定されるものではなく、予め顔画像と音声認識条件とを対応付けておき、顔画像に基づいて被写体が所定の人物であると特定されると、当該顔画像に対応付けられた音声入力条件に変更するといった処理を採用することも可能である。
また、第2実施形態では、音声入力条件のみが変更されたが、これに限定されず、それに代えて又はそれと共に音声認識条件の変更も可能である。音声認識条件としては、例えば、操作者が英語を母国語とする、あるいは関西出身であるといった情報を使用することができる。このような場合、条件変更部113は、例えば、音声認識処理のうち、イントネーションによる音声認識のウェイトを小さくする。
[第3実施形態]
次に、本発明の第3実施形態について説明する。
図9は、第3実施形態の撮像装置3のハードウェア構成を示した図である。
第3実施形態の撮像装置3のハードウェア構成は、入力部18が、マイクロフォン71の他、撮像装置2の瞬間的な動きを検出するための加速度センサ82、及び撮像装置2の移動を検出するためのGPS(Global Positioning System)83を備えている点で第1実施形態の撮像装置1のハードウェア構成と相違する。その他のハードウェア構成は同一であるので、ここではその説明は省略する。
図10は、第3実施形態の音声認識処理を実行するための機能的構成を示す機能ブロック図である。図示した構成は、第1実施形態の撮像装置1の図3に示した構成と同様の構成を含んでいて、同様の構成には同様の符号を付し、その説明を一部略すものとする。なお、図10に示した第3実施形態の撮像装置3の機能的構成は、撮像装置3の状態を検出する状態検出部118がさらに含まれている点と、加速度センサ82、GPS83及び画像処理部14から出力された情報が、状態検出部118に入力される点で、第1実施形態の撮像装置1の機能的構成と相違する。
状態検出部118は、図9に示した加速度センサ82やGPS83から入力された情報に基づいて、撮像装置3の瞬間的な動きや、比較的長時間にわたる撮像装置3の移動の状態を検出する。
さらに、状態検出部118は、画像処理部14から撮像画像のデータを入力し、入力されたデータのうちの輝度データから被写体の明るさを判定することができる。
第3実施形態の撮像装置3は、条件変更部113が、状態検出部118に入力される情報に基づいて、音声認識部112において抽出される撮影コマンドの優先順位を変更するものである。
第3実施形態では、例えば、撮影コマンドとして、以下の動作、あるいは機能(以下、「機能等」と呼ぶ)に関するワードが登録されている。以下に示した機能等に関する撮影コマンドには、その使用される確率に基づいて、「重み」が付されている。
・ISO感度
・HDR(High Dynamic Range imaging)
・ストロボON、
・シャッタボタン
・パノラマ撮影
・撮像装置起動
・撮像装置オフ
・絞り
・連写
・再生
・セルフタイマー
・ホワイトバランス
・動画撮影開始
・動画撮影停止
・オートフォーカス
なお、上述した機能等のうち、ISO感度とは、撮像部17における信号増幅率を変更する機能をいう。また、HDRとは、通常の写真では表現できない広いダイナミックレンジの写真を、トーンマッピングにより狭いダイナミックレンジ幅内に入れ込むことで露出過多の白飛びや露出不足の黒つぶれを補正して表現力を増大するエフェクト処理をいう。
ここで、重みとは、予め設定されている撮影コマンドが、音声認識処理によって得られたワードに該当すると判定する際のパラメータであり、音声認識条件の1つである。
即ち、第3実施形態では、重みが大きい撮影コマンドほど、ワードとの類似性が低くても、得られたワードが当該撮影コマンドに該当すると判定される。例えば、シャッタボタンに関する撮影コマンドとして「チーズ」が登録されている場合に、音声認識部112が、音声入力部121によって録音された音声から、「チース」のワードを得たとする。このとき、音声認識部112は、音声認識処理によって「チーズ」と「チース」との類似性を判定する。そして、「チース」と「チーズ」との類似性が予め設定されている閾値th1以上であった場合、「チース」が撮影コマンド「チーズ」を示すものであると判定する。
重みの値は、上述した閾値th1に反比例する値に設定される。このため、大きい重みが付された撮影コマンドほど、音声認識部112によって得られたワードとの類似性が低いにも関わらず、操作者によって入力された撮影コマンドであると判定されやすくなる。
第3実施形態では、状態検出部118が、画像処理部14から入力された輝度を、予め設定されている閾値th2と比較する。そして、状態検出部118は、輝度が閾値th2よりも大きいか否かを示す情報を、条件変更部113に出力する。輝度が閾値th2よりも大きいことから、条件変更部113は、撮像装置3が明るい被写体を撮影していると特定する。撮像装置3がこのような状態にある場合、操作者は、感度の調整を指示する撮影コマンド、あるいはHDRの実行を指示する撮影コマンドを入力する可能性が高くなる。
このため、条件変更部113は、ISO感度の調整を指示する撮影コマンド、あるいはHDRの実行を指示する撮影コマンドの重み(音声認識条件の1つ)を、その値が大きくなるように変更する。
図11は、第3実施形態の撮像装置3の機能等が使用される確率を例示する図である。
図11(a)は、画像処理部14から得られた輝度が閾値th2よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第3実施形態では、図11(a)に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。
また、第3実施形態では、状態検出部118は、加速度センサ82から入力された撮像装置3の瞬間的な動きの速度を、予め設定されている閾値th3と比較する。そして、状態検出部118は、瞬間的な動きの速度が閾値th3よりも大きいか否かを示す情報を、条件変更部113に出力する。
撮像装置3の動きの速度が閾値th3よりも大きいことから、条件変更部113は、撮像装置3が高速に移動している被写体を撮影していると特定する。撮像装置3がこのような状態にある場合、操作者は、連写を指示する撮影コマンド、あるいはHDRの実行を指示する撮影コマンドを入力する可能性が高くなる。
このため、条件変更部113は、連写を指示する撮影コマンド、あるいはHDRの実行を指示する撮影コマンドの重み(音声認識条件の1つ)を、その値が大きくなるように変更する。図11(b)は、加速度センサ82から得られた速度が閾値th3よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第3実施形態では、図11(b)に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。
さらに、第3実施形態では、状態検出部118は、GPS83から入力された撮像装置3の定常的な動き(移動又は停止)の状態を検出する。そして、停止の時間を予め設定されている閾値th4と比較する。そして、停止の時間が閾値th4よりも大きいか否かを、条件変更部113に出力する。
撮像装置3の停止が閾値th4よりも大きいことから、条件変更部113は、撮像装置3を持った操作者が休憩をしていると特定する。撮像装置3がこのような状態にある場合、操作者は、撮像装置3の起動を指示する撮影コマンド、あるいはシャッタボタンの操作を指示する撮影コマンドを入力する可能性が高くなる。
このため、条件変更部113は、撮像装置3の起動を指示する撮影コマンド、あるいはシャッタボタンの操作を指示する撮影コマンドの重み(音声認識条件の1つ)を、その値が大きくなるように変更する。図11(c)は、GPS83から得られた停止の時間が閾値th4よりも大きい場合、上述した機能等が使用される確率を大きいものから順に示した図である。第3実施形態では、図11(c)に示した機能等のうち、使用される確率が高い機能等に関する撮影コマンドから順に、その重みが大きな値に変更される。
以上説明したように、上記の第1実施形態乃至第3実施形態等、各種各様の実施形態を取ることが可能な撮像装置は、図2等に示すように、音声入力部121と、音声認識部112と、撮影指示部111と、条件変更部113と、を有している。
音声入力部121は、所定の音声入力条件にしたがって、音声を入力する。
音声認識部112は、所定の音声認識条件にしたがって、音声入力部121によって入力された音声を認識する。
撮影指示部111は、音声認識部112による音声の認識の結果に基づいて、撮影に関する指示を行う。
条件変更部113は、撮影に関する状況に応じて、音声入力部121における音声入力条件又は音声認識部112における音声認識条件を変更する。
これにより、撮像の状況によって音声の入力条件又は音声認識の条件を変更することができる。このため、撮影の状況によらず、音声が適正に入力、又は認識され、撮像装置における音声認識の精度を高めることができる。
また、撮像装置は、図3等に示すように、音声発生者特定部115と、位置特定部114と、を有することもできる。
音声発生者特定部115は、撮影に関する状況に応じて、撮像装置に指示をした音声発生者を特定する。
位置特定部114は、音声発生者特定部115によって特定された音声発生者の、撮像装置に対する相対位置を特定する。
条件変更部113は、位置特定部114によって特定された音声発生者の位置に応じて、音声入力部121の音声入力条件、又は音声認識部112の音声認識条件を変更する。
これにより、音声発生者の撮像装置に対する相対的な位置に応じて、音声の入力条件又は音声認識の条件を変更することができる。このため、音声発生者と撮像装置との位置関係によらず、音声が適正に入力、又は認識され、撮像装置における音声認識の精度を高めることができる。
また、撮像装置は、図3等に示すように、音声発生者特定部115が、撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する。
位置特定部114は、音声発生者特定部115によって特定された音声発生者に基づいて音声発生者の撮像装置に対する相対位置を特定する。
条件変更部113は、位置特定部114によって特定された音声発生者の位置に応じて、音声入力部121の音声入力条件、又は音声認識部112の音声認識条件を変更する。
これにより、音声発生者が撮影の被写体となっているか否かにより、音声発生者の撮像装置に対する相対位置を特定することができる。このため、音声発生者が撮像装置の前方にいるのか、後方にいるのかを正確に特定することができる。
また、撮像装置は、図3等に示すように、撮影状況検出部116を備えている。撮影状況検出部116は、オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの時間間隔のうち少なくとも1つを検出する。
音声発生者特定部115は、撮影状況検出部116によって検出された撮像に関する状況に基づいて、撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する。
これによれば、オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間(時間間隔)のうち少なくとも1つを使って音声発生者が被写体となっているのか否かを検出することができる。このため、公知の撮像装置の構成を使って撮影の状況を検出することができ、新規な構成を追加することなく撮影の状況を検出することができる。
また、撮像装置は、図3等に示すように、撮像装置によって撮像された画像から顔を検出する顔検出部141をさらに備える。
位置特定部114は、顔検出部141によって検出された顔の位置に重み付けをし、音声発生者の撮像装置に対する相対位置を特定する。
これによれば、音声発生者が撮像装置の前方にいる場合、音声発生者の相対位置を高い精度で検出することができる。
また、撮像装置は、図5等に示すように、顔検出部141が、さらに、検出した顔における口の動きを検出する。
音声認識部112は、顔検出部によって口の動きが検出されたタイミングで、音声認識の処理速度を向上させる。
これにより、音声発生者が音声を発生するタイミングを検出し、このタイミングで音声認識の精度を高めると共に、他のタイミングにおいては電力の省力化を図ることができる。
また、撮像装置は、図2等に示すように、位置特定部114が、音声発生者特定部115によって特定された音声発生者に基づいて、音声発生者が撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する。
これによれば、撮像装置の前方、後方について、音声発生者の位置を正確に特定することができる。
また、撮像装置は、図6等に示すように、位置特定部114によって音声発生者が撮像装置の後方に位置すると特定された場合、条件変更部113が、音声入力条件のうちの、音声の周波数特性を変更する。
これによれば、音声発生者が撮像装置の後方にいるために、音声の高域が認識され難くなることを防ぐことができる。
また、撮像装置は、図5、6等に示すように、条件変更部113が、音声入力条件として、音声入力部によって入力された音声のゲイン、又は音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する。
これによれば、音声の音声認識に必要な音量を確保し、音割れを防ぎ、ノイズを十分に除去することができる。このため、音声認識の精度を高めることができる。
また、撮像装置は、図7、図8等に示すように、条件変更部113が、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が特徴情報に対応付けられた所定の人物に該当する場合、取得した特徴情報に基づいて、前記音声入力手段における音声入力条件又は音声認識部による音声認識条件を変更する。
これによれば、人物の特徴に応じて音声入力、あるいは音声認識の条件を変更することができるので、人物の個性によらず、高い精度で音声認識処理をすることができる。
また、撮像装置は、図9、図10等に示すように、撮像装置の状態、又は被写体の状態を検出する状態検出部118をさらに備えている。
条件変更部113は、状態検出部118によって検出された撮像装置の状態、又は被写体の状態に基づいて、音声認識部112による音声認識条件を変更する。
これによれば、撮像装置や被写体の状態に応じた音声認識処理をすることができる。このため、より高い精度の音声認識処理を実現することができる。
また、撮像装置は、図11等に示すように、撮影に関する所定の指示を示す複数の撮影コマンドが予め設定され、複数の撮影コマンドの各々には、音声認識部112の音声認識において用いられる重みが付されており、条件変更部113は、状態検出部118によって検出された撮像装置の状態又は被写体の状態に基づいて、複数の撮影コマンドの各々に付されている重みのうち少なくとも一部を変更する。
これによれば、撮像装置又は被写体の状態に応じて適正なコマンドが選択される可能性を高めることができる。
また、撮像装置は、図11等に示すように、条件変更部113が、撮像装置の状態の1つとして、撮像装置の瞬間的な動き、撮像装置の定常的な動き、又は被写体の状態の1つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の撮影コマンドの各々に付されている重みのうち少なくとも一部を変更する。
これによれば、屋外等の被写体が明るいことが特定される場合、被写体が高速で動作していることが特定される場合、撮像装置(即ちユーザ)が移動、停止を繰り返すことが特定される場合に、適正な撮影コマンドが選択される可能性を高めることができる。
なお、本発明は、上記の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
即ち、上述の第1実施形態、第2実施形態では、入力される音声の録音条件を音声入力条件としている。しかし、本発明に適用される音声入力条件は、これらに限定されるものでなく、例えば一定の条件で音声を録音した後、録音された音声を読み出して音声認識処理する際の条件等各種各様の条件を採用することができる。
また、上述の第1実施形態では、マイクロフォンをステレオマイクロフォンとしたことによって音声の入力方向を特定している。しかし、このような構成は、指向性の高いマイクロフォンを複数設け、取得したい音声の入力方向に応じ、マイクロフォンを切り替えて使用することによっても可能になる。
また、上述の第1実施形態乃至第3実施形態では、本発明が適用される撮像装置1として、デジタルカメラを例として説明したが、特にこれに限定されない。
例えば、本発明は、音声認識機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、スマートフォン、ポータブルゲーム機等に適用可能である。
また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図3の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が撮像装置1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図3の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図1のリムーバブルメディア31により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア31は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図1のROM12や、図1の記憶部20に含まれるハードディスク等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[付記1]
所定の音声入力条件にしたがって、音声を入力する音声入力手段と、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、
前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、
を備えることを特徴とする撮像装置。
[付記2]
前記撮影に関する状況に応じて、前記撮像装置に指示をした音声発生者を特定する音声発生者特定手段と、
前記音声発生者特定手段によって特定された音声発生者の、前記撮像装置に対する相対位置を特定する位置特定手段と、をさらに備え、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする付記1に記載の撮像装置。
[付記3]
前記音声発生者特定手段は、前記撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定し、
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて音声発生者の前記撮像装置に対する相対位置を特定し、
前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
ことを特徴とする付記2に記載の撮像装置。
[付記4]
オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は前記撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間のうち少なくとも1つを検出する撮影状況検出手段をさらに備え、
前記音声発生者特定手段は、前記撮影状況検出手段によって検出された撮像に関する状況に基づいて、前記撮像装置に指示を行った音声発生者が撮像の被写体となっているか否かを特定する、
ことを特徴とする付記2又は3に記載の撮像装置。
[付記5]
前記撮像装置によって撮像された画像から顔を検出する顔検出手段をさらに備え、
前記位置特定手段は、前記顔検出手段によって検出された顔の位置に重み付けをし、音声発生者の前記撮像装置に対する相対位置を特定する、
ことを特徴とする付記2から4の何れか1つに記載の撮像装置。
[付記6]
前記顔検出手段は、さらに、検出した顔における口の動きを検出し、
前記顔検出手段によって口の動きが検出されたタイミングで、前記音声認識手段は、音声認識の処理速度を向上させる、
ことを特徴とする付記5に記載の撮像装置。
[付記7]
前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて、音声発生者が前記撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する、
ことを特徴とする付記4に記載の撮像装置。
[付記8]
前記位置特定手段によって音声発生者が前記撮像装置の後方に位置すると特定された場合、前記条件変更手段は、前記音声入力条件のうちの、前記音声の周波数特性を変更する、
ことを特徴とする付記7に記載の撮像装置。
[付記9]
前記条件変更手段は、前記音声入力条件として、前記音声入力手段によって入力された前記音声のゲイン、又は前記音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する、
ことを特徴とする付記1から8の何れか1つに記載の撮像装置。
[付記10]
前記条件変更手段は、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が前記特徴情報に対応付けられた前記所定の人物に該当する場合、取得した前記特徴情報に基づいて、前記音声認識手段による音声認識条件を変更する、
ことを特徴とする付記1から7の何れか1つに記載の撮像装置。
[付記11]
前記撮像装置の状態、又は被写体の状態を検出する状態検出手段をさらに備え、
前記条件変更手段は、前状態検出手段によって検出された前記撮像装置の状態、又は被写体の状態に基づいて、前記音声認識手段による前記音声認識条件を変更する、
ことを特徴とする付記1から10の何れか1つに記載の撮像装置。
[付記12]
撮影に関する所定の指示を示す複数のコマンドが予め設定され、複数の前記コマンドの各々には、前記音声認識手段の音声認識において用いられる重みが付されており、
前記条件変更手段は、前記状態検出手段によって検出された前記撮像装置の状態又は被写体の状態に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更する、
ことを特徴とする付記11に記載の撮像装置。
[付記13]
前記条件変更手段は、前記撮像装置の状態の1つとして、前記撮像装置の瞬間的な動き、前記撮像装置の定常的な動き、又は被写体の状態の1つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更することを特徴とする付記12に記載の撮像装置。
[付記14]
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置が実行する音声認識方法であって、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識ステップと、
前記音声認識ステップにおける音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示ステップと、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識ステップにおける音声認識条件を変更する条件変更ステップと、
を含むことを特徴とする音声認識方法。
[付記15]
所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置を制御するコンピュータを、
所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段、
前記音声認識手段における音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段、
前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段、
として機能させることを特徴とするプログラム。
1、2・・・撮像装置、11・・・CPU、12・・・ROM、13・・・RAM
14・・・画像処理部、15・・・バス、16・・・入出力インターフェース
17・・・撮像部、18・・・入力部、19・・・出力部、20・・・記憶部
21・・・通信部、22・・・ドライブ、31・・・リムーバブルメディア
71・・・マイクロフォン、82・・・加速度センサ
83・・・GPS、111・・・撮像指示部、112・・・音声認識部
113・・・条件変更部、114・・・位置特定部
115・・・音声発生者特定部、116・・・撮影状況検出部
117・・・顔検出結果取得部、141・・・顔検出部

Claims (15)

  1. 所定の音声入力条件にしたがって、音声を入力する音声入力手段と、
    所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段と、
    前記音声認識手段による音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段と、
    前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段と、
    を備えることを特徴とする撮像装置。
  2. 前記撮影に関する状況に応じて、前記撮影に関する指示を行う音声発生者を複数の音声発生者の中から特定する音声発生者特定手段と、
    前記音声発生者特定手段によって特定された音声発生者の、前記撮像装置に対する相対位置を特定する位置特定手段と、をさらに備え、
    前記条件変更手段は、前記位置特定手段によって特定された音声発生者の位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
    ことを特徴とする請求項1に記載の撮像装置。
  3. 前記音声発生者特定手段は、前記撮影に関する指示を行った音声発生者が撮像の被写体となっているか否かを特定し、
    前記位置特定手段は、前記音声発生者特定手段による特定結果に基づいて音声発生者の前記撮像装置のレンズ方向に対する前後の相対位置を特定し、
    前記条件変更手段は、前記位置特定手段によって特定された前記撮像装置のレンズ方向に対する前後の相対位置に応じて、前記音声入力手段の前記音声入力条件、又は前記音声認識手段の前記音声認識条件を変更する、
    ことを特徴とする請求項2に記載の撮像装置。
  4. オートフォーカス機能によって決定された焦点距離、被写体としての顔の検出有無、又は前記撮像装置に対して直前に行われた入力操作から今回行われた入力操作までの経過時間のうち少なくとも1つを検出する撮影状況検出手段をさらに備え、
    前記音声発生者特定手段は、前記撮影状況検出手段によって検出された撮像に関する状況に基づいて、前記撮影に関する指示を行う音声発生者が撮像の被写体となっているか否かを特定する、
    ことを特徴とする請求項2又は3に記載の撮像装置。
  5. 前記撮像装置によって撮像された画像から顔を検出する顔検出手段をさらに備え、
    前記位置特定手段は、前記顔検出手段によって検出された顔の位置に重み付けをし、音声発生者の前記撮像装置に対する相対位置を特定する、
    ことを特徴とする請求項2から4の何れか1項に記載の撮像装置。
  6. 前記顔検出手段は、さらに、検出した顔における口の動きを検出し、
    前記顔検出手段によって口の動きが検出されたタイミングで、前記音声認識手段は、音声認識の処理速度を向上させる、
    ことを特徴とする請求項5に記載の撮像装置。
  7. 前記位置特定手段は、前記音声発生者特定手段によって特定された音声発生者に基づいて、音声発生者が前記撮像装置の前方に位置するのか、又は、後方に位置するのかを特定する、
    ことを特徴とする請求項4に記載の撮像装置。
  8. 前記位置特定手段によって音声発生者が前記撮像装置の後方に位置すると特定された場合、前記条件変更手段は、前記音声入力条件のうちの、前記音声の周波数特性を変更する、
    ことを特徴とする請求項7に記載の撮像装置。
  9. 前記条件変更手段は、前記音声入力条件として、前記音声入力手段によって入力された前記音声のゲイン、又は前記音声のノイズを除去するノイズフィルタの強度のうち少なくとも一方を変更する、
    ことを特徴とする請求項1から8の何れか1項に記載の撮像装置。
  10. 前記条件変更手段は、所定の人物と、当該所定の人物の特徴に関する特徴情報とが対応付けられた特定情報を取得し、音声発生者が前記特徴情報に対応付けられた前記所定の人物に該当する場合、取得した前記特徴情報に基づいて、前記音声認識手段による音声認識条件を変更する、
    ことを特徴とする請求項1から7の何れか1項に記載の撮像装置。
  11. 前記撮像装置の状態、又は被写体の状態を検出する状態検出手段をさらに備え、
    前記条件変更手段は、前状態検出手段によって検出された前記撮像装置の状態、又は被写体の状態に基づいて、前記音声認識手段による前記音声認識条件を変更する、
    ことを特徴とする請求項1から10の何れか1項に記載の撮像装置。
  12. 撮影に関する所定の指示を示す複数のコマンドが予め設定され、複数の前記コマンドの各々には、前記音声認識手段の音声認識において用いられる重みが付されており、
    前記条件変更手段は、前記状態検出手段によって検出された前記撮像装置の状態又は被写体の状態に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更する、
    ことを特徴とする請求項11に記載の撮像装置。
  13. 前記条件変更手段は、前記撮像装置の状態の1つとして、前記撮像装置の瞬間的な動き、前記撮像装置の定常的な動き、又は被写体の状態の1つとしての被写体を撮像して得られる画像の輝度に基づいて、複数の前記コマンドの各々に付されている前記重みのうち少なくとも一部を変更することを特徴とする請求項12に記載の撮像装置。
  14. 所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置が実行する音声認識方法であって、
    所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識ステップと、
    前記音声認識ステップにおける音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示ステップと、
    前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識ステップにおける音声認識条件を変更する条件変更ステップと、
    を含むことを特徴とする音声認識方法。
  15. 所定の音声入力条件にしたがって音声を入力する音声入力手段を備える撮像装置を制御するコンピュータを、
    所定の音声認識条件にしたがって、前記音声入力手段によって入力された音声を認識する音声認識手段、
    前記音声認識手段における音声の認識の結果に基づいて、撮影に関する指示を行う撮影指示手段、
    前記撮影に関する状況に応じて、前記音声入力手段における音声入力条件又は前記音声認識手段における音声認識条件を変更する条件変更手段、
    として機能させることを特徴とするプログラム。
JP2012278432A 2012-12-20 2012-12-20 撮像装置、音声認識方法、及びプログラム Pending JP2014122978A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012278432A JP2014122978A (ja) 2012-12-20 2012-12-20 撮像装置、音声認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012278432A JP2014122978A (ja) 2012-12-20 2012-12-20 撮像装置、音声認識方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014122978A true JP2014122978A (ja) 2014-07-03

Family

ID=51403517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012278432A Pending JP2014122978A (ja) 2012-12-20 2012-12-20 撮像装置、音声認識方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014122978A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016058888A (ja) * 2014-09-09 2016-04-21 カシオ計算機株式会社 検出装置、検出方法、及びプログラム
JP2016119615A (ja) * 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
US11588981B2 (en) 2019-10-29 2023-02-21 Canon Kabushiki Kaisha Control apparatus, control method, and storage medium
US12002463B2 (en) 2018-03-07 2024-06-04 Google Llc Systems and methods for voice-based initiation of custom device actions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004333738A (ja) * 2003-05-06 2004-11-25 Nec Corp 映像情報を用いた音声認識装置及び方法
JP2005333582A (ja) * 2004-05-21 2005-12-02 Funai Electric Co Ltd カメラ
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
US7697827B2 (en) * 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP2010130487A (ja) * 2008-11-28 2010-06-10 Canon Inc 撮像装置、情報処理方法、プログラムおよび記憶媒体
JP2010154260A (ja) * 2008-12-25 2010-07-08 Victor Co Of Japan Ltd 音声識別装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004333738A (ja) * 2003-05-06 2004-11-25 Nec Corp 映像情報を用いた音声認識装置及び方法
JP2005333582A (ja) * 2004-05-21 2005-12-02 Funai Electric Co Ltd カメラ
US7697827B2 (en) * 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP2010130487A (ja) * 2008-11-28 2010-06-10 Canon Inc 撮像装置、情報処理方法、プログラムおよび記憶媒体
JP2010154260A (ja) * 2008-12-25 2010-07-08 Victor Co Of Japan Ltd 音声識別装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016058888A (ja) * 2014-09-09 2016-04-21 カシオ計算機株式会社 検出装置、検出方法、及びプログラム
US10027878B2 (en) 2014-09-09 2018-07-17 Casio Computer Co., Ltd. Detection of object in digital image
JP2016119615A (ja) * 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
US12002463B2 (en) 2018-03-07 2024-06-04 Google Llc Systems and methods for voice-based initiation of custom device actions
US11588981B2 (en) 2019-10-29 2023-02-21 Canon Kabushiki Kaisha Control apparatus, control method, and storage medium

Similar Documents

Publication Publication Date Title
KR100821801B1 (ko) 촬상장치 및 오토포커스 제어방법
KR101634247B1 (ko) 피사체 인식을 알리는 디지털 촬영 장치, 상기 디지털 촬영 장치의 제어 방법
JP5451749B2 (ja) 撮像装置、集積回路、撮像方法、プログラム及び記録媒体
JP4824586B2 (ja) 撮像装置
US7961228B2 (en) Imaging apparatus and method for controlling exposure by determining backlight situations and detecting a face
KR101710626B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP2017069776A (ja) 撮像装置、判定方法及びプログラム
KR20120023901A (ko) 디지털 영상 처리 장치, 디지털 영상 신호 처리 방법 및 상기 방법을 기록한 기록 매체
JP5219761B2 (ja) 撮像装置
KR101760345B1 (ko) 동영상 촬영 방법 및 동영상 촬영 장치
KR20120025341A (ko) 디지털 촬영 장치 및 이의 제어 방법
US9652822B2 (en) Image correcting apparatus, image correcting method and computer readable recording medium recording program thereon
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
US20130311174A1 (en) Audio control device and imaging device
JP2010148132A (ja) 撮像装置、画像検出装置及びプログラム
KR20120080376A (ko) 디지털 영상 촬영 장치 및 이의 제어 방법
JP2014187551A (ja) 画像取得装置、画像取得方法及びプログラム
KR101630304B1 (ko) 디지털 촬영 장치, 그 제어 방법, 및 컴퓨터 판독가능 매체
JP6427859B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2018098735A (ja) 撮像装置およびその制御方法
JP2013207472A (ja) デジタルカメラ
JP6793369B1 (ja) 撮像装置
JP2008271181A (ja) 撮像装置および撮像方法、再生装置および再生方法、撮像画像処理システム
JP5004876B2 (ja) 撮像装置
JP5413621B2 (ja) 撮像装置及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160329