JP2021087026A - 撮像装置、撮像装置の制御方法及びそのプログラム - Google Patents
撮像装置、撮像装置の制御方法及びそのプログラム Download PDFInfo
- Publication number
- JP2021087026A JP2021087026A JP2019212387A JP2019212387A JP2021087026A JP 2021087026 A JP2021087026 A JP 2021087026A JP 2019212387 A JP2019212387 A JP 2019212387A JP 2019212387 A JP2019212387 A JP 2019212387A JP 2021087026 A JP2021087026 A JP 2021087026A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- recognition result
- camera
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Exposure Control For Cameras (AREA)
- Details Of Cameras Including Film Mechanisms (AREA)
- Studio Devices (AREA)
Abstract
【課題】音声入力による操作が可能な撮像装置の操作性を向上させる。【解決手段】カメラ1は、音声認識可能なクラウド2と無線通信しており、カメラ1の操作に関する操作ワードを記憶している。カメラ1のカメラシステム制御部100は音声入力部18から音声命令が入力されると音声命令をクラウド2に送信する。カメラシステム制御部100は入力された音声命令に対して操作ワードを用いた音声認識処理を行う。カメラシステム制御部100は、音声認識処理により言語理解が可能であった場合、当該音声認識処理の結果を用いてカメラ1を動作する。一方で、言語理解が不可能であった場合、クラウド2から音声認識結果を受信して、受信した音声認識結果を用いてカメラ1を動作する。【選択図】図4
Description
本発明は、撮像装置、撮像装置の制御方法及びそのプログラムに関する。
近年、ユーザが音声を発することによる音声入力によりカメラを操作する技術が提案されている。音声入力によりカメラを操作することで、煩雑な操作を行うことなくカメラを動作させることができる。例えば、特許文献1では、音声入力によりレリーズ動作を行うカメラが開示されている。また、特許文献2では、音声入力により操作命令を行う機器において、音声入力信号を外部機器に送信し、外部機器上に配された音声認識システムを用いて音声入力信号の音声認識を行い、認識結果に基づく操作命令を機器に送信することが開示されている。
しかしながら、特許文献1に記載の発明では、複雑な単語やフレーズを含む音声を認識することができず、ユーザの意図する操作を行うことが困難な場合がある。一方で、特許文献2に記載の発明のように、外部機器を利用して音声認識を行った場合、外部機器との情報のやり取りに時間がかかる。そのため、カメラの設定変更や撮影等の操作をスピーディに行うことができず、シャッターチャンスを逃す恐れがある。
本発明は、このような問題点を解決するためになされたものであって、音声入力による操作が可能な撮像装置の操作性を向上させることを目的とする。
本発明の撮像装置は、音声認識可能な外部システムと通信可能な撮像装置であって、音声入力部から入力された音声に対して認識処理を行う認識処理手段と、前記外部システムに前記音声を送信して、前記音声の認識結果を受信する送受信手段と、前記撮像装置に関する状態に基づいて、前記認識処理手段による認識処理の結果である第1の認識結果及び前記外部システムによる前記認識結果である第2の認識結果のうちのいずれかを選択する選択手段と、を備えたことを特徴とする。
音声入力による操作が可能な撮像装置の操作性を向上させることができる。
以下、添付図面を参照して、本発明の好適な実施形態について説明する。
<第1の実施形態>
図1は、第1の実施形態に係る撮像システム100の構成を示す図である。この撮像システム100は、カメラ1とクラウドシステム2(以下、クラウドシステムをクラウドと表記する)とが無線ネットワークにより相互に接続されて通信可能である。カメラ1は音声入力による操作が可能である。カメラ1は撮像装置の一例である。クラウド2は、例えばクラウドサービスを提供するクラウドサーバである。クラウド2は外部システムの一例である。カメラ1とクラウド2とは双方向の情報のやり取りができる。カメラ1はユーザから発せられた音声が入力されると音声認識を行い認識結果に応じた所定の動作を行う。クラウド2は音声認識可能であり、カメラ1から送信された音声ファイルを受信して音声認識を行い認識結果をカメラ1に送信する。カメラ1はクラウド2から受信した認識結果に応じて所定の動作を行うことも可能である。
図1は、第1の実施形態に係る撮像システム100の構成を示す図である。この撮像システム100は、カメラ1とクラウドシステム2(以下、クラウドシステムをクラウドと表記する)とが無線ネットワークにより相互に接続されて通信可能である。カメラ1は音声入力による操作が可能である。カメラ1は撮像装置の一例である。クラウド2は、例えばクラウドサービスを提供するクラウドサーバである。クラウド2は外部システムの一例である。カメラ1とクラウド2とは双方向の情報のやり取りができる。カメラ1はユーザから発せられた音声が入力されると音声認識を行い認識結果に応じた所定の動作を行う。クラウド2は音声認識可能であり、カメラ1から送信された音声ファイルを受信して音声認識を行い認識結果をカメラ1に送信する。カメラ1はクラウド2から受信した認識結果に応じて所定の動作を行うことも可能である。
図2(a)はカメラ1の内部構成を示すブロック図である。図2(b)はカメラ1の断面模式図である。図2(a)と図2(b)で同じ機能を有する部分については同じ番号が付してある。カメラ1は交換レンズ3を装着可能なデジタル一眼カメラである。カメラ1は、撮像素子11、画像処理部12、メモリ13、シャッター14、操作部15、画像表示部16、音声出力部17、音声入力部18、通信部19、カメラシステム制御部10を備える。以下、各構成について説明する。
交換レンズ3は光軸21に沿って配された複数のレンズを備える撮影光学系22、撮影光学系22を調整するレンズ駆動部23、レンズ駆動部23の制御を司るレンズシステム制御部20を有している。レンズ駆動部23は不図示のブレ補正機構、フォーカスレンズ、絞り機構を制御する。また、カメラ1と交換レンズ3との接合部には両者を電気的に接続させるレンズ接点30が設けられており、カメラ1と交換レンズ3とがレンズ接点30を介して信号のやり取りを行うことができる。
撮像素子11は交換レンズ3を通過した光線を受光する。画像処理部12は内部にホワイトバランス回路、ガンマ補正回路、補間演算回路等を有しており、カメラシステム制御部10の制御下で撮像素子11にて光電変換された情報から画像データを生成する。メモリ13は画像データ、図3で後述する各種の登録ワード、カメラシステム制御部10で実行されるプログラム等の各種のデータを記憶する。シャッター14はフォーカルプレーンシャッター等であり撮像素子11への光線の遮光・通過を調整する。
操作部15はユーザの手動操作を検出し検出結果をカメラシステム制御部10に出力する。操作部15は押下されることで撮影指示を受けるレリーズ釦を含む。レリーズ釦は押し込み量が1段階目のいわゆる半押しと、そこからさらに押し込んだ押し込み量が2段階目のいわゆる全押しを検出することができる。半押しが検出されるとカメラシステム制御部10の制御下でオートフォーカス動作等の撮影予備動作が開始され、さらに全押しが検出されるとカメラシステム制御部10の制御下で撮影動作が開始される。
画像表示部16はカメラシステム制御部10の制御下で、撮像素子11で取得されるLV(ライブビュー)画像、カメラ1の状態等の表示を行う。画像表示部16は背面液晶16aとEVF(電子ビューファインダー)16bとを含む。EVF16bは表示面方向にファインダー光学系29を有し、ユーザは接眼レンズ29a側から目視することでEVF16bの表示画面を確認することができる。音声出力部17はカメラシステム制御部10の制御下で通知音等を発する。音声入力部18はマイクロホンや音声処理回路等を備え、ユーザから入力された音声を音声信号に変換してカメラシステム制御部10に出力する。通信部19は無線ネットワークを介してクラウド2との通信を行う。
カメラシステム制御部10はCPU(中央演算処理装置)等を備え、カメラ1の全体の制御を司る。カメラシステム制御部10がメモリ13に格納されたプログラムを実行することにより、カメラ1の各構成手段を制御して、図4(a)に示す処理が実現される。カメラシステム制御部10は撮像の際のタイミング信号等を生成して各部に出力する。カメラシステム制御部10はレリーズ釦の全押しが検出され撮影指示を受付けた場合、該指示に応じて撮像素子11の制御や、レンズシステム制御部20への命令信号の送信等を行う。また、カメラシステム制御部10は音声入力部18からの音声信号に対して次に説明する音声認識処理を行う。カメラシステム制御部10は認識処理手段として機能する。
図3は音声認識処理に用いられる登録ワードの一例を示している。登録ワードは音声認識許可ワードと操作ワードとを含み、メモリ13に記憶されている。メモリ13は記憶手段の一例である。
図3(a)は音声認識許可ワードの一例を示す。音声認識許可ワードは音声命令の受付け開始を許可するワードであり、例えば「カメラ」である。カメラシステム制御部10が音声認識許可ワードを認識するまでは音声操作が開始しない。つまり、ユーザが「カメラ」と言う音声を発し、カメラシステム制御部10が音声認識許可ワードであると判定した場合に、ユーザが次に発した音声が操作指示する音声命令として処理される。そして、カメラシステム制御部10は音声命令に対して図3(b)に示す操作ワードを用いた音声認識処理を行う。これにより、ユーザの音声命令を発するタイミングが把握され、ユーザの意図しない発言や周囲の環境音によって誤認識や誤動作が生じる可能性を軽減させることが可能になる。
図3(a)は音声認識許可ワードの一例を示す。音声認識許可ワードは音声命令の受付け開始を許可するワードであり、例えば「カメラ」である。カメラシステム制御部10が音声認識許可ワードを認識するまでは音声操作が開始しない。つまり、ユーザが「カメラ」と言う音声を発し、カメラシステム制御部10が音声認識許可ワードであると判定した場合に、ユーザが次に発した音声が操作指示する音声命令として処理される。そして、カメラシステム制御部10は音声命令に対して図3(b)に示す操作ワードを用いた音声認識処理を行う。これにより、ユーザの音声命令を発するタイミングが把握され、ユーザの意図しない発言や周囲の環境音によって誤認識や誤動作が生じる可能性を軽減させることが可能になる。
図3(b)は操作ワードの一例を示す。操作ワードはカメラ1の撮影操作や設定操作に関するワードである。操作ワードには、レリーズ釦の全押し操作に対応付けられる「レリーズ」、シャッター速度の設定を意味する「Tv値」、絞り値の設定を意味する「F値」、ISOの設定を意味する「ISO」がある。また、ピント合わせに関する各種の設定を意味する「AF」「MF」「ワンショット」「コンティニュアス」「サーボ」、連写/単写モードの設定を意味する「連写」、「単写」がある。これらの他に、「1」「2」「3」・・・「10」「100」「1000」等の数値、小数や分数を意味する「点」「分の」、設定値の増減を意味する「アップ」「ダウン」「プラス」「マイナス」等がある。例えばユーザが「Tv値 1 プラス」と発すれば、カメラシステム制御部10はシャッター速度を1段早くする音声命令と認識し、音声命令前のシャッター速度が1/60であれば1段分早い1/120になるように動作する。またユーザが「F値 4」と発すれば、カメラシステム制御部10は絞り値をF4.0に変更する音声命令と認識し、絞り値がF4.0になるように動作する。
以上のように、メモリ13には音声認識許可ワードが1個、操作ワードが数十個登録されている。なお音声認識許可ワードは例として「カメラ」としたが、その他のワードでも構わないし、ユーザが独自に設定しても構わない。また同様に操作ワードについても図4(b)に示すワードに限定するものではなく、「Tv値」に代えて「Tv」等の略語でも構わないし、「シャッター」等の別のワードでも構わない。また、図4(b)に示す操作ワード以外の操作ワードをユーザが予め登録しておいても構わない。
以上のように、メモリ13には音声認識許可ワードが1個、操作ワードが数十個登録されている。なお音声認識許可ワードは例として「カメラ」としたが、その他のワードでも構わないし、ユーザが独自に設定しても構わない。また同様に操作ワードについても図4(b)に示すワードに限定するものではなく、「Tv値」に代えて「Tv」等の略語でも構わないし、「シャッター」等の別のワードでも構わない。また、図4(b)に示す操作ワード以外の操作ワードをユーザが予め登録しておいても構わない。
次に、図4を用いて第1の実施形態に係る撮像システム100が実行する処理について説明する。図4(a)に示すフローチャートはカメラ1が実行する処理であり、処理に係るプログラムはメモリ13に格納されており、カメラシステム制御部10によって実行される。図4(b)に示すフローチャートはクラウド2が実行する処理である。まず図4(a)について説明する。図4(a)に示すフローチャートは、カメラ1の図示しない電源スイッチが操作されて電源がONに切り替わると開始する。
ステップS401では、カメラシステム制御部10が、音声入力部18にユーザの発した音声が入力されたか否かを判定する。カメラシステム制御部10は音声が入力されたと判定するまで待機し、カメラシステム制御部10が音声が入力されたと判定した場合、処理はステップS402に進む。
ステップS402では、カメラシステム制御部10が、ステップS401で入力された音声入力部18の音声信号を用いて音声ファイルを作成する。音声ファイルは例えば、wavファイルやmp3ファイル等である。
ステップS403では、カメラシステム制御部10が、ステップS402で作成された音声ファイルに対して音声認識処理を行う。具体的には、音声ファイルの言語を認識しテキストファイルを作成する。そして、カメラシステム制御部10が、メモリ13に登録される音声認識許可ワードを読み出して、読み出された音声認識許可ワードと作成されたテキストファイル内の言語とを照合する。
ステップS402では、カメラシステム制御部10が、ステップS401で入力された音声入力部18の音声信号を用いて音声ファイルを作成する。音声ファイルは例えば、wavファイルやmp3ファイル等である。
ステップS403では、カメラシステム制御部10が、ステップS402で作成された音声ファイルに対して音声認識処理を行う。具体的には、音声ファイルの言語を認識しテキストファイルを作成する。そして、カメラシステム制御部10が、メモリ13に登録される音声認識許可ワードを読み出して、読み出された音声認識許可ワードと作成されたテキストファイル内の言語とを照合する。
ステップS404では、カメラシステム制御部10が、テキストファイル内の言語が音声認識許可ワードであるか否かを判定する。カメラシステム制御部10が音声認識許可ワードであると判定した場合、処理はステップS405に進む。音声認識許可ワードであると判定される場合には、テキストファイル内の言語と音声認識許可ワードとが一致する場合の他に、類似する場合も含む。これにより、音声命令の受付けが開始される。カメラシステム制御部10が音声認識許可ワードではないと判定した場合、処理はステップS401に戻り、カメラシステム制御部10は次の音声が入力されるまで待機する。
ステップS405では、カメラシステム制御部10が、音声入力部18にユーザの発した音声が入力されたか否かを判定する。カメラシステム制御部10が音声が入力されていないと判定した場合、処理はステップS406に進む。カメラシステム制御部10が音声が入力されたと判定した場合、処理はステップS407に進む。
ステップS405では、カメラシステム制御部10が、音声入力部18にユーザの発した音声が入力されたか否かを判定する。カメラシステム制御部10が音声が入力されていないと判定した場合、処理はステップS406に進む。カメラシステム制御部10が音声が入力されたと判定した場合、処理はステップS407に進む。
ステップS406では、カメラシステム制御部10が、ステップS404で音声命令の受付けを開始してからの時間経過を検出し、所定時間が経過したか否かを判定する。カメラシステム制御部10が所定時間が経過していないと判定した場合、処理はステップS405に戻る。カメラシステム制御部10が所定時間が経過したと判定した場合、処理はステップS401に戻る。つまり、音声命令の受付けが開始されてから一定時間音声が入力されない場合、音声命令の受付けがキャンセルされる。
ステップS407では、カメラシステム制御部10が、ステップS405で入力された音声入力部18の音声信号を用いて音声ファイルを作成する。
ステップS408では、カメラシステム制御部10が、通信部19によるクラウド2との通信を開始し、ステップS407で作成した音声ファイルをクラウド2に送信する。
ステップS409では、カメラシステム制御部10が、ステップS407で作成した音声ファイルに対し音声認識処理を行う。
ステップS408では、カメラシステム制御部10が、通信部19によるクラウド2との通信を開始し、ステップS407で作成した音声ファイルをクラウド2に送信する。
ステップS409では、カメラシステム制御部10が、ステップS407で作成した音声ファイルに対し音声認識処理を行う。
次に、ステップS409で実行される音声認識処理について詳しく説明する。
まず、カメラシステム制御部10が、音声ファイルの言語を認識しテキストファイルを作成する。そして、作成したテキストファイル内の言語を理解するための処理を行う。具体的には、メモリ13に登録される操作ワードを読み出して、読み出された操作ワードとテキストファイル内の言語とを照合する。そしてテキストファイル内の言語が操作ワードとして登録されていれば、当該操作ワードの意味する指示内容を特定する。例えば、テキストファイル内の言語が「レリーズ」であれば、レリーズ釦操作による撮影動作の開始指示であると理解される。ここでテキストファイルには「レリーズ」の1つの言語のみが含まれる例について説明したが、テキストファイルには複数の言語を組み合わせたフレーズが含まれていても構わない。例えば上述のように「Tv値 1 プラス」等でもよい。この場合、シャッター速度を1段早くする設定指示であると理解される。
まず、カメラシステム制御部10が、音声ファイルの言語を認識しテキストファイルを作成する。そして、作成したテキストファイル内の言語を理解するための処理を行う。具体的には、メモリ13に登録される操作ワードを読み出して、読み出された操作ワードとテキストファイル内の言語とを照合する。そしてテキストファイル内の言語が操作ワードとして登録されていれば、当該操作ワードの意味する指示内容を特定する。例えば、テキストファイル内の言語が「レリーズ」であれば、レリーズ釦操作による撮影動作の開始指示であると理解される。ここでテキストファイルには「レリーズ」の1つの言語のみが含まれる例について説明したが、テキストファイルには複数の言語を組み合わせたフレーズが含まれていても構わない。例えば上述のように「Tv値 1 プラス」等でもよい。この場合、シャッター速度を1段早くする設定指示であると理解される。
ステップS410では、カメラシステム制御部10が、ステップS409の音声認識処理により言語理解が可能であったか否かを判定する。つまり、ステップS409で作成されたテキストファイル内の言語がメモリ13に登録されているか否かを判定する。または、ステップS409の音声認識結果の信頼率が所定の閾値以上であるか否かを判定してもよい。なお、信頼率については、後述の第2の実施形態で詳しく説明する。カメラシステム制御部10が言語理解が可能であると判定した場合、処理はステップS411に進む。カメラシステム制御部10が言語理解が不可能であると判定した場合、処理はステップS412に進む。
例えば、テキストファイル内の言語が「レリーズ」の場合、「レリーズ」はメモリ13に登録されているので言語理解が可能と判定される。一方で、テキストファイル内の言語が「記録フォーマットをJPEG+RAW」の場合、「記録フォーマットをJPEG+RAW」はメモリ13に登録されていないので言語理解が不可能であると判定される。なお、ステップS405で入力された音声が「レリーズ」であっても、周囲の環境音の影響やユーザの発話の仕方等により音声ファイルのテキスト化が適正に行われず、テキストファイル内の言語が「レリーズ」でなかった場合には言語理解が不可能であると判定される。ステップS409での音声認識処理の結果、即ち特定された指示内容が第1の認識結果に相当し、ステップS410の判定結果がYESであるかNOであるかが、第1の認識結果の状態に相当する。
ステップS411では、カメラシステム制御部10が、S409の音声認識処理の結果に応じたカメラ動作を行う。例えば、テキストファイル内の言語が「レリーズ」であれば、レリーズ釦操作による撮影動作を開始する。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
ステップS412では、カメラシステム制御部10が、クラウド2から音声認識処理結果を受信したか否かを判定する。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信するまでステップS412の処理を繰り返す。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信したと判定した場合、処理はステップS413に進む。クラウド2による音声認識処理の結果が第2の認識結果に相当する。カメラシステム制御部10は送受信手段として機能する。
ステップS413では、カメラシステム制御部10が、ステップS412で受信した認識結果に応じたカメラ動作を行う。クラウド2に登録されるワード数はメモリ13に登録されるワード数よりも遥かに多い。そのため、クラウド2では複雑な言語も理解可能である。例えばステップS405で入力された音声が「記録フォーマットをJPEG+RAW」の場合でも、カメラ1の記録フォーマットの設定をJPEG+RAWに変更する設定指示であると理解可能である。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
ステップS412では、カメラシステム制御部10が、クラウド2から音声認識処理結果を受信したか否かを判定する。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信するまでステップS412の処理を繰り返す。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信したと判定した場合、処理はステップS413に進む。クラウド2による音声認識処理の結果が第2の認識結果に相当する。カメラシステム制御部10は送受信手段として機能する。
ステップS413では、カメラシステム制御部10が、ステップS412で受信した認識結果に応じたカメラ動作を行う。クラウド2に登録されるワード数はメモリ13に登録されるワード数よりも遥かに多い。そのため、クラウド2では複雑な言語も理解可能である。例えばステップS405で入力された音声が「記録フォーマットをJPEG+RAW」の場合でも、カメラ1の記録フォーマットの設定をJPEG+RAWに変更する設定指示であると理解可能である。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
なお、ステップS412で、カメラシステム制御部10がクラウド2から音声認識結果を受信するまでステップS412の処理を繰り返して待機するとしたが、所定時間が経過した場合、一連の処理が終了するようにしてもよい。この場合、カメラシステム制御部10は画像表示部16に音声認識できなかった旨のエラー表示を行うようにしてもよい。
次に、図4(b)に示すクラウド2が実行する処理について説明する。
ステップS421では、クラウド2がカメラ1の通信部19との通信を開始して、ステップS408においてカメラ1が送信した音声ファイルを受信する。
ステップS422では、クラウド2がステップS421で受信した音声ファイルについて音声認識処理を行う。具体的には、ステップS409と同様にして、音声認識結果が得られる。
ステップS423では、音声認識結果をカメラ1に送信する。そして、一連の処理が終了する。
ステップS421では、クラウド2がカメラ1の通信部19との通信を開始して、ステップS408においてカメラ1が送信した音声ファイルを受信する。
ステップS422では、クラウド2がステップS421で受信した音声ファイルについて音声認識処理を行う。具体的には、ステップS409と同様にして、音声認識結果が得られる。
ステップS423では、音声認識結果をカメラ1に送信する。そして、一連の処理が終了する。
以上説明したように、第1の実施形態の撮像システム100によれば、カメラ1の音声認識の状態に応じて、カメラ1による音声認識結果とクラウド2による音声認識結果とを選択的に用いてカメラ1が操作される。カメラシステム制御部10は選択手段として機能する。これにより、単純な音声命令に対してスピーディな操作が可能であるとともに、複雑な音声命令に対してはユーザの意図通りの操作が可能である。従って、カメラ1の操作性を向上させることができる。
また、音声命令が長く複雑な場合や、クラウド2との通信状態が不安定な場合、クラウド2との情報のやり取りに時間がかかるケースがある。そこで、カメラシステム制御部10がステップS409で音声認識処理を開始する前に、S407で作成した音声ファイルをクラウド2に送信する。このようにカメラ1で言語理解が不可能であると判定されるより前にクラウド2に音声ファイルが送信されるため、カメラ1を迅速に動作させることが可能になる。
次に、図4(a)のフローチャートに示す処理が実行されている間に画像表示部16に表示される通知表示について説明する。図5(a)は画像表示部16であるEVF16bに表示される表示画面の一例である。EVF16bにはLV画像51が表示され、LV画像51の下側にはカメラ1の撮影設定情報52が表示される。撮影設定情報52は、複数の設定項目を含む。例えば「M」(撮影モードがマニュアルである)、「1/2000」(シャッター速度が1/2000秒である)、「F4.0」(絞り値がF4.0である)、「Av+1.0」(露出状態が適正露光に対し+1.0段明るい)、「ISO4000」(ISO感度が400である)が表示される。更に、LV画像51の下側には音声認識に関するカメラ1の状態を表す状態表示アイコン53が表示される。状態表示アイコン53は、カメラシステム制御部10の制御下で音声認識の状態に応じて切り替わる。具体的には、カメラシステム制御部10が表示なしの状態、及び図5(b)、図5(c)、図5(d)に示す各状態に切り替える。カメラシステム制御部10が通知手段として機能する。
図4(a)のフローチャートにおけるステップS401からステップS404でYES判定されるまでは、状態表示アイコン53は表示なしの状態である。ステップS404でYES判定されてからステップS405でYES判定されるまでは、図5(b)に示す状態表示アイコン53が表示される。これにより音声命令の受付け中であることが通知される。ステップS405でYES判定されてからステップS409の処理が終了されるまで、即ちカメラシステム制御部10が音声命令に対して音声認識処理を行っている間は、図5(c)に示す状態表示アイコン53が表示される。図5(c)の表示が第1の通知に相当する。ステップS410でNO判定されてからステップS412でYES判定されるまでの間、即ちカメラシステム制御部10がクラウド2の音声認識結果を待ち受けている間は、図5(d)に示す状態表示アイコン53が表示される。図5(d)の表示が第2の通知に相当する。このように、状態表示アイコン53が図5(c)から図5(d)に切り替わることで、カメラ1では音声認識できず、クラウド2の音声認識結果が利用されることがユーザに通知される。そして処理がステップS411またはステップS413に進むと、状態表示アイコン53は再び表示なしの状態に戻る。
以上のようにして、状態表示アイコン53を表示することで、現在の音声認識の状態をユーザに知らせることが可能である。これにより、ユーザはカメラ1による音声認識処理とクラウド2による音声認識処理のどちらに時間がかかっているのかを知ることができる。例えば、クラウド2の音声認識処理に時間がかかっていることを知ったユーザは、所定の釦を押下することで音声操作を処理の途中でキャンセルして、操作部15から操作し直すこともできる。なお、音声認識の状態に応じて状態表示アイコン53を、表示なしの状態、及び図5(b)、図5(c)、図5(d)の各状態に切り替えるとしたが、図5(c)と図5(d)の差異が視認可能であれば他の表示方法でも構わない。例えば、カメラシステム制御部10はEVF16bに図5(e)に示すような丸い点を表示して、色を変えたり、点滅させたりすることで、ユーザに通知しても構わない。更に、ユーザに通知する方法は、画像表示部16を用いた通知表示に限られず、音声出力部17を用いた音声通知でも構わない。
<第2の実施形態>
以下、図6を参照して、第2の実施形態に係る撮像システム100について説明する。第2の実施形態では、カメラ1による音声認識結果及びクラウド2による音声認識結果のうちのいずれかを選択する際に用いられる条件が、第1の実施形態とは異なる。第2の実施形態のハードウエア構成は、第1の実施形態に係る撮像システム100と同様である。従って、第1の実施形態と同様の部分については同じ符号を用いてその説明を省略する。
以下、図6を参照して、第2の実施形態に係る撮像システム100について説明する。第2の実施形態では、カメラ1による音声認識結果及びクラウド2による音声認識結果のうちのいずれかを選択する際に用いられる条件が、第1の実施形態とは異なる。第2の実施形態のハードウエア構成は、第1の実施形態に係る撮像システム100と同様である。従って、第1の実施形態と同様の部分については同じ符号を用いてその説明を省略する。
第2の実施形態において、カメラシステム制御部10は、音声認識結果の信頼性を信頼率として出力する。具体的には、まず第1の実施形態と同様にして、入力された音声信号から音声ファイルを作成し、該音声ファイルからテキストファイルを作成する。そして、メモリ13から操作ワードを読み出して、テキストファイル内の言語と操作ワードとの類似度を算出する。算出された類似度を用いて音声認識結果の信頼率を算出する。例えば、テキストファイル内の言語と操作ワードとの類似度が高ければ認識の信頼率が高く算出されて、言語理解が可能であると判定される。この場合、操作ワードの意味する指示内容が特定される。一方で類似度が低ければ信頼率が低く算出されて、言語理解が不可能であると判定される。また、カメラシステム制御部10は通信部19を介してカメラ1とクラウド2との通信レートを検出する。通信レートは通信状態を表す指標の一例である。そして、カメラシステム制御部10は、音声認識結果の信頼率、及び検出された通信レートに応じて、カメラ1による音声認識結果を用いるか、クラウド2による音声認識結果を用いるかを切り替え制御する。
図6は、第2の実施形態に係る撮像システム100によって実行される処理を示すフローチャートである。図6に示すフローチャートはカメラ1が実行する処理であり、処理に係るプログラムはメモリ13に格納されており、カメラシステム制御部10によって実行される。クラウド2が実行する処理は図4(b)に示すフローチャートと同様であるため説明を省略する。図6に示すフローチャートは、カメラ1の図示しない電源スイッチが操作されて電源がONに切り替わると開始する。
ステップS601からステップS608までの処理は、図4(a)のステップS401からステップS408までの処理と同様であるため説明を省略する。
ステップS609では、カメラシステム制御部10が、ステップS409と同様の音声認識処理を行い、音声認識結果とともに音声認識結果の信頼率を出力する。
ステップS610では、カメラシステム制御部10が、ステップS609で出力された信頼率と第1閾値とを比較し、信頼率が第1閾値以下であるか否かを判定する。カメラシステム制御部10が信頼率が第1閾値以下であると判定した場合、処理はステップS611に進む。カメラシステム制御部10が第1閾値を超えていると判定した場合、処理はステップS613に進む。信頼率が第1閾値を越えている状態は、図4(a)のステップS410で言語理解が可能であると判定された状態と同様である。
ステップS609では、カメラシステム制御部10が、ステップS409と同様の音声認識処理を行い、音声認識結果とともに音声認識結果の信頼率を出力する。
ステップS610では、カメラシステム制御部10が、ステップS609で出力された信頼率と第1閾値とを比較し、信頼率が第1閾値以下であるか否かを判定する。カメラシステム制御部10が信頼率が第1閾値以下であると判定した場合、処理はステップS611に進む。カメラシステム制御部10が第1閾値を超えていると判定した場合、処理はステップS613に進む。信頼率が第1閾値を越えている状態は、図4(a)のステップS410で言語理解が可能であると判定された状態と同様である。
ステップS611では、カメラシステム制御部10が、ステップS609で出力された信頼率と第1閾値よりも低く設定された第2閾値とを比較し、信頼率が第2閾値以下であるか否かを判定する。カメラシステム制御部10が信頼率が第2閾値を超えていると判定した場合、処理はステップS612に進む。カメラシステム制御部10が信頼率が第2閾値以下であると判定した場合、処理はステップS614に進む。信頼率が第2閾値以下である状態は、図4(a)のステップS410で言語理解が不可能であると判定された状態と同様である。
ステップS612では、カメラシステム制御部10が、通信部19とクラウド2との通信レートを検出し、検出した通信レートと所定値とを比較する。カメラシステム制御部10が通信レートが所定値以下であると判定した場合、処理はステップS613に進む。カメラシステム制御部10が通信レートが所定値を超えていると判定した場合、処理はステップS614に進む。
ステップS613では、カメラシステム制御部10が、S609の音声認識処理の結果に応じたカメラ動作を行う。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
ステップS614では、カメラシステム制御部10が、クラウド2から音声認識処理結果を受信したか否かを判定する。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信するまでステップS614の処理を繰り返す。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信したと判定した場合、処理はステップS615に進む。
ステップS615では、カメラシステム制御部10が、ステップS614で受信した認識結果に応じたカメラ動作を行う。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
ステップS613では、カメラシステム制御部10が、S609の音声認識処理の結果に応じたカメラ動作を行う。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
ステップS614では、カメラシステム制御部10が、クラウド2から音声認識処理結果を受信したか否かを判定する。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信するまでステップS614の処理を繰り返す。カメラシステム制御部10がクラウド2から音声認識処理の結果を受信したと判定した場合、処理はステップS615に進む。
ステップS615では、カメラシステム制御部10が、ステップS614で受信した認識結果に応じたカメラ動作を行う。そして、一連の処理が終了する。その後、処理は再びSTARTの状態に戻る。
以上説明したように、第2の実施形態の撮像システム100によれば、クラウド2との通信状態が不安定な場合、カメラ1による音声認識結果の信頼率がやや低くてもカメラ1による音声認識結果を用いてカメラ1を動作させる。クラウド2から音声認識結果を受信するまでに時間がかかることが予想されるためである。これにより、第1の実施形態と同様の効果が得られるとともに、音声入力による操作を更に迅速に行うことができる。
以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
例えば、上述の各実施形態では、カメラシステム制御部10が音声認識許可ワードを認識した場合に、音声命令の受付けを開始するとしたが、音声命令の受付けを開始する方法としてはその他の方法をとっても構わない。例えば、カメラシステム制御部10がレリーズ釦等の所定の操作釦の操作を検出した場合に、音声命令を受付けるようにしてもよい。また、ユーザがファインダー光学系29を覗いているか否かを検出する図示しないファインダー検出センサをカメラ1に設け、カメラシステム制御部10がファインダー検出センサの検出結果に基づいて、操作ワードによる音声命令を受付けるようにしてもよい。このように操作部15や検出部の結果に応じて音声命令の受付けることで、ユーザは撮影に移行する自然な動作の中で音声命令による操作を行うことができる。また、レリーズ釦の半押しされている場合やファインダー光学系29を覗いている場合のみ音声入力を受付けることにより、意図しない発話や周囲の環境音による誤認識や誤動作を抑制できるとともに、音声処理回路の消費電力を抑えることができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
1:カメラ、2:クラウド、10:カメラシステム制御部、11:撮像素子、13:メモリ、16:画像表示部、18:音声入力部、19:通信部、53:状態表示アイコン、100:撮像システム
Claims (13)
- 音声認識可能な外部システムと通信可能な撮像装置であって、
音声入力部から入力された音声に対して認識処理を行う認識処理手段と、
前記外部システムに前記音声を送信して、前記音声の認識結果を受信する送受信手段と、
前記撮像装置に関する状態に基づいて、前記認識処理手段による認識処理の結果である第1の認識結果及び前記外部システムによる前記認識結果である第2の認識結果のうちのいずれかを選択する選択手段と、を備えたことを特徴とする撮像装置。 - 前記撮像装置に関する状態は、前記第1の認識結果の状態を含むことを特徴とする請求項1に記載の撮像装置。
- 前記認識処理に用いられる所定のワードを記憶する記憶手段を備え、
前記所定のワードは、前記撮像装置の操作に関する操作ワードを含むことを特徴とする請求項1又は2に記載の撮像装置。 - 前記所定のワードは、前記音声による操作の開始を許可するための許可ワードを含むことを特徴とする請求項3に記載の撮像装置。
- 前記送受信手段は、前記音声が入力された後であって、前記第1の認識結果が得られる前に、前記外部システムに前記音声を送信することを特徴とする請求項1乃至4何れか1項に記載の撮像装置。
- 前記第1の認識結果が得られた場合であって、前記第2の認識結果が受信されていない場合に、通知を行う通知手段を備えたことを特徴とする請求項1乃至5何れか1項に記載の撮像装置。
- 前記認識処理が開始されてから前記第1の認識結果が得られるまでの間に第1の通知を行い、前記第1の認識結果が得られてから前記第2の認識結果が受信されるまでの間に第2の通知を行う通知手段を備えたことを特徴とする請求項1乃至6何れか1項に記載の撮像装置。
- 前記選択手段は、前記第1の認識結果の信頼率、及び前記外部システムとの通信状態のうち少なくともいずれか一方に基づいて、前記第1の認識結果及び前記第2の認識結果のうちのいずれかを選択することを特徴とする請求項1乃至7何れか1項に記載の撮像装置。
- 前記選択手段は、前記信頼率が所定の範囲にある場合に、前記外部システムとの通信状態に基づいて、前記第1の認識結果及び前記第2の認識結果のうちのいずれかを選択することを特徴とする請求項8に記載の撮像装置。
- ファインダーに接眼したことを検出する検出部をさらに備え、
前記認識処理手段は、前記検出部が接眼を検出した場合に、前記認識処理を行うことを特徴とする請求項1乃至9何れか1項に記載の撮像装置。 - 前記認識処理手段は、所定の操作釦が指示された場合に、前記認識処理を行うことを特徴とする請求項1乃至10何れか1項に記載の撮像装置。
- 音声認識可能な外部システムと通信可能な撮像装置の制御方法であって、
音声入力部から入力された音声に対して認識処理を行う認識処理ステップと、
前記外部システムに前記音声を送信して、前記音声の認識結果を受信する送受信ステップと、
前記撮像装置に関する状態に基づいて、前記認識処理ステップによる認識処理の結果である第1の認識結果及び前記外部システムによる前記認識結果である第2の認識結果のうちのいずれかを選択する選択ステップと、を含むことを特徴とする撮像装置の制御方法。 - 請求項1乃至11何れか1項に記載の撮像装置の各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019212387A JP2021087026A (ja) | 2019-11-25 | 2019-11-25 | 撮像装置、撮像装置の制御方法及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019212387A JP2021087026A (ja) | 2019-11-25 | 2019-11-25 | 撮像装置、撮像装置の制御方法及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021087026A true JP2021087026A (ja) | 2021-06-03 |
Family
ID=76088548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019212387A Pending JP2021087026A (ja) | 2019-11-25 | 2019-11-25 | 撮像装置、撮像装置の制御方法及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021087026A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029192A1 (ja) * | 2022-08-03 | 2024-02-08 | 株式会社Jvcケンウッド | 音声コマンド受付装置、および音声コマンド受付方法 |
-
2019
- 2019-11-25 JP JP2019212387A patent/JP2021087026A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029192A1 (ja) * | 2022-08-03 | 2024-02-08 | 株式会社Jvcケンウッド | 音声コマンド受付装置、および音声コマンド受付方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7848633B2 (en) | Image taking system | |
US8462223B2 (en) | Image pickup apparatus, control method for the same, and program thereof | |
JP4288612B2 (ja) | 画像処理装置および方法、並びにプログラム | |
JP4639205B2 (ja) | 撮像装置及び制御方法、及びユーザーインタフェースの表示装置 | |
US8896742B2 (en) | Image pickup apparatus, and control method and program thereof | |
US9182651B2 (en) | Image pickup apparatus for correcting an in-focus position | |
WO2013190762A1 (ja) | 撮像装置および画像表示方法 | |
KR20150089933A (ko) | 인터벌 촬영을 실행하는 촬상 장치, 촬상 방법 및 기억 매체 | |
JP2021087026A (ja) | 撮像装置、撮像装置の制御方法及びそのプログラム | |
JP5930683B2 (ja) | 撮像装置、その制御方法及びプログラム | |
EP3971642B1 (en) | Intermediate accessory apparatus, image pickup apparatus, image pickup system, processing method, and program | |
US20210127048A1 (en) | Control apparatus, control method, and storage medium | |
JP5499796B2 (ja) | 電子機器 | |
JP2021125873A (ja) | 表示制御装置及びその制御方法 | |
JP2017021177A (ja) | レンズケラレ時の測距点、測距エリア遷移方法 | |
JP2023003157A (ja) | 電子機器およびその制御方法、プログラム | |
JP2019009571A (ja) | ログ装置 | |
JP2008079229A (ja) | 電子機器および撮像装置 | |
JP2015233260A (ja) | 撮像装置 | |
JP2006099017A (ja) | 撮影装置 | |
JP2004301895A (ja) | 電子機器、および音声操作方法 | |
JP2021001944A (ja) | 光学装置およびその制御方法 | |
JP2019193176A (ja) | 撮像装置 | |
JP2008177873A (ja) | 撮像装置及び画像処理方法 | |
JP2019193175A (ja) | 撮像装置 |