JP2021087026A

JP2021087026A - 撮像装置、撮像装置の制御方法及びそのプログラム

Info

Publication number: JP2021087026A
Application number: JP2019212387A
Authority: JP
Inventors: 文裕梶村; Fumihiro Kajimura; 信行堀江; Nobuyuki Horie; 真宏会見; Masahiro Aimi; 峻川田; Shun Kawada; 太郎松野; Taro Matsuno
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-06-03

Abstract

【課題】音声入力による操作が可能な撮像装置の操作性を向上させる。【解決手段】カメラ１は、音声認識可能なクラウド２と無線通信しており、カメラ１の操作に関する操作ワードを記憶している。カメラ１のカメラシステム制御部１００は音声入力部１８から音声命令が入力されると音声命令をクラウド２に送信する。カメラシステム制御部１００は入力された音声命令に対して操作ワードを用いた音声認識処理を行う。カメラシステム制御部１００は、音声認識処理により言語理解が可能であった場合、当該音声認識処理の結果を用いてカメラ１を動作する。一方で、言語理解が不可能であった場合、クラウド２から音声認識結果を受信して、受信した音声認識結果を用いてカメラ１を動作する。【選択図】図４

Description

本発明は、撮像装置、撮像装置の制御方法及びそのプログラムに関する。

近年、ユーザが音声を発することによる音声入力によりカメラを操作する技術が提案されている。音声入力によりカメラを操作することで、煩雑な操作を行うことなくカメラを動作させることができる。例えば、特許文献１では、音声入力によりレリーズ動作を行うカメラが開示されている。また、特許文献２では、音声入力により操作命令を行う機器において、音声入力信号を外部機器に送信し、外部機器上に配された音声認識システムを用いて音声入力信号の音声認識を行い、認識結果に基づく操作命令を機器に送信することが開示されている。

特開２０００−２２１５８２号公報特開２００５−３１１８６４号公報

しかしながら、特許文献１に記載の発明では、複雑な単語やフレーズを含む音声を認識することができず、ユーザの意図する操作を行うことが困難な場合がある。一方で、特許文献２に記載の発明のように、外部機器を利用して音声認識を行った場合、外部機器との情報のやり取りに時間がかかる。そのため、カメラの設定変更や撮影等の操作をスピーディに行うことができず、シャッターチャンスを逃す恐れがある。

本発明は、このような問題点を解決するためになされたものであって、音声入力による操作が可能な撮像装置の操作性を向上させることを目的とする。

本発明の撮像装置は、音声認識可能な外部システムと通信可能な撮像装置であって、音声入力部から入力された音声に対して認識処理を行う認識処理手段と、前記外部システムに前記音声を送信して、前記音声の認識結果を受信する送受信手段と、前記撮像装置に関する状態に基づいて、前記認識処理手段による認識処理の結果である第１の認識結果及び前記外部システムによる前記認識結果である第２の認識結果のうちのいずれかを選択する選択手段と、を備えたことを特徴とする。

音声入力による操作が可能な撮像装置の操作性を向上させることができる。

第１の実施形態に係る撮像システムの構成を示す図である。第１の実施形態に係るカメラの構成を示す図である。登録ワードの一例を示す図である。第１の実施形態に係る撮像システムによる処理を示すフローチャートである。表示画面の一例を示す図である。第２の実施形態に係る撮像システムによる処理を示すフローチャートである。

以下、添付図面を参照して、本発明の好適な実施形態について説明する。

＜第１の実施形態＞
図１は、第１の実施形態に係る撮像システム１００の構成を示す図である。この撮像システム１００は、カメラ１とクラウドシステム２（以下、クラウドシステムをクラウドと表記する）とが無線ネットワークにより相互に接続されて通信可能である。カメラ１は音声入力による操作が可能である。カメラ１は撮像装置の一例である。クラウド２は、例えばクラウドサービスを提供するクラウドサーバである。クラウド２は外部システムの一例である。カメラ１とクラウド２とは双方向の情報のやり取りができる。カメラ１はユーザから発せられた音声が入力されると音声認識を行い認識結果に応じた所定の動作を行う。クラウド２は音声認識可能であり、カメラ１から送信された音声ファイルを受信して音声認識を行い認識結果をカメラ１に送信する。カメラ１はクラウド２から受信した認識結果に応じて所定の動作を行うことも可能である。

図２（ａ）はカメラ１の内部構成を示すブロック図である。図２（ｂ）はカメラ１の断面模式図である。図２（ａ）と図２（ｂ）で同じ機能を有する部分については同じ番号が付してある。カメラ１は交換レンズ３を装着可能なデジタル一眼カメラである。カメラ１は、撮像素子１１、画像処理部１２、メモリ１３、シャッター１４、操作部１５、画像表示部１６、音声出力部１７、音声入力部１８、通信部１９、カメラシステム制御部１０を備える。以下、各構成について説明する。

交換レンズ３は光軸２１に沿って配された複数のレンズを備える撮影光学系２２、撮影光学系２２を調整するレンズ駆動部２３、レンズ駆動部２３の制御を司るレンズシステム制御部２０を有している。レンズ駆動部２３は不図示のブレ補正機構、フォーカスレンズ、絞り機構を制御する。また、カメラ１と交換レンズ３との接合部には両者を電気的に接続させるレンズ接点３０が設けられており、カメラ１と交換レンズ３とがレンズ接点３０を介して信号のやり取りを行うことができる。

撮像素子１１は交換レンズ３を通過した光線を受光する。画像処理部１２は内部にホワイトバランス回路、ガンマ補正回路、補間演算回路等を有しており、カメラシステム制御部１０の制御下で撮像素子１１にて光電変換された情報から画像データを生成する。メモリ１３は画像データ、図３で後述する各種の登録ワード、カメラシステム制御部１０で実行されるプログラム等の各種のデータを記憶する。シャッター１４はフォーカルプレーンシャッター等であり撮像素子１１への光線の遮光・通過を調整する。

操作部１５はユーザの手動操作を検出し検出結果をカメラシステム制御部１０に出力する。操作部１５は押下されることで撮影指示を受けるレリーズ釦を含む。レリーズ釦は押し込み量が１段階目のいわゆる半押しと、そこからさらに押し込んだ押し込み量が２段階目のいわゆる全押しを検出することができる。半押しが検出されるとカメラシステム制御部１０の制御下でオートフォーカス動作等の撮影予備動作が開始され、さらに全押しが検出されるとカメラシステム制御部１０の制御下で撮影動作が開始される。

画像表示部１６はカメラシステム制御部１０の制御下で、撮像素子１１で取得されるＬＶ（ライブビュー）画像、カメラ１の状態等の表示を行う。画像表示部１６は背面液晶１６ａとＥＶＦ（電子ビューファインダー）１６ｂとを含む。ＥＶＦ１６ｂは表示面方向にファインダー光学系２９を有し、ユーザは接眼レンズ２９ａ側から目視することでＥＶＦ１６ｂの表示画面を確認することができる。音声出力部１７はカメラシステム制御部１０の制御下で通知音等を発する。音声入力部１８はマイクロホンや音声処理回路等を備え、ユーザから入力された音声を音声信号に変換してカメラシステム制御部１０に出力する。通信部１９は無線ネットワークを介してクラウド２との通信を行う。

カメラシステム制御部１０はＣＰＵ（中央演算処理装置）等を備え、カメラ１の全体の制御を司る。カメラシステム制御部１０がメモリ１３に格納されたプログラムを実行することにより、カメラ１の各構成手段を制御して、図４（ａ）に示す処理が実現される。カメラシステム制御部１０は撮像の際のタイミング信号等を生成して各部に出力する。カメラシステム制御部１０はレリーズ釦の全押しが検出され撮影指示を受付けた場合、該指示に応じて撮像素子１１の制御や、レンズシステム制御部２０への命令信号の送信等を行う。また、カメラシステム制御部１０は音声入力部１８からの音声信号に対して次に説明する音声認識処理を行う。カメラシステム制御部１０は認識処理手段として機能する。

図３は音声認識処理に用いられる登録ワードの一例を示している。登録ワードは音声認識許可ワードと操作ワードとを含み、メモリ１３に記憶されている。メモリ１３は記憶手段の一例である。
図３（ａ）は音声認識許可ワードの一例を示す。音声認識許可ワードは音声命令の受付け開始を許可するワードであり、例えば「カメラ」である。カメラシステム制御部１０が音声認識許可ワードを認識するまでは音声操作が開始しない。つまり、ユーザが「カメラ」と言う音声を発し、カメラシステム制御部１０が音声認識許可ワードであると判定した場合に、ユーザが次に発した音声が操作指示する音声命令として処理される。そして、カメラシステム制御部１０は音声命令に対して図３（ｂ）に示す操作ワードを用いた音声認識処理を行う。これにより、ユーザの音声命令を発するタイミングが把握され、ユーザの意図しない発言や周囲の環境音によって誤認識や誤動作が生じる可能性を軽減させることが可能になる。

図３（ｂ）は操作ワードの一例を示す。操作ワードはカメラ１の撮影操作や設定操作に関するワードである。操作ワードには、レリーズ釦の全押し操作に対応付けられる「レリーズ」、シャッター速度の設定を意味する「Ｔｖ値」、絞り値の設定を意味する「Ｆ値」、ＩＳＯの設定を意味する「ＩＳＯ」がある。また、ピント合わせに関する各種の設定を意味する「ＡＦ」「ＭＦ」「ワンショット」「コンティニュアス」「サーボ」、連写／単写モードの設定を意味する「連写」、「単写」がある。これらの他に、「１」「２」「３」・・・「１０」「１００」「１０００」等の数値、小数や分数を意味する「点」「分の」、設定値の増減を意味する「アップ」「ダウン」「プラス」「マイナス」等がある。例えばユーザが「Ｔｖ値１プラス」と発すれば、カメラシステム制御部１０はシャッター速度を１段早くする音声命令と認識し、音声命令前のシャッター速度が１／６０であれば１段分早い１／１２０になるように動作する。またユーザが「Ｆ値４」と発すれば、カメラシステム制御部１０は絞り値をＦ４．０に変更する音声命令と認識し、絞り値がＦ４．０になるように動作する。
以上のように、メモリ１３には音声認識許可ワードが１個、操作ワードが数十個登録されている。なお音声認識許可ワードは例として「カメラ」としたが、その他のワードでも構わないし、ユーザが独自に設定しても構わない。また同様に操作ワードについても図４（ｂ）に示すワードに限定するものではなく、「Ｔｖ値」に代えて「Ｔｖ」等の略語でも構わないし、「シャッター」等の別のワードでも構わない。また、図４（ｂ）に示す操作ワード以外の操作ワードをユーザが予め登録しておいても構わない。

次に、図４を用いて第１の実施形態に係る撮像システム１００が実行する処理について説明する。図４（ａ）に示すフローチャートはカメラ１が実行する処理であり、処理に係るプログラムはメモリ１３に格納されており、カメラシステム制御部１０によって実行される。図４（ｂ）に示すフローチャートはクラウド２が実行する処理である。まず図４（ａ）について説明する。図４（ａ）に示すフローチャートは、カメラ１の図示しない電源スイッチが操作されて電源がＯＮに切り替わると開始する。

ステップＳ４０１では、カメラシステム制御部１０が、音声入力部１８にユーザの発した音声が入力されたか否かを判定する。カメラシステム制御部１０は音声が入力されたと判定するまで待機し、カメラシステム制御部１０が音声が入力されたと判定した場合、処理はステップＳ４０２に進む。
ステップＳ４０２では、カメラシステム制御部１０が、ステップＳ４０１で入力された音声入力部１８の音声信号を用いて音声ファイルを作成する。音声ファイルは例えば、ｗａｖファイルやｍｐ３ファイル等である。
ステップＳ４０３では、カメラシステム制御部１０が、ステップＳ４０２で作成された音声ファイルに対して音声認識処理を行う。具体的には、音声ファイルの言語を認識しテキストファイルを作成する。そして、カメラシステム制御部１０が、メモリ１３に登録される音声認識許可ワードを読み出して、読み出された音声認識許可ワードと作成されたテキストファイル内の言語とを照合する。

ステップＳ４０４では、カメラシステム制御部１０が、テキストファイル内の言語が音声認識許可ワードであるか否かを判定する。カメラシステム制御部１０が音声認識許可ワードであると判定した場合、処理はステップＳ４０５に進む。音声認識許可ワードであると判定される場合には、テキストファイル内の言語と音声認識許可ワードとが一致する場合の他に、類似する場合も含む。これにより、音声命令の受付けが開始される。カメラシステム制御部１０が音声認識許可ワードではないと判定した場合、処理はステップＳ４０１に戻り、カメラシステム制御部１０は次の音声が入力されるまで待機する。
ステップＳ４０５では、カメラシステム制御部１０が、音声入力部１８にユーザの発した音声が入力されたか否かを判定する。カメラシステム制御部１０が音声が入力されていないと判定した場合、処理はステップＳ４０６に進む。カメラシステム制御部１０が音声が入力されたと判定した場合、処理はステップＳ４０７に進む。

ステップＳ４０６では、カメラシステム制御部１０が、ステップＳ４０４で音声命令の受付けを開始してからの時間経過を検出し、所定時間が経過したか否かを判定する。カメラシステム制御部１０が所定時間が経過していないと判定した場合、処理はステップＳ４０５に戻る。カメラシステム制御部１０が所定時間が経過したと判定した場合、処理はステップＳ４０１に戻る。つまり、音声命令の受付けが開始されてから一定時間音声が入力されない場合、音声命令の受付けがキャンセルされる。

ステップＳ４０７では、カメラシステム制御部１０が、ステップＳ４０５で入力された音声入力部１８の音声信号を用いて音声ファイルを作成する。
ステップＳ４０８では、カメラシステム制御部１０が、通信部１９によるクラウド２との通信を開始し、ステップＳ４０７で作成した音声ファイルをクラウド２に送信する。
ステップＳ４０９では、カメラシステム制御部１０が、ステップＳ４０７で作成した音声ファイルに対し音声認識処理を行う。

次に、ステップＳ４０９で実行される音声認識処理について詳しく説明する。
まず、カメラシステム制御部１０が、音声ファイルの言語を認識しテキストファイルを作成する。そして、作成したテキストファイル内の言語を理解するための処理を行う。具体的には、メモリ１３に登録される操作ワードを読み出して、読み出された操作ワードとテキストファイル内の言語とを照合する。そしてテキストファイル内の言語が操作ワードとして登録されていれば、当該操作ワードの意味する指示内容を特定する。例えば、テキストファイル内の言語が「レリーズ」であれば、レリーズ釦操作による撮影動作の開始指示であると理解される。ここでテキストファイルには「レリーズ」の１つの言語のみが含まれる例について説明したが、テキストファイルには複数の言語を組み合わせたフレーズが含まれていても構わない。例えば上述のように「Ｔｖ値１プラス」等でもよい。この場合、シャッター速度を１段早くする設定指示であると理解される。

ステップＳ４１０では、カメラシステム制御部１０が、ステップＳ４０９の音声認識処理により言語理解が可能であったか否かを判定する。つまり、ステップＳ４０９で作成されたテキストファイル内の言語がメモリ１３に登録されているか否かを判定する。または、ステップＳ４０９の音声認識結果の信頼率が所定の閾値以上であるか否かを判定してもよい。なお、信頼率については、後述の第２の実施形態で詳しく説明する。カメラシステム制御部１０が言語理解が可能であると判定した場合、処理はステップＳ４１１に進む。カメラシステム制御部１０が言語理解が不可能であると判定した場合、処理はステップＳ４１２に進む。

例えば、テキストファイル内の言語が「レリーズ」の場合、「レリーズ」はメモリ１３に登録されているので言語理解が可能と判定される。一方で、テキストファイル内の言語が「記録フォーマットをＪＰＥＧ＋ＲＡＷ」の場合、「記録フォーマットをＪＰＥＧ＋ＲＡＷ」はメモリ１３に登録されていないので言語理解が不可能であると判定される。なお、ステップＳ４０５で入力された音声が「レリーズ」であっても、周囲の環境音の影響やユーザの発話の仕方等により音声ファイルのテキスト化が適正に行われず、テキストファイル内の言語が「レリーズ」でなかった場合には言語理解が不可能であると判定される。ステップＳ４０９での音声認識処理の結果、即ち特定された指示内容が第１の認識結果に相当し、ステップＳ４１０の判定結果がＹＥＳであるかＮＯであるかが、第１の認識結果の状態に相当する。

ステップＳ４１１では、カメラシステム制御部１０が、Ｓ４０９の音声認識処理の結果に応じたカメラ動作を行う。例えば、テキストファイル内の言語が「レリーズ」であれば、レリーズ釦操作による撮影動作を開始する。そして、一連の処理が終了する。その後、処理は再びＳＴＡＲＴの状態に戻る。
ステップＳ４１２では、カメラシステム制御部１０が、クラウド２から音声認識処理結果を受信したか否かを判定する。カメラシステム制御部１０がクラウド２から音声認識処理の結果を受信するまでステップＳ４１２の処理を繰り返す。カメラシステム制御部１０がクラウド２から音声認識処理の結果を受信したと判定した場合、処理はステップＳ４１３に進む。クラウド２による音声認識処理の結果が第２の認識結果に相当する。カメラシステム制御部１０は送受信手段として機能する。
ステップＳ４１３では、カメラシステム制御部１０が、ステップＳ４１２で受信した認識結果に応じたカメラ動作を行う。クラウド２に登録されるワード数はメモリ１３に登録されるワード数よりも遥かに多い。そのため、クラウド２では複雑な言語も理解可能である。例えばステップＳ４０５で入力された音声が「記録フォーマットをＪＰＥＧ＋ＲＡＷ」の場合でも、カメラ１の記録フォーマットの設定をＪＰＥＧ＋ＲＡＷに変更する設定指示であると理解可能である。そして、一連の処理が終了する。その後、処理は再びＳＴＡＲＴの状態に戻る。

なお、ステップＳ４１２で、カメラシステム制御部１０がクラウド２から音声認識結果を受信するまでステップＳ４１２の処理を繰り返して待機するとしたが、所定時間が経過した場合、一連の処理が終了するようにしてもよい。この場合、カメラシステム制御部１０は画像表示部１６に音声認識できなかった旨のエラー表示を行うようにしてもよい。

次に、図４（ｂ）に示すクラウド２が実行する処理について説明する。
ステップＳ４２１では、クラウド２がカメラ１の通信部１９との通信を開始して、ステップＳ４０８においてカメラ１が送信した音声ファイルを受信する。
ステップＳ４２２では、クラウド２がステップＳ４２１で受信した音声ファイルについて音声認識処理を行う。具体的には、ステップＳ４０９と同様にして、音声認識結果が得られる。
ステップＳ４２３では、音声認識結果をカメラ１に送信する。そして、一連の処理が終了する。

以上説明したように、第１の実施形態の撮像システム１００によれば、カメラ１の音声認識の状態に応じて、カメラ１による音声認識結果とクラウド２による音声認識結果とを選択的に用いてカメラ１が操作される。カメラシステム制御部１０は選択手段として機能する。これにより、単純な音声命令に対してスピーディな操作が可能であるとともに、複雑な音声命令に対してはユーザの意図通りの操作が可能である。従って、カメラ１の操作性を向上させることができる。

また、音声命令が長く複雑な場合や、クラウド２との通信状態が不安定な場合、クラウド２との情報のやり取りに時間がかかるケースがある。そこで、カメラシステム制御部１０がステップＳ４０９で音声認識処理を開始する前に、Ｓ４０７で作成した音声ファイルをクラウド２に送信する。このようにカメラ１で言語理解が不可能であると判定されるより前にクラウド２に音声ファイルが送信されるため、カメラ１を迅速に動作させることが可能になる。

次に、図４（ａ）のフローチャートに示す処理が実行されている間に画像表示部１６に表示される通知表示について説明する。図５（ａ）は画像表示部１６であるＥＶＦ１６ｂに表示される表示画面の一例である。ＥＶＦ１６ｂにはＬＶ画像５１が表示され、ＬＶ画像５１の下側にはカメラ１の撮影設定情報５２が表示される。撮影設定情報５２は、複数の設定項目を含む。例えば「Ｍ」（撮影モードがマニュアルである）、「１／２０００」（シャッター速度が１／２０００秒である）、「Ｆ４．０」（絞り値がＦ４．０である）、「Ａｖ＋１．０」（露出状態が適正露光に対し＋１．０段明るい）、「ＩＳＯ４０００」（ＩＳＯ感度が４００である）が表示される。更に、ＬＶ画像５１の下側には音声認識に関するカメラ１の状態を表す状態表示アイコン５３が表示される。状態表示アイコン５３は、カメラシステム制御部１０の制御下で音声認識の状態に応じて切り替わる。具体的には、カメラシステム制御部１０が表示なしの状態、及び図５（ｂ）、図５（ｃ）、図５（ｄ）に示す各状態に切り替える。カメラシステム制御部１０が通知手段として機能する。

図４（ａ）のフローチャートにおけるステップＳ４０１からステップＳ４０４でＹＥＳ判定されるまでは、状態表示アイコン５３は表示なしの状態である。ステップＳ４０４でＹＥＳ判定されてからステップＳ４０５でＹＥＳ判定されるまでは、図５（ｂ）に示す状態表示アイコン５３が表示される。これにより音声命令の受付け中であることが通知される。ステップＳ４０５でＹＥＳ判定されてからステップＳ４０９の処理が終了されるまで、即ちカメラシステム制御部１０が音声命令に対して音声認識処理を行っている間は、図５（ｃ）に示す状態表示アイコン５３が表示される。図５（ｃ）の表示が第１の通知に相当する。ステップＳ４１０でＮＯ判定されてからステップＳ４１２でＹＥＳ判定されるまでの間、即ちカメラシステム制御部１０がクラウド２の音声認識結果を待ち受けている間は、図５（ｄ）に示す状態表示アイコン５３が表示される。図５（ｄ）の表示が第２の通知に相当する。このように、状態表示アイコン５３が図５（ｃ）から図５（ｄ）に切り替わることで、カメラ１では音声認識できず、クラウド２の音声認識結果が利用されることがユーザに通知される。そして処理がステップＳ４１１またはステップＳ４１３に進むと、状態表示アイコン５３は再び表示なしの状態に戻る。

以上のようにして、状態表示アイコン５３を表示することで、現在の音声認識の状態をユーザに知らせることが可能である。これにより、ユーザはカメラ１による音声認識処理とクラウド２による音声認識処理のどちらに時間がかかっているのかを知ることができる。例えば、クラウド２の音声認識処理に時間がかかっていることを知ったユーザは、所定の釦を押下することで音声操作を処理の途中でキャンセルして、操作部１５から操作し直すこともできる。なお、音声認識の状態に応じて状態表示アイコン５３を、表示なしの状態、及び図５（ｂ）、図５（ｃ）、図５（ｄ）の各状態に切り替えるとしたが、図５（ｃ）と図５（ｄ）の差異が視認可能であれば他の表示方法でも構わない。例えば、カメラシステム制御部１０はＥＶＦ１６ｂに図５（ｅ）に示すような丸い点を表示して、色を変えたり、点滅させたりすることで、ユーザに通知しても構わない。更に、ユーザに通知する方法は、画像表示部１６を用いた通知表示に限られず、音声出力部１７を用いた音声通知でも構わない。

＜第２の実施形態＞
以下、図６を参照して、第２の実施形態に係る撮像システム１００について説明する。第２の実施形態では、カメラ１による音声認識結果及びクラウド２による音声認識結果のうちのいずれかを選択する際に用いられる条件が、第１の実施形態とは異なる。第２の実施形態のハードウエア構成は、第１の実施形態に係る撮像システム１００と同様である。従って、第１の実施形態と同様の部分については同じ符号を用いてその説明を省略する。

第２の実施形態において、カメラシステム制御部１０は、音声認識結果の信頼性を信頼率として出力する。具体的には、まず第１の実施形態と同様にして、入力された音声信号から音声ファイルを作成し、該音声ファイルからテキストファイルを作成する。そして、メモリ１３から操作ワードを読み出して、テキストファイル内の言語と操作ワードとの類似度を算出する。算出された類似度を用いて音声認識結果の信頼率を算出する。例えば、テキストファイル内の言語と操作ワードとの類似度が高ければ認識の信頼率が高く算出されて、言語理解が可能であると判定される。この場合、操作ワードの意味する指示内容が特定される。一方で類似度が低ければ信頼率が低く算出されて、言語理解が不可能であると判定される。また、カメラシステム制御部１０は通信部１９を介してカメラ１とクラウド２との通信レートを検出する。通信レートは通信状態を表す指標の一例である。そして、カメラシステム制御部１０は、音声認識結果の信頼率、及び検出された通信レートに応じて、カメラ１による音声認識結果を用いるか、クラウド２による音声認識結果を用いるかを切り替え制御する。

図６は、第２の実施形態に係る撮像システム１００によって実行される処理を示すフローチャートである。図６に示すフローチャートはカメラ１が実行する処理であり、処理に係るプログラムはメモリ１３に格納されており、カメラシステム制御部１０によって実行される。クラウド２が実行する処理は図４（ｂ）に示すフローチャートと同様であるため説明を省略する。図６に示すフローチャートは、カメラ１の図示しない電源スイッチが操作されて電源がＯＮに切り替わると開始する。

ステップＳ６０１からステップＳ６０８までの処理は、図４（ａ）のステップＳ４０１からステップＳ４０８までの処理と同様であるため説明を省略する。
ステップＳ６０９では、カメラシステム制御部１０が、ステップＳ４０９と同様の音声認識処理を行い、音声認識結果とともに音声認識結果の信頼率を出力する。
ステップＳ６１０では、カメラシステム制御部１０が、ステップＳ６０９で出力された信頼率と第１閾値とを比較し、信頼率が第１閾値以下であるか否かを判定する。カメラシステム制御部１０が信頼率が第１閾値以下であると判定した場合、処理はステップＳ６１１に進む。カメラシステム制御部１０が第１閾値を超えていると判定した場合、処理はステップＳ６１３に進む。信頼率が第１閾値を越えている状態は、図４（ａ）のステップＳ４１０で言語理解が可能であると判定された状態と同様である。

ステップＳ６１１では、カメラシステム制御部１０が、ステップＳ６０９で出力された信頼率と第１閾値よりも低く設定された第２閾値とを比較し、信頼率が第２閾値以下であるか否かを判定する。カメラシステム制御部１０が信頼率が第２閾値を超えていると判定した場合、処理はステップＳ６１２に進む。カメラシステム制御部１０が信頼率が第２閾値以下であると判定した場合、処理はステップＳ６１４に進む。信頼率が第２閾値以下である状態は、図４（ａ）のステップＳ４１０で言語理解が不可能であると判定された状態と同様である。

ステップＳ６１２では、カメラシステム制御部１０が、通信部１９とクラウド２との通信レートを検出し、検出した通信レートと所定値とを比較する。カメラシステム制御部１０が通信レートが所定値以下であると判定した場合、処理はステップＳ６１３に進む。カメラシステム制御部１０が通信レートが所定値を超えていると判定した場合、処理はステップＳ６１４に進む。
ステップＳ６１３では、カメラシステム制御部１０が、Ｓ６０９の音声認識処理の結果に応じたカメラ動作を行う。そして、一連の処理が終了する。その後、処理は再びＳＴＡＲＴの状態に戻る。
ステップＳ６１４では、カメラシステム制御部１０が、クラウド２から音声認識処理結果を受信したか否かを判定する。カメラシステム制御部１０がクラウド２から音声認識処理の結果を受信するまでステップＳ６１４の処理を繰り返す。カメラシステム制御部１０がクラウド２から音声認識処理の結果を受信したと判定した場合、処理はステップＳ６１５に進む。
ステップＳ６１５では、カメラシステム制御部１０が、ステップＳ６１４で受信した認識結果に応じたカメラ動作を行う。そして、一連の処理が終了する。その後、処理は再びＳＴＡＲＴの状態に戻る。

以上説明したように、第２の実施形態の撮像システム１００によれば、クラウド２との通信状態が不安定な場合、カメラ１による音声認識結果の信頼率がやや低くてもカメラ１による音声認識結果を用いてカメラ１を動作させる。クラウド２から音声認識結果を受信するまでに時間がかかることが予想されるためである。これにより、第１の実施形態と同様の効果が得られるとともに、音声入力による操作を更に迅速に行うことができる。

以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

例えば、上述の各実施形態では、カメラシステム制御部１０が音声認識許可ワードを認識した場合に、音声命令の受付けを開始するとしたが、音声命令の受付けを開始する方法としてはその他の方法をとっても構わない。例えば、カメラシステム制御部１０がレリーズ釦等の所定の操作釦の操作を検出した場合に、音声命令を受付けるようにしてもよい。また、ユーザがファインダー光学系２９を覗いているか否かを検出する図示しないファインダー検出センサをカメラ１に設け、カメラシステム制御部１０がファインダー検出センサの検出結果に基づいて、操作ワードによる音声命令を受付けるようにしてもよい。このように操作部１５や検出部の結果に応じて音声命令の受付けることで、ユーザは撮影に移行する自然な動作の中で音声命令による操作を行うことができる。また、レリーズ釦の半押しされている場合やファインダー光学系２９を覗いている場合のみ音声入力を受付けることにより、意図しない発話や周囲の環境音による誤認識や誤動作を抑制できるとともに、音声処理回路の消費電力を抑えることができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１：カメラ、２：クラウド、１０：カメラシステム制御部、１１：撮像素子、１３：メモリ、１６：画像表示部、１８：音声入力部、１９：通信部、５３：状態表示アイコン、１００：撮像システム

Claims

音声認識可能な外部システムと通信可能な撮像装置であって、
音声入力部から入力された音声に対して認識処理を行う認識処理手段と、
前記外部システムに前記音声を送信して、前記音声の認識結果を受信する送受信手段と、
前記撮像装置に関する状態に基づいて、前記認識処理手段による認識処理の結果である第１の認識結果及び前記外部システムによる前記認識結果である第２の認識結果のうちのいずれかを選択する選択手段と、を備えたことを特徴とする撮像装置。
前記撮像装置に関する状態は、前記第１の認識結果の状態を含むことを特徴とする請求項１に記載の撮像装置。
前記認識処理に用いられる所定のワードを記憶する記憶手段を備え、
前記所定のワードは、前記撮像装置の操作に関する操作ワードを含むことを特徴とする請求項１又は２に記載の撮像装置。
前記所定のワードは、前記音声による操作の開始を許可するための許可ワードを含むことを特徴とする請求項３に記載の撮像装置。
前記送受信手段は、前記音声が入力された後であって、前記第１の認識結果が得られる前に、前記外部システムに前記音声を送信することを特徴とする請求項１乃至４何れか１項に記載の撮像装置。
前記第１の認識結果が得られた場合であって、前記第２の認識結果が受信されていない場合に、通知を行う通知手段を備えたことを特徴とする請求項１乃至５何れか１項に記載の撮像装置。
前記認識処理が開始されてから前記第１の認識結果が得られるまでの間に第１の通知を行い、前記第１の認識結果が得られてから前記第２の認識結果が受信されるまでの間に第２の通知を行う通知手段を備えたことを特徴とする請求項１乃至６何れか１項に記載の撮像装置。
前記選択手段は、前記第１の認識結果の信頼率、及び前記外部システムとの通信状態のうち少なくともいずれか一方に基づいて、前記第１の認識結果及び前記第２の認識結果のうちのいずれかを選択することを特徴とする請求項１乃至７何れか１項に記載の撮像装置。
前記選択手段は、前記信頼率が所定の範囲にある場合に、前記外部システムとの通信状態に基づいて、前記第１の認識結果及び前記第２の認識結果のうちのいずれかを選択することを特徴とする請求項８に記載の撮像装置。
ファインダーに接眼したことを検出する検出部をさらに備え、
前記認識処理手段は、前記検出部が接眼を検出した場合に、前記認識処理を行うことを特徴とする請求項１乃至９何れか１項に記載の撮像装置。
前記認識処理手段は、所定の操作釦が指示された場合に、前記認識処理を行うことを特徴とする請求項１乃至１０何れか１項に記載の撮像装置。
音声認識可能な外部システムと通信可能な撮像装置の制御方法であって、
音声入力部から入力された音声に対して認識処理を行う認識処理ステップと、
前記外部システムに前記音声を送信して、前記音声の認識結果を受信する送受信ステップと、
前記撮像装置に関する状態に基づいて、前記認識処理ステップによる認識処理の結果である第１の認識結果及び前記外部システムによる前記認識結果である第２の認識結果のうちのいずれかを選択する選択ステップと、を含むことを特徴とする撮像装置の制御方法。
請求項１乃至１１何れか１項に記載の撮像装置の各手段としてコンピュータを機能させるためのプログラム。