JP2021089368A

JP2021089368A - 電子機器、電子機器の制御方法及びそのプログラム

Info

Publication number: JP2021089368A
Application number: JP2019219652A
Authority: JP
Inventors: 西谷　仁志; Hitoshi Nishitani; 仁志西谷; 義宏小林; Yoshihiro Kobayashi; 智和森; Tomokazu Mori; 明高吉澤; Akitaka Yoshizawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-06-10

Abstract

【課題】音声操作可能な電子機器の操作の信頼性を向上させるとともに、操作を円滑にする。【解決手段】撮像装置１０は接眼センサ２６が接眼を検知したか否かを判定する。接眼が検知された場合、音声入力部２７の感度がＬｏｗ（低）に設定され、音声入力部２７から入力された音声データに対して音声認識が行われる。一方で接眼が検知されていない場合、音声入力部２７の感度がＨｉｇｈ（高）に設定され、音声入力部２７から入力された音声データに対して個人認証が行われる。そして個人認証が成功した場合に、音声データに対して音声認識が行われる。そして上記の各音声認識の結果として得られた命令内容に基づいて、撮像装置１０が動作する。【選択図】図２

Description

本発明は、電子機器、電子機器の制御方法及びそのプログラムに関する。

近年、音声認識技術の進歩に伴い、マイク等から音声を入力して音声操作を行う機能を備えた電子機器が普及している。特許文献１には、電子機器のマイクとユーザの顔との間の距離を検出し、その距離が近ければマイクの感度を下げてユーザの音声のみを入力させることが記載されている。

特開２００２−１１１８０１号公報

しかしながら、特許文献１に記載の技術では、電子機器とユーザの顔との間の距離が遠い場合、ユーザの音声ではない音声に対して音声認識される可能性が高まり、誤操作のおそれがある。そこで、マイクから入力された音声を個人認証し、ユーザの音声であると認証された場合に限り音声認識することが考えられる。一方で音声が入力されるたびに個人認証を行うとなると処理に時間がかかり、操作に遅れが生じてしまうという問題がある。

本発明は、このような問題点を解決するためになされたものであって、音声操作可能な電子機器の操作の信頼性を向上させるとともに、操作を円滑にすることを目的とする。

本発明の電子機器は、音声入力部に入力された音声に対して音声認識可能な電子機器であって、ユーザとの距離を検出する距離センサの検出結果に応じて、音声に対して個人認証を行う認証手段と、前記認証手段による個人認証が成功した場合に、音声に対して音声認識を行う認識手段と、を備えることを特徴とする特徴とする。

本発明によれば、音声操作可能な電子機器の操作の信頼性を向上させるとともに、操作を円滑にすることができる。

第１の実施形態に係る撮像装置の構成を示す図である。第１の実施形態に係る音声操作処理を示すフローチャートである。第２の実施形態に係る音声操作処理を示すフローチャートである。

以下、添付図面を参照して、本発明の好適な実施形態について説明する。

＜第１の実施形態＞
図１（ａ）は、第１の実施形態に係る撮像装置１０の構成を示す図である。第１の実施形態において、撮像装置１０は、デジタルカメラであり、撮影光学系１００とカメラ本体２００とを有している。撮像装置１０は、電子機器の一例である。

撮影光学系１００は、絞り１１と、手振れ補正レンズ群１２と、フォーカスレンズ群１３とを備えており、図示しない駆動部を用いて光学像をカメラ本体２００へ導くようになっている。カメラ本体２００は、撮影光学系１００の光学像を光電変換する撮像素子２１と、露光時間を調整するメカシャッター２２と、撮像素子２１で撮像された撮影画像等を表示する背面液晶２３や小型液晶２４を備えている。小型液晶２４はファインダー部の内部に設けられており、ファインダー光学系２５を介して表示される画像が観察される。なお、電子シャッター機能を備えた撮像素子２１であれば、メカシャッター２２は不要である。また、電子シャッターに露光時間を調整する機能が搭載されている場合には、メカシャッター２２は全開したままである。

撮影時には、図示されていないシャッターボタンを一段目まで浅く押す、いわゆる「半押し」することで、自動合焦と自動露出機構によるシャッター速度、絞り値等の撮影条件の設定が行われる。更に、シャッターボタンを半押しから二段目まで深く押す、いわゆる「全押し」することでメカシャッター２２又は撮像素子２１の電子シャッター機能が動作して撮像が行われる。なお、撮像装置１０によって撮像される撮像画像は、静止画像に限られず、動画像であっても構わない。

図１（ｂ）は、第１の実施形態に係る撮像装置１０の構成を示すブロック図である。カメラ本体２００は、上述の構成に加えて、接眼センサ２６と、音声入力部２７と、電気回路２０とを備えている。図１（ｂ）において制御信号線は省略されており、各要素間の情報の流れのみを矢印で示している。

接眼センサ２６は、ファインダー部の近傍に設けられており、ファインダー部とユーザの顔との間の距離を検出可能である。接眼センサ２６は、検出された距離が所定の閾値未満である場合、「接眼有り」を検出する。一方で、検出された距離が所定の閾値以上である場合、「接眼有り」は検出されない。接眼センサ２６は検出結果をＣＰＵ３０へ出力する。接眼センサ２６は距離センサの一例である。音声入力部２７は、マイクであり、ユーザから入力された音声を音声データに変換してＣＰＵ３０へ出力する。音声入力部２７は、ＣＰＵ３０の制御下で感度を少なくとも２段階（Ｈｉｇｈ（高）／Ｌｏｗ（低））に設定可能である。

電気回路２０には、ＣＰＵ３０、画像処理部３１、メモリ３２が実装されている。
ＣＰＵ３０は、撮像装置１０の全体を制御する。ＣＰＵ３０がメモリ３２に格納されるプログラムを実行することにより、撮像装置１０の各構成手段を制御して、後述する各フローチャートに示す処理が実現される。また、ＣＰＵ３０は、撮影光学系１００の各構成部を駆動する駆動部を制御する。更に、ＣＰＵ３０は、図示しない操作ボタンやタッチパネル等の操作部からの操作指示に従って撮像装置１０の動作制御を行うとともに、音声入力部２７からの音声データに対して音声認識を行って得られた命令内容に従って撮像装置１０の動作制御を行う。
画像処理部３１は、撮像素子２１で光電変換された画像信号をデジタルデータに変換して図示されない外部メモリへ保存する。

メモリ３２は、ＲＯＭやＲＡＭ等によって構成されており、撮像装置１０を制御するためのプログラム、音声認識に用いられる命令内容が登録されたデータテーブルの他、各種のデータを記憶する。またメモリ３２には、撮像装置１０を使用するユーザの１又は複数の音声データが認証用音声データとして登録されている。認証用音声データは後述する個人認証に用いられる。なお認証用音声データが複数登録されている場合には、一部を有効にするか、全部を有効にするかを選択設定することが可能であり、有効とされた認証用音声データが個人認証に用いられる。

図２は、第１の実施形態に係る撮像装置１０を音声操作する音声操作処理を示すフローチャートである。図示されない電源スイッチが操作され電源がＯＮに切り替わると音声操作処理が開始される。なお、図２のフローチャートの各処理は、ＣＰＵ３０がメモリ３２に格納されたプログラムを実行することにより実現される。

ステップＳ２０１では、ＣＰＵ３０が、接眼センサ２６の検出結果を用いて接眼を検知したか否かを判定する。ＣＰＵ３０が接眼を検知した（接眼状態である）と判定した場合、処理はステップＳ２０２に進む。ＣＰＵ３０が接眼を検知していない（非接眼状態である）と判定した場合、処理はステップＳ２０４に進む。
ステップＳ２０２では、ＣＰＵ３０が、音声入力部２７の感度を「Ｌｏｗ」に設定する。ユーザの顔と撮像装置１０との距離が近いため、感度を下げることによりユーザの音声を高い音圧で入力することが可能になる。
ステップＳ２０３では、ＣＰＵ３０が、音声入力部２７に音声が入力されたか否かを判定する。ＣＰＵ３０が音声が入力されたと判定した場合、処理はステップＳ２０８に進む。これにより、接眼状態で音声が入力された場合、直ちに音声操作が行われる。ユーザと撮像装置との距離が近いため、ユーザ以外の音声が入力される可能性が低いためである。ＣＰＵ３０が音声が入力されていないと判定した場合、処理はステップＳ２０１に戻る。

ステップＳ２０４では、ＣＰＵ３０が、音声入力部２７の感度を「Ｈｉｇｈ」に設定する。ユーザの顔と撮像装置１０との距離が遠いため、感度を上げることによりユーザの音声を十分な音圧で入力することが可能になる。
ステップＳ２０５では、ＣＰＵ３０が、音声入力部２７に音声が入力されたか否かを判定する。ＣＰＵ３０が音声が入力されたと判定した場合、処理はステップＳ２０６に進む。ＣＰＵ３０が音声が入力されていないと判定した場合、処理はステップＳ２０１に戻る。
ステップＳ２０６では、ＣＰＵ３０が、ステップＳ２０５で入力された音声データに対して個人認証を行う。具体的には、メモリ３２に登録されている認証用音声データを読み出して、ステップＳ２０５の音声データと認証用音声データの声紋等を比較する。
ステップＳ２０７では、ＣＰＵ３０が、ステップＳ２０５で入力された音声データが認証用音声データと一致しているか否かを判定する。なお、一致している場合には類似している場合も含む。ＣＰＵ３０が一致していると判定した場合、ステップＳ２０８に進む。ＣＰＵ３０が一致していないと判定した場合、ステップＳ２０１に戻る。これにより、非接眼状態で音声が入力された場合、登録された個人と一致した場合に限って音声操作が行われる。ユーザと撮像装置との距離が遠いため、ユーザ以外の音声が入力される可能性が高いためである。

ステップＳ２０８では、ＣＰＵ３０が、ステップＳ２０３又はステップＳ２０５で入力された音声データに対して音声認識を行う。具体的には、音声データを解析して文字列として認識する。
ステップＳ２０９では、ＣＰＵ３０が、ステップＳ２０８の音声認識の結果に基づいて、命令内容を解析する。具体的には、メモリ３２からデータテーブルを読み出して、このデータテーブルに登録される操作ワードと命令内容との対応関係を用いて、音声データの文字列から命令内容を特定する。
ステップＳ２１０では、ＣＰＵ３０が、解析された命令内容で動作を行う。そして一連の処理が終了する。

以上のような、第１の実施形態の撮像装置１０によれば、撮像装置１０とユーザの顔との距離が遠いと判断される場合、入力された音声データに対して個人認証が行われる。この場合ユーザの音声以外の音声も入力される可能性が高いため、個人認証に成功した音声データに限って音声認識が行われる。従って、音声操作の信頼性を向上させることができる。一方で、撮像装置１０とユーザの顔との距離が近いと判断される場合、入力された音声データに対して音声認識が行われる。この場合個人認証が行われない。従って、ユーザが音声を発してから音声操作が実行されるまでの時間を可及的に短縮することができる。

＜第２の実施形態＞
以下、図３を参照して、第２の実施形態に係る撮像装置１０について説明する。第２の実施形態の撮像装置１０による音声操作処理は、前述の第１の実施形態の撮像装置１０による音声操作処理に加えて、所定の条件を満たす場合、音声認識を行った音声データに対して個人認証を行う。この点で、前述の第１の実施形態の音声操作処理とは異なる。第２の実施形態のハードウエア構成は、第１の実施形態に係る撮像装置１０と同様である。従って、第１の実施形態と同様の部分については同じ符号を用いてその説明を省略する。

図３は、第２の実施形態に係る撮像装置１０を音声操作する音声操作処理を示すフローチャートである。ステップＳ３０１〜Ｓ３０９は、図２のステップＳ２０１〜Ｓ２０９と同様であるため説明を割愛する。図示されない電源スイッチが操作され電源がＯＮに切り替わると音声操作処理が開始される。なお、図３のフローチャートの各処理は、ＣＰＵ３０がメモリ３２に格納されたプログラムを実行することにより実現される。

ステップＳ３１０では、ＣＰＵ３０が、所定の条件を満たすか否かを判定する。具体的には、ステップＳ２０９と同様のステップＳ３０９で解析された命令内容が所定の命令内容であるか否かを判定する。ここで所定の命令内容とは、撮像装置１０にとって、重要性が高く、やり直しができない、又は困難な命令内容である。以下、所定の命令内容を「重要命令内容」という。「重要命令内容」は例えば「撮影データの消去」、「記録メモリの初期化」、「撮影設定の初期化」、「操作ボタン等のカスタマイズ情報の消去」、「動画撮影の中断」、「長時間露光撮影の中断」である。「重要命令内容」は上記のような命令内容に限られるものではなく、撮像装置１０に予め設定されていてもよく、ユーザによって自由に設定されてもよい。ＣＰＵ３０が命令内容が「重要命令内容」であると判定した場合、処理はステップＳ３１１に進む。ＣＰＵ３０が命令内容が「重要命令内容」ではないと判定した場合、処理はステップＳ３１４へ進む。

ステップＳ３１１では、ＣＰＵ３０が、音声データに対して既に個人認証が行われているか否かを判定する。ＣＰＵ３０が個人認証が行われていると判定した場合、ステップＳ３１４に進む。ＣＰＵ３０が個人認証が行われていないと判定した場合、ステップＳ３１２に進む。
ステップＳ３１２及びＳ３１３の処理はステップＳ２０６及びＳ２０７の処理と同様である。ステップＳ３１３において、ＣＰＵ３０が音声データが認証用音声データと一致していると判定した場合、ステップＳ３１４に進む。ＣＰＵ３０が音声データが認証用音声データと一致していないと判定した場合、ステップＳ３０１に戻る。
ステップＳ３１４では、ＣＰＵ３０が、ステップＳ３０９で解析された命令内容で動作を行う。そして一連の処理が終了する。

なお、所定の条件を音声認識の結果として得られた命令内容が「重要命令内容」であることとしたが、所定の条件としてはこの限りではない。例えば、所定の条件が音声認識に用いられた音声の周辺音の音量が所定の閾値以上であることであってもよい。具体的には、上述のステップＳ３１０の処理に代えて、ＣＰＵ３０が、ステップＳ２０８と同様のステップＳ３０８で音声認識された音声内容の音声の音圧とその音声の周辺音の音圧とを比較し、周辺音の音圧の方が小さいか否かを判定する。ＣＰＵ３０が周辺音の方が小さいと判定した場合、処理はステップＳ３１４に進む。ＣＰＵ３０が周辺音の方が大きいと判定した場合、処理はステップＳ３１１に進む。周辺音が大きい場合誤認識の可能性が高まる。そのため個人認証を行うことで誤操作を抑制することが可能となる。

以上のような、第２の実施形態の撮像装置１０によれば、個人認証を必要な場合に限って行うことが可能になる。従って、第１の実施形態の撮像装置１０による効果に加えて、操作の信頼性を更に向上させるとことができる。

以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

例えば上述の各実施形態では、撮像装置１０の例を説明したが、本発明は電子機器全般に適用することができる。電子機器全般に適用する場合、上述の各実施形態の接眼センサ２６の機能を電子機器のユーザの体の一部が近接しやすい位置に設けられた距離センサが担うことで、上述の各実施形態の効果と同様の効果を得ることができる。ユーザの体の一部が近接しやすい位置の例としては、通話可能な電子機器であればマイクの近傍位置である。また、上述の各実施形態では音声入力部２７の感度を２段階で設定可能としたが、多段階で設定可能としてもよい。この場合、接眼センサ２６によって検出されたファインダー部とユーザの顔との間の距離に応じて音声入力部２７の感度が多段階で変更されるようになっていてもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０：撮像装置、２６：接眼センサ、２７：音声入力部、３０：ＣＰＵ、３２、メモリ

Claims

音声入力部に入力された音声に対して音声認識可能な電子機器であって、
ユーザとの距離を検出する距離センサの検出結果に応じて、音声に対して個人認証を行う認証手段と、
前記認証手段による個人認証が成功した場合に、音声に対して音声認識を行う認識手段と、を備えることを特徴とする特徴とする電子機器。
前記距離センサによって検出された距離が所定の閾値未満の場合には、前記認証手段が音声に対して前記個人認証を行わずに、前記認識手段が音声に対して前記音声認識を行い、前記距離センサによって検出された距離が所定の閾値以上の場合には、前記認証手段が音声に対して前記個人認証を行うことを特徴とする請求項１に記載の電子機器。
前記認証手段は、前記距離センサの検出結果に応じて、音声入力部の感度を変更することを特徴とする請求項１又は２に記載の電子機器。
前記認識手段による前記音声認識が行われた後で、所定の条件を満たす場合、前記認証手段が音声に対して前記個人認証を行うことを特徴とする請求項１乃至３何れか１項に記載の電子機器。
前記所定の条件が、前記音声認識の結果として得られた命令内容が所定の内容であることを特徴とする請求項４に記載の電子機器。
前記所定の条件が、前記音声認識に用いられた音声の周辺音の音量が所定の閾値以上であることを特徴とする請求項４又は５に記載の電子機器。
前記電子機器が撮像装置であることを特徴とする請求項１乃至６何れか１項に記載の電子機器。
前記距離センサが、前記撮像装置のファインダー部に接眼したことを検知する接眼センサであることを特徴とする請求項７に記載の電子機器。
音声入力部に入力された音声に対して音声認識可能な電子機器の制御方法であって、
ユーザとの距離を検出する距離センサの検出結果に応じて、音声に対して個人認証を行う認証ステップと、
前記認証ステップによる個人認証が成功した場合に、音声に対して音声認識を行う認識ステップと、を含むことを特徴とする特徴とする電子機器の制御方法。
請求項１乃至８何れか１項に記載の電子機器の各手段としてコンピュータを機能させるためのプログラム。