JP6842489B2

JP6842489B2 - 電子機器、制御方法およびプログラム

Info

Publication number: JP6842489B2
Application number: JP2019062617A
Authority: JP
Inventors: 多聞福島
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-03-17
Anticipated expiration: 2039-03-28
Also published as: JP2020160387A

Description

本発明は、電子機器、制御方法およびプログラムに関する。

ユーザが発話した音声に対して音声認識を行って得られる発話情報で指示される処理や発話情報に応答する機能（以下、音声操作、と総称）を有する電子機器が提案されている。例えば、発話情報により指示された情報の検索や連携機器に対する操作が実現される。かかる電子機器は、例えば、音声アシスタント機能を有する音声入力装置として構成されることがあり、スマートスピーカ、ＡＩ（Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）スピーカ、などとも呼ばれる。音声認識処理は、スマートスピーカではなく、インターネットに接続された音声認識サーバにより実行される。入力される音声に対して常に音声認識処理が実行されると、ユーザが意図していないタイミングで発話情報がインターネットを経由して不特定のユーザに漏洩することがある。そのため、ユーザのプライバシーが保護されないリスクが生ずる。そこで、音声認識処理を実行させる音声操作受付期間が制限される。図８に示す例では、電子機器は、所定の発話（いわゆるトリガーワード）や音声操作受付開始ボタンの押下をトリガーとして待ち受ける（ステップＳ１０２）、トリガーを検出したとき音声操作受付期間を開始する（ステップＳ１０４）。

音声操作受付期間においては、電子機器は、ユーザの発話により得られる音声信号を音声認識サーバ（外部音声認識部）に送信して（ステップＳ１０６）、音声認識処理を実行させる（ステップＳ１０８）。音声認識サーバは、音声認識処理の処理結果として得られる発話情報を電子機器に送信する（ステップＳ１１０）。電子機器は、受信した発話情報に応じた処理を行う（ステップＳ１１２）。
そして、最後に音声認識処理により得られる発話情報に対する処理が終了した後、所定の待機期間Ｘ［秒］以上継続して発話された音声が得られないとき、電子機器は音声操作受付期間を終了する（ステップＳ１１４）。音声操作受付期間外では、ユーザによる発話がなされても外部音声認識部での音声認識処理は行われず、発話情報に応じた音声操作が実現しない。

特開２０１４−１７０１８５号公報

しかしながら、ユーザは所定の待機期間よりも長期間継続して一時的に発話を停止する場合でも、音声操作を継続したいと考える場合がある。音声認識処理を再開するには、ユーザは、電子機器にトリガーを与えるために所定の発話を行うか音声操作受付開始ボタンを押下する必要がある。他方、待機期間を延長すると、発話に基づく音声信号がネットワークを経由して送信されるので、ユーザのプライバシーが保護されないリスクが増大するおそれがある。従って、ユーザに対する利便性とプライバシーの保護を両立させることが期待される。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様に係る電子機器は、音声信号を入力する音声入力部と、第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させ、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間を経過するとき前記音声操作受付期間を終了させ、前記音声操作受付期間の終了から所定の第２の待機時間の経過前に第２のトリガーを検出するとき、前記音声操作受付期間を再開させる制御部と、を備える。

上記電子機器において、前記制御部は、前記音声信号に対して音声認識を実行して認識される所定の語句を前記第１のトリガーとして待機するトリガー検出部を備えてもよい。

上記電子機器は、操作を受け付ける操作入力部を備え、前記制御部は、前記操作入力部が受け付ける所定の操作を前記第１のトリガーとして待機するトリガー検出部を備えてもよい。

上記電子機器は、画像信号を入力する画像入力部を備え、前記制御部は、前記画像信号に対して画像認識を実行して認識されるユーザの所定の挙動を前記第２のトリガーとして待機するトリガー検出部を備えてもよい。

上記電子機器において、前記制御部は、前記挙動として自器の方向を指示する挙動を待機してもよい。

上記電子機器は、自器から所定の範囲内に所在するユーザを検出する検出部を備え、前記制御部は、前記ユーザの方向に、前記音声入力部の指向方向を制御してもよい。

上記電子機器において、前記制御部は、前記ユーザの発話が検出された後、第２の待機時間の経過または第２のトリガーの検出まで、前記ユーザの方向に、画像信号を入力する画像入力部の撮像方向を制御してもよい。

上記電子機器は、表示部を備え、前記制御部は、前記音声操作受付期間において前記表示部に第１の表示を表示させ、前記音声操作受付期間の終了から、前記第２の待機時間の経過または前記音声操作受付期間の再開までの期間において前記表示部に前記第１の表示とは異なる態様の第２の表示を表示させてもよい。

本発明の第２態様に係る制御方法は、音声信号を入力する音声入力部を備える電子機器の制御方法であって、第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第１ステップと、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間を経過するとき前記音声操作受付期間を終了させる第２ステップと、前記音声操作受付期間の終了から、所定の第２の待機時間の経過前に第２のトリガーを検出するとき、前記音声操作受付期間を再開させる第３ステップと、を有する。

本発明の第３態様に係るプログラムは、音声信号を入力する音声入力部を備える電子機器のコンピュータに、第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第１手順と、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間を経過するとき前記音声操作受付期間を終了させる第２手順と、前記音声操作受付期間の終了から、所定の第２の待機時間の経過前に第２のトリガーを検出するとき、前記音声操作受付期間を再開させる第３手順と、を実行させるためのプログラムである。

本発明の上記態様によれば、ユーザに対する利便性とプライバシーの保護を両立させることができる。

第１の実施形態に係る電子機器の概要を説明するための説明図である。第１の実施形態に係る電子機器のハードウェア構成の一例を示す概略ブロック図である。第１の実施形態に係る電子機器の機能構成例を示す概略ブロック図である。第１の実施形態に係る電子機器が実行する動作モード制御の例を示すシーケンス図である。第２の実施形態に係る電子機器のハードウェア構成の一例を示す概略ブロック図である。第２の実施形態に係る電子機器の外観構成例を示す斜視図である。第２の実施形態に係る電子機器の機能構成例を示す概略ブロック図である。従来の電子機器の動作モード制御の一例を示すシーケンス図である。

以下、本発明の実施形態について、図面を参照して説明する。
（第１の実施形態）
まず、本発明の第１の実施形態に係る電子機器１０の概要について説明する。
図１は、本実施形態に係る電子機器１０の概要を説明するための説明図である。
図１に示す例では、電子機器１０は、居間ＬＲに設置されスマートスピーカとして実装される。電子機器１０は、マイクロホン、カメラを備える。電子機器１０は、マイクロホンで収音された音声信号をネットワークに接続された外部音声認識部ＡＳＲ（図４）に送信し、外部音声認識部ＡＳＲから音声認識結果として発話情報を受信する。外部音声認識部ＡＳＲは、個々の電子機器１０から受信した音声信号に対して音声認識処理を行う専用の音声認識サーバとして構成されてもよいし、他の機能（例えば、各種の情報提供）を併せ持つウェブサーバとして構成されてもよい。

電子機器１０は、発話情報に第１のトリガーとして、所定のトリガーワードが含まれるとき音声操作受付期間を開始する。トリガーワードとして、電子機器１０の名称が用いられてもよい。電子機器１０の名称は、正式名称に限られず、愛称、略称、などの変名であってもよい。音声操作受付期間は、電子機器１０が音声操作を受け付け可能とする期間である。音声操作受付期間では、あらゆる発話情報、主に音声コマンドが認識対象となる。但し、音声操作受付期間以外の期間においては、トリガーワードが認識対象となり、トリガーワード以外の語句は認識対象とならない。例えば、ソファーＳＦに座っているユーザＵ０１は、トリガーワードを発話することで音声操作受付期間を開始させることができる。他方、机ＴＢの前面の椅子ＣＲに座っているユーザＵ０２が所定の音声コマンドを発話しても、所定のトリガーワードが含まれていなければ、音声操作受付期間が開始されない。

音声操作受付期間において、電子機器１０は入力される音声信号を外部音声認識部ＡＳＲに送信し、外部音声認識部ＡＳＲから音声認識処理の処理結果として発話情報を受信する。受信した発話情報に音声コマンドが含まれるとき、電子機器１０は、音声コマンドで指示される処理を実行する。以下の説明では、音声コマンドで指示される処理を実行することを、単に「音声コマンドを実行する」と呼ぶことがある。音声コマンドは、電子機器１０自体の動作に対する操作を目的とする指令に限られず、電子機器１０と各種のデータを送受信可能に接続され、電子機器１０を用いて他の操作を目的とする指令が含まれることがある。例えば、「テレビつけて」は電子機器１０に接続されるテレビＴＶに対する起動（ＰｏｗｅｒＯＮ）を指示するための音声コマンドである。「○○にして」はテレビＴＶに対して○○の放送チャネルの選局を指示するための音声コマンドである。「○○」は、放送局の正式名称または変名を示す。例えば、音声操作受付期間中にユーザＵ０１が「テレビつけて」と発話するとき、電子機器１０は、外部音声認識部ＡＳＲから受信した発話情報に含まれる音声コマンド「テレビつけて」を特定する。電子機器１０は、特定した音声コマンドで指示される処理として、起動を示す動作制御信号をテレビＴＶに送信する。テレビＴＶは、動作を停止しているときに電子機器１０から起動を示す動作制御信号を受信するとき、自装置への電力供給を開始し、テレビジョン受信機の主機能として放送波で受信した番組の映像と音声の提示を開始する。その後、電子機器１０は、発話情報で指示される処理の終了から所定の待機時間の経過時に音声操作受付期間を終了させる。この待機時間は、第２待機期間Ｙ［秒］（後述）と区別するために、「第１待機期間Ｘ［秒］」と呼ぶことがある。

電子機器１０は、音声操作受付期間の終了から第２待機期間Ｙ［秒］以内に、第２トリガーを検出するとき、音声操作受付期間を再開させる。第２トリガーとして、電子機器１０が備える撮像部（後述）が撮像した画像から画像認識処理により認識される所定のジェスチャが適用可能である。ジェスチャは、電子機器１０を指し示す挙動、例えば、電子機器１０への指差し、などが適用可能である。ユーザＵ０１が第２待機期間中に所定のジェスチャを示すことで、特段の操作を行わずに音声操作受付期間を再開させることができる。ユーザＵ０１は、音声コマンドを発話することで、電子機器１０または電子機器１０と接続された連携機器を操作することができることとなる。
なお、第２待機期間Ｙ［秒］の経過後は、電子機器１０は画像認識処理を終了する。電子機器１０は、第１のトリガーが検出されない限り、音声操作受付期間を再開させない。

上記の例のように、電子機器１０は、音声操作受付期間の終了時に開始される第２待機期間内に第１トリガーとは別個の第２トリガーを検出するとき、音声操作受付期間を再開させる。ユーザは、第２トリガーとして所定の挙動を示すことで、第１トリガーを与えるための特段の操作を行わずに音声操作受付期間を再開することができる。そのため、音声操作受付期間の延長を避けることで、音声操作受付期間中における音声信号の漏洩によるプライバシーリスクを低減することができる。

（ハードウェア構成）
次に、本実施形態に係る電子機器１０のハードウェア構成について説明する。図２は、本実施形態に係る電子機器１０のハードウェア構成の一例を示す概略ブロック図である。
電子機器１０は、通信部１０２、表示部１０４、操作入力部１０６、受音部１０８、撮像部１１０、再生部１１２、記憶部１１４、およびプロセッサ１１６を含んで構成される。これらの構成要素は、バスＢＳを用いて相互に各種のデータを入出力可能に接続されている。

通信部１０２は、プロセッサ１１６による制御に基づいて、ネットワークに接続された他の機器（外部音声認識部ＡＳＲを含む）と通信を行う。通信部１０２は、所定の通信方式で各種のデータを送受信するための通信インタフェースを含んで構成される。
表示部１０４は、画像、テキスト、など視認可能な情報を表示情報として表示するディスプレイ、光源、またはそれらの組み合わせを含んで構成される。ディスプレイは、例えば、液晶ディスプレイパネルなどを含んで構成される。光源は、例えば、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、発光ダイオード）などを含んで構成される。
操作入力部１０６は、ユーザの操作を受け付け、受け付けた操作に基づく操作信号を生成し、生成した操作信号を出力する。操作入力部１０６は、ボタン、ダイヤルなどの専用の部材を含んで構成されてもよいし、キーボード、マウス、タッチセンサなどの汎用の部材を含んで構成されてもよい。タッチセンサは、表示部１０４として機能する液晶ディスプレイパネルと一体化してタッチパネルとして構成されてもよい。

受音部１０８は、自部に到来した音を受音する受音素子を備え、受音素子は受音した音を電気信号である音声信号に変換するマイクロホンである。受音部１０８は、変換された音声信号をプロセッサ１１６に出力する。
撮像部１１０は、所定の視野内の物体を表す画像を撮像し、撮像した画像を示す画像信号を生成し、生成した画像信号を出力する。撮像部１１０は、撮像面に複数の撮像素子が二次元配置されてなるＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ、電荷結合素子）カメラなどの電子カメラであってもよい。
再生部１１２は、自部に入力される音声信号に基づく音を再生する。再生部１１２は、例えば、スピーカを含んで構成される。再生部１１２には、例えば、プロセッサ１１６が実行したコマンドに応じて生成された音声信号が入力され、入力される音声信号で各種の案内情報を有する音声を再生する。

記憶部１１４は、電子機器１０の処理に用いられる各種の情報、電子機器１０が処理により取得した各種の情報、を記憶する記憶媒体を含んで構成される。各種の情報には、プログラム、パラメータ、画像、などが含まれる。記憶部１１４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ-ＯｎｌｙＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ-ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成される。なお、電子機器１０には、各種の入出力インタフェースを用いて、他の記憶媒体と接続されてもよい。

プロセッサ１１６は、記憶部１１４に記憶されている各種のプログラムに記述された命令で指示される処理を実行し、電子機器１０の各部の動作を制御する。プロセッサは、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（Ｍｉｃｒｏ−ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）など、である。なお、以下の説明では、プログラムに記述された命令で指示される処理を実行することを、「プログラムを実行する」と呼ぶことがある。

（機能構成）
次に、本実施形態に係る電子機器１０の機能構成例について説明する。
図３は、本実施形態に係る電子機器１０の機能構成例を示す概略ブロック図である。
プロセッサ１１６は、記憶部１１４から所定のプログラムを読み出し、読み出したプログラムを実行して制御部１３０の機能を実現する。
制御部１３０は、入力制御部１３２、出力制御部１３４、音声検出部１３６、動作モード制御部１３８、音声制御部１４０、およびトリガー検出部１４２を含んで構成される。

入力制御部１３２は、操作入力部１０６から入力される操作信号を取得する。入力制御部１３２は、受音部１０８から入力される音声信号を取得する。
出力制御部１３４は、表示部１０４に表示させる表示情報を出力する。出力制御部１３４は、再生部１１２に再生させる音を示す音声信号を出力する。

音声検出部１３６は、受音部１０８から入力される音声信号から人が発話した音声を検出する。音声検出部１３６は、公知の音声区間検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）アルゴリズムを用いて音声区間を検出する。音声検出部１３６は、例えば、所定期間（例えば、２０〜５０ｍｓ）ごとに音声信号の信号レベルと、個々の信号値の零交差点数を解析し、信号レベルが所定のレベル以上、かつ、零交差点が所定の範囲内（例えば、２００−５００Ｈｚ）である区間を音声区間として判定し、それ以外の区間を非音声区間として判定する。音声検出部１３６は、非音声区間が所定時間（例えば、１〜３秒）以上継続する区間を非発話区間として判定し、非発話区間の終了時を新たな発話区間の開始時、非発話区間の再開時をその発話区間の終了時として判定する。これにより、個々の発話区間が特定される。なお、発話区間には、音声区間が継続する区間の他、音声区間と非音声区間が断続する区間も含まれる。これは、一時的に発話が停止され直後に発話が再開される場合や、正常な発話中であっても促音など発話中であっても短時間信号レベルが無音時と同等なレベルに低下する場合も発話区間に含めるためである。

音声検出部１３６は、動作モード制御部１３８から入力される動作モード信号で指示される動作モードに従って、発話区間内の音声信号の出力先を制御する。動作モードが音声操作受付モード、つまり、現時点が音声操作受付期間内である場合には、音声検出部１３６は、音声制御部１４０に発話区間内の音声信号を出力する。通信部１０２を用いてネットワークを経由して外部音声認識部ＡＳＲに発話区間内の音声信号を出力する。外部音声認識部ＡＳＲは、例えば、取得した音声信号に対して音声認識処理を行う音声認識サーバである。外部音声認識部ＡＳＲは、電子機器１０から受信した音声信号に対して音声認識処理を行い、音声認識結果として発話内容を示す発話情報を電子機器１０にネットワークを経由して送信する。
音声検出部１３６は、現時点が音声操作受付期間外である場合には、発話区間内の音声信号をトリガー検出部１４２に出力する。

動作モード制御部１３８は、トリガー検出部１４２が認識したトリガーやそのタイミングに基づいて自器の動作モードを制御する。
動作モード制御部１３８は、自器の動作モードが第１トリガー待機モードであって、トリガー検出部１４２から第１のトリガーの検出を示す第１トリガー検出信号が入力されるとき、自器の動作モードを音声操作受付モードに変更する。動作モード制御部１３８は、変更後の動作モードである音声操作受付モードを示す動作モード信号を表示部１０４、音声検出部１３６、およびトリガー検出部１４２に出力する。表示部１０４は、動作モード制御部１３８から音声操作受付モードを示す動作モード信号が入力されるとき、音声操作受付期間を示す第１の表示を行う。表示部１０４は、例えば、発光部を備え、第１の表示として所定の色（例えば、緑色）で点灯する。

動作モード制御部１３８は、自器の動作モードが音声操作受付モードであるとき、音声操作受付期間の開始の時点、音声制御部１４０から音声コマンドの実行終了を示す実行終了信号が入力された時点、または最後の発話終了を示す発話終了信号が入力された時点のうち最も遅い時点から第１待機期間Ｘ［秒］が経過するまでの間、新たな発話開始を示す発話開始信号が入力される場合、自器の動作モードを音声操作受付モードのまま維持する。つまり、動作モード制御部１３８は、音声操作受付期間の開始から第１待機期間Ｘ[秒]経過していても、音声認識処理により音声コマンドが認識された場合には、最後に認識された音声コマンドの実行終了から第１待機期間Ｘ[秒]が経過するまでの間、音声コマンドが認識されない場合には、最後の発話終了から第１待機期間Ｘ[秒]が経過するまでの間、新たな発話開始を示す発話開始信号が入力される場合、自器の動作モードを音声操作受付モードのまま維持する。その第１待機期間Ｘ［秒］が経過するまでの間、新たな発話開始を示す発話開始信号が入力されないとき、動作モード制御部１３８は、自器の動作モードを音声操作受付モードから第２トリガー待機モードに変更する。動作モード制御部１３８は、変更後の動作モードである第２トリガー待機モードを示す動作モード信号を表示部１０４、音声検出部１３６、およびトリガー検出部１４２に出力する。表示部１０４は、動作モード制御部１３８から第２トリガー待機モードを示す動作モード信号が入力されるとき、第１の表示を停止し、第２待機期間を示す第２の表示を行う。表示部１０４は、例えば、第２の表示として、第１の表示とは異なる所定の色（例えば、黄色）で点灯する。

動作モード制御部１３８は、自器の動作モードが第２トリガー待機モードであるとき、動作モードを音声操作受付モードから第２トリガー待機モードに変更した時点から所定の第２待機期間Ｙ［秒］が経過するまでの間、トリガー検出部１４２から第２トリガーの検出を示す第２トリガー検出信号が入力されるとき、自器の動作モードを音声操作受付モードに変更する。動作モード制御部１３８は、変更後の動作モードである音声操作受付モードを示す動作モード信号を表示部１０４、音声検出部１３６、およびトリガー検出部１４２に出力する。表示部１０４は、動作モード制御部１３８から第２トリガー待機モードを示す動作モード信号が入力されるとき、第２の表示を停止し、音声操作受付期間を示す第１の表示を行う。

動作モード制御部１３８は、自器の動作モードが第２トリガー待機モードであるとき、動作モードを音声操作受付モードから第２トリガー待機モードに変更した時点から所定の第２待機期間Ｙ［秒］が経過するまでの間、トリガー検出部１４２から第２トリガーの検出を示す第２トリガー検出信号が入力されないとき、自器の動作モードを第１トリガー待機モードに変更する。動作モード制御部１３８は、変更後の動作モードである第１トリガー待機モードを示す動作モード信号を表示部１０４、音声検出部１３６、およびトリガー検出部１４２に出力する。表示部１０４は、動作モード制御部１３８から第１トリガー待機モードを示す動作モード信号が入力されるとき、第２の表示を停止する。

自器の動作モードが音声操作受付モードであるとき、音声制御部１４０には音声検出部１３６から発話区間ごとに音声信号が入力される。音声制御部１４０は、入力された音声信号を外部音声認識部ＡＳＲに通信部１０２を経由して送信する。他方、音声制御部１４０は、発話区間開始ごとに発話区間開始を示す発話開始信号を動作モード制御部１３８に出力し、発話区間終了ごとに発話区間終了を示す発話終了信号を動作モード制御部１３８に出力する。音声制御部１４０は、外部音声認識部ＡＳＲから音声信号に対する応答として発話情報を受信し、受信した発話情報が予め設定された１個または複数の音声コマンドのうち、いずれかの音声コマンドを含むか否かを判定する。音声制御部１４０は、発話情報に含まれると判定された音声コマンドを特定し、特定した音声コマンドで指示される処理を実行する。従って、音声制御部１４０は、いわゆる音声アシスタントの機能を実現する。

音声制御部１４０は、例えば、認識された音声コマンドが気象情報の照会を示すとき、通信部１０２を用いて所定の気象情報サーバ装置に気象情報要求を送信する。音声制御部１４０は、気象情報サーバ装置から気象情報要求に対する応答として気象情報を受信するとき、受信した気象情報を示すテキストに対して公知のテキスト音声合成処理を行って、気象情報を示す音声信号に変換する。音声制御部１４０は、変換された音声信号を再生部１１２に出力し、気象情報を発話情報として有する音声を再生させる。
音声制御部１４０は、例えば、認識された音声コマンドがネットワークに接続された他の機器（以下、ネットワーク機器）に対する動作制御情報を示すとき、通信部１０２を用いて、ネットワーク機器に動作制御情報を送信する。その機器は、電子機器１０から動作制御情報を受信するとき、受信した動作制御情報に従って動作を制御する。制御対象とするネットワーク機器は、電子機器１０と共通のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、構内ネットワーク）に無線または有線で接続された情報端末装置、家庭電化器具などのいずれであってもよい。

音声制御部１４０は、例えば、認識された音声コマンドが映像コンテンツの再生要求を示すとき、所定の映像コンテンツサーバ装置に、再生が指示された映像コンテンツを示す映像コンテンツ要求を送信する。音声制御部１４０は、映像コンテンツサーバ装置から映像コンテンツ要求に対する応答として映像コンテンツデータを受信するとき、受信した映像コンテンツデータから、映像データと音声データを分離する。音声制御部１４０は、分離した映像データを表示情報として表示部１０４に出力し、音声データを音声信号として再生部１１２に出力する。

トリガー検出部１４２は、動作モード制御部１３８から入力される動作モード信号が示す動作モードを特定する。トリガー検出部１４２は、動作モードに応じたトリガーの検出を試みる。
動作モードが第１トリガー待機モードであるとき、トリガー検出部１４２は、音声操作受付期間の開始に対するトリガーとして第１トリガーを待ち受ける。
トリガー検出部１４２は、例えば、音声検出部１３６から入力される音声信号に対して公知の音声認識処理を行って発話情報を取得する。トリガー検出部１４２は、取得した発話情報が所定のトリガーワードを含むとき、第１トリガーを検出したと判定し、その発話情報がトリガーワードを含まないとき、第１トリガーを検出しないと判定する。認識可能とする語彙として所定のトリガーワードが含まれれば足りるため、トリガー検出部１４２における音声認識処理において要求される処理能力は、外部音声認識部ＡＳＲで要求される処理能力よりも格段に低くてもよい。

また、操作入力部１０６がボタン（以下、音声操作受付開始ボタン）を含んで構成される場合には、トリガー検出部１４２は、音声操作受付開始ボタンの押下を示す操作信号が音声操作受付開始ボタンから入力されるとき、第１トリガーを検出したと判定してもよい。トリガー検出部１４２は、音声操作受付開始ボタンの押下を示す操作信号が音声操作受付開始ボタンから入力されないとき、第１トリガーを検出しないと判定する。
トリガー検出部１４２は、第１トリガーを検出するとき、第１トリガーの検出を示す第１トリガー検出信号を動作モード制御部１３８に出力する。

動作モードが第２トリガー待機モードであるとき、トリガー検出部１４２は、音声操作受付期間の再開を示す第２トリガーを待ち受ける。
トリガー検出部１４２は、例えば、撮像部１１０から入力される画像信号に対して公知の画像認識処理を行い、所定のジェスチャを示すユーザを検出するとき、第２トリガーを検出したと判定する。トリガー検出部１４２は、例えば、所定の範囲の速度（例えば、秒速２０−５０ｃｍ程度）で自器に接近する所定の大きさ（例えば、径が８−１５ｃｍ程度）を有する物体を第２トリガーとして検出してもよい。
トリガー検出部１４２は、所定のジェスチャを示すユーザを検出できないとき、第２トリガーを検出しないと判定する。
所定のジェスチャを示すユーザを検出できないとき、トリガー検出部１４２は、第２トリガーを検出しないと判定する。
トリガー検出部１４２は、第２トリガーを検出するとき、第２トリガーの検出を示す第２トリガー検出信号を動作モード制御部１３８に出力する。

トリガー検出部１４２は、ジェスチャの検出に代え、もしくはジェスチャの検出とともに、撮像部１１０から入力される画像信号に対して公知の視線検出技術を用いてユーザの視線方向を検出してもよい。視線方向は、例えば、画像に表れているユーザの顔面を構成する諸器官の位置から顔面の方向が推定され、さらに両眼の瞳孔の位置に基づいて推定される。トリガー検出部１４２は、検出した視線方向が、自器の方向から所定の範囲（例えば、５〜１０°）以内の方向であるとき、第２トリガーを検出したと判定する。
視線を第２トリガーとして採用することで、ユーザに対して電子機器１０との対話の感覚を与えることができる。また、視線を第２トリガーとして併用することで、ジェスチャに対する画像認識処理のＦＡＲ（ＦａｌｓｅＡｃｃｅｐｔａｎｃｅＲａｔｅ、誤り受入率）が低くても許容される。

（動作モード制御）
次に、本実施形態に係る電子機器１０が実行する動作モード制御の例について説明する。図４は、本実施形態に係る電子機器１０が実行する動作モード制御の例を示すシーケンス図である。図４に示す処理は、電子機器１０の動作モードが、第１トリガー待機モードであるときに開始される場合を例にする。

（ステップＳ１０２）トリガー検出部１４２は、音声操作受付期間の開始に対する第１トリガーを待ち受ける。音声検出部１３６は、受音部１０８から入力制御部１３２を経由して入力される音声信号から発話区間を判定する。トリガー検出部１４２は、例えば、音声検出部１３６を経由して入力される発話区間ごとの音声信号に対して音声認識処理を行って発話情報を取得し、第１トリガーとして所定のトリガーワードが取得された発話情報に含まれるか否かを判定する。また、トリガー検出部１４２は、押下に応じて生ずる操作信号が第１トリガーとして音声操作受付開始ボタンから入力されるか否かを判定する。トリガー検出部１４２が第１トリガーを検出するとき、ステップＳ１０４の処理に進む。

（ステップＳ１０４）動作モード制御部１３８は、自器の動作モードを音声操作受付モードに変更し、音声操作受付期間を開始する。動作モード制御部１３８は、表示部１０４に現時点が音声操作受付期間であることを示す第１表示を開始させる。その後、ステップＳ１０６の処理に進む。
（ステップＳ１０６）音声制御部１４０は、音声検出部１３６から入力される発話区間ごとの音声信号を外部音声認識部ＡＳＲに通信部１０２を経由して送信する。その後、ステップＳ１０８の処理に進む。

（ステップＳ１０８）外部音声認識部ＡＳＲは、電子機器１０から受信した音声信号に対して音声認識処理を実行する。その後、ステップＳ１１０の処理に進む。
（ステップＳ１１０）外部音声認識部ＡＳＲは、音声認識処理に得られた発話情報を電子機器１０に送信する。その後、ステップＳ１１２の処理に進む。
（ステップＳ１１２）音声制御部１４０は、外部音声認識部ＡＳＲから受信した発話情報から音声コマンドを識別し、識別された音声コマンドで指示される処理を実行する。その後、ステップＳ１１４の処理に進む。

（ステップＳ１１４）音声操作受付期間の開始時、音声コマンドの実行終了時、または最後の発話終了時のうち最も遅い時点から所定の第１待機期間Ｘ［秒］が経過するまでの間、新たな発話が開始されないとき、動作モード制御部１３８は、自器の動作モードを音声操作受付モードから第２トリガー待機モードに変更する。動作モード制御部１３８は、音声操作受付期間を終了し、表示部１０４に第１表示を停止させる。その後、ステップＳ１１６の処理に進む。
（ステップＳ１１６）動作モード制御部１３８は、第２待機期間を開始し、表示部１０４に現時点が第２待機期間であることを示す第２表示を開始させる。その後、ステップＳ１１８の処理に進む。

（ステップＳ１１８）トリガー検出部１４２は、第２トリガーを待ち受け、第２トリガーを検出したか否かを判定する。トリガー検出部１４２は、例えば、撮像部１１０から入力される画像信号に対して画像認識処理を行い、所定のジェスチャを示すユーザを第２トリガーとして検出するための処理を行う。第２トリガーが検出される場合（ステップＳ１１８ＹＥＳ）、ステップＳ１２０の処理に進む。第２トリガーが検出されない場合（ステップＳ１１８ＮＯ）、ステップＳ１２２の処理に進む。
（ステップＳ１２０）動作モード制御部１３８は、自器の動作モードを第２トリガー待機モードから音声操作受付モードに変更すると判定する。ここで、動作モード制御部１３８は、第２待機期間を終了し、表示部１０４に第２表示を停止させる。その後、ステップＳ１０４の処理に戻る。

（ステップＳ１２２）動作モード制御部１３８は、第２待機期間の開始時から所定の第２待機期間Ｙ［秒］経過したか否かを判定する。第２待機期間Ｙ［秒］経過したと判定されるとき（ステップＳ１２２ＹＥＳ）、ステップＳ１２４の処理に進む。第２待機期間Ｙ［秒］経過していないと判定されるとき（ステップＳ１２２ＮＯ）、ステップＳ１１８の処理に戻る。
（ステップＳ１２４）動作モード制御部１３８は、自器の動作モードを第２トリガー待機モードから第１トリガー待機モードに変更すると判定する。ここで、動作モード制御部１３８は、第２待機期間を終了し、表示部１０４に第２表示を停止させる。その後、ステップＳ１０２の処理に戻る。

このように、動作モード制御部１３８は、第２待機期間内に第１トリガーとは別個の第２トリガーを検出するとき音声操作受付期間を再開させる。ユーザは、第２待機期間内に第２トリガーとして所定の挙動を示すことで、第１トリガーを与えるための特段の操作を行わずに音声操作受付期間を再開することができる。そのため、利便性を確保したうえで、音声操作受付期間の延長を避けることができ、ひいては発話情報の漏洩によるプライバシーリスクを低減することができる。仮に第２トリガーの検出に係るＦＡＲが高いために誤って第２待機期間が開始されても、ユーザの意思により発話されなければ音声認識処理がなされないため許容されうる。トリガー検出部１４２は、第２トリガーの検出に際して、ＦＲＲ（ＦａｌｓｅＲｅｊｅｃｔｉｏｎＲａｔｅ、誤り拒否率）が高ければよいので、複雑な処理を要しない。このことは、消費電力の低下ならびに経済的な実現に貢献する。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。以下の説明では、特に断らない限り上記の実施形態との差異点を主とする。
上記の実施形態と共通の処理、構成については、同一の符号を付してその説明を援用する。
（ハードウェア構成）
まず、本実施形態に係る電子機器１０のハードウェア構成の一例について説明する。
図５は、本実施形態に係る電子機器１０のハードウェア構成の一例を示す概略ブロック図である。
電子機器１０は、通信部１０２、表示部１０４、操作入力部１０６、受音部１０８、撮像部１１０、再生部１１２、記憶部１１４、プロセッサ１１６、および検出部１１８を含んで構成される。

検出部１１８は、自部から所定範囲（例えば、２〜５ｍ）内に所在する人物の方向を検出する人感センサである。人感センサは、接近センサ（ＰｒｏｘｉｍｉｔｙＳｅｎｓｏｒ）とも呼ばれる。検出部１１８は、検出した人物の方向をユーザの方向として示すユーザ検出情報をプロセッサ１１６に出力する。検出部１１８は、自部からその人物までの距離をさらに検出する構成を備えてもよい。その場合には、検出部１１８は、さらにその距離をユーザ検出情報に含めてプロセッサ１１６に出力してもよい。
図１に示す例では、検出部１１８は、ソファーＳＦに座っているユーザＵ０１を検出することができる。

なお、受音部１０８の指向性は、無指向性または所定の指向方向に固定であってもよいが、受音部１０８は、入力制御部１３２による制御に基づいて指向性を可変とするマイクロホンアレイであってもよい
また、撮像部１１０の視野は固定であってもよいが、撮像部１１０は、入力制御部１３２による制御に基づいて視野を可変とする可変カメラであってもよい。可変カメラのパラメータとして、例えば、その範囲の大きさを示す視野角、光学軸の方向に相当する撮像方向、自部からその像のピントが合う被写体までの距離に相当する合焦距離のいずれか、またはそれらの任意の組が制御されてもよい。

（外観構成）
次に、本実施形態に係る電子機器１０の外観構成例について説明する。
図６は、本実施形態に係る電子機器１０の外観構成例を示す斜視図である。
電子機器１０は、底面の直径よりも高さの方が大きい細長の円筒形の筐体を有する。筐体の表面には、２個のランプ１０４−１、１０４−２と、２個のボタン１０６−１、１０６−２と、８個のマイクロホン１０８−１〜１０８−８が配置されている。筐体の側面には、カメラ１１０ｃと、スピーカ１１２ｐと、ソナー１１８ｎが配置されている。

ランプ１０４−１、１０４−２は、表示部１０４の例である。ランプ１０４−１、１０４−２は、それぞれＬＥＤである。ランプ１０４−１、１０４−２は、それぞれ動作モード制御部１３８により点滅が制御される。ランプ１０４−１は、音声操作受付期間において第１の表示として点灯し、その他の期間において消灯する。ランプ１０４−２は、第２トリガー期間において第２の表示として点灯し、その他の期間において消灯する。ランプ１０４−１、１０４−２が発光する光の色は、相互に異なっていてもよい。ランプ１０４−１、１０４−２それぞれの表面には、それぞれ発話、第２トリガーを示す表示が付されてもよい。かかる表示は、例えば、文字、記号、図案のいずれか、またはこれらの任意の組み合わせであってもよい。

ボタン１０６−１、１０６−２は、操作入力部１０６の例である。ボタン１０６−１、１０６−２は、それぞれ音量ボタン、音声操作受付開始ボタンとして機能する。
ボタン１０６−１は、押下の検出に応じて音量の変更を示す音量変更信号を操作信号の一形態として出力制御部１３４に出力する。出力制御部１３４は、再生部１１２の出力する音声信号に対する利得（ゲイン）をボタン１０６−１から入力される音量変更信号に基づいて変更する。例えば、出力制御部１３４には、予め設定された複数通りの利得の候補のうちの１つを音声信号に作用する利得として、音量変更信号が入力されるたびに巡回的に選択する。
ボタン１０６−２は、押下の検出に応じて音声認識開始を示す音声認識開始信号を操作信号の一形態としてトリガー検出部１４２に出力する。例えば、トリガー検出部１４２は、ボタン１０６−２から音声認識開始信号が入力されるとき、第１トリガーを検出したと判定する。

マイクロホン１０８−１〜１０８−８は、いずれも受音部１０８の一部を構成する。受音部１０８は、複数のマイクロホンを有するマイクロホンアレイとして機能する。図６に示す例では、マイクロホン１０８−１〜１０８−８は、それぞれ筐体表面の周縁部に等間隔に配置され、それぞれに到来する音の音圧に応じた音声信号に変換する。受音部１０８は、それぞれ異なる位置に配置されたマイクロホン１０８−１〜１０８−８から取得される音声信号にそれぞれ作用する利得と遅延を調整することで、受音部１０８としての指向方向を可変とする。指向方向は、到来する音の感度が、その他の方向の感度よりも相対的に高い方向である。入力制御部１３２は、受音部１０８の指向方向を制御する際、遅延和ビームフォーマ等、公知の指向性制御技術を用いることができる。

カメラ１１０ｃは、撮像部１１０の例である。カメラ１１０ｃは、視野を可変とする可変カメラとして機能する。カメラ１１０ｃは、例えば、複数の撮像系を備え、その全部または一部から個別画像を取得し、取得した個別画像を統合して、より視野が大きい１つの画像を合成することができる。個々の撮像系は、複数の撮像素子が配置された撮像面と、入射光を撮像面に収束させる対物レンズを備える。カメラ１１０ｃは、例えば、入力制御部１３２の制御に基づき、ある撮像方向が視野に含まれる１個の撮像系を選択し、選択された撮像系で撮像された画像を出力し、その他の撮像系で撮像された画像を出力しないことで、視野方向を可変にしてもよい。その他の撮像系は必ずしも動作する必要がないため、それらに対する電力の供給を停止することで、複数の撮像系を同時に動作させる場合よりも電力の消費量を低減することができる。
なお、カメラ１１０ｃは、撮像系における対物レンズと撮像面との位置関係、対物レンズに前置される絞り機構の絞り量の一方または両方を制御することで、視野を可変としてもよい。

スピーカ１１２ｐは、再生部１１２の例である。スピーカ１１２ｐは、出力制御部１３４から入力される音声信号に応じた音を再生する。
ソナー１１８ｎは、検出部１１８の例である。ソナー１１８ｎは、放射器、受信器、および検出器を備える。放射器は、超音波を放射する。放射器から到来した超音波は、所定範囲内に所在する物体の表面において反射波として反射する。検出器は、到来方向ごとに物体から反射された反射波を受波する。検出器は、予め人物が所在していない場合に取得した反射波である参照波の成分を受波した反射波から差し引いて、人物の所在による反射波の成分を抽出する。検出器は、抽出した成分のうち、強度が所定の検出閾値よりも高く、かつ、強度が最大となる到来方向を人物の方向と判定することができる。また、検出器は、その方向について抽出した成分と放射した超音波との位相差に基づいて人物までの距離を推定することができる。

なお、電子機器１０のハードウェア構成は、これには限られない。電子機器１０に配置される個々の部材の種別、数、位置、等は変更可能である。
また、検出部１１８は、自部から所定範囲内に所在する人物の方向を検出することができれば、いかなる検出原理のセンサが採用可能である。例えば、検出部１１８として、赤外線センサが適用可能である。赤外線センサは、物体から入射する赤外線を検出面に収束させるレンズと検出面に配置された複数の受光素子を含む光学系および検出器を備える。受光素子は、それぞれ人間の体温に対応する波長の赤外線を受光し、受光した赤外線の強度に応じた検出信号を検出器に出力する。検出器は、受光した赤外線の強度が、所定の検出閾値よりも強度が高い赤外線を検出した受光素子と、それらの受光素子の位置の中心点に対応する方向を人物の方向として判定することができる。また、赤外線センサが位置の異なる２個以上の光学系を備える場合には、検出器は光学系間で検出信号の平均値を代表値として算出し、それぞれの代表値間の位相差と光学系の間の距離に基づいて、自部から人物までの距離を算出することができる。

なお、検出部１１８は、ソナー、赤外線センサなどの専用のセンサを備えずに撮像部１１０から入力される画像信号に対して公知の画像認識処理を行い、撮像された画像のうち人物が表れている領域である人物表示領域を特定してもよい。検出部１１８は、既知の視野と光学系の位置との関係と、画像における人物表示領域の重心点の位置に基づいて、その人物の方向を定めてもよい。画像の中心は、撮像部１１０の光学軸の方向に対応し、画像の一端は、撮像部１１０の視野の一端の方向に対応する。

（機能構成）
次に、本実施形態に係る電子機器１０の機能構成例について説明する。
図７は、本実施形態に係る電子機器１０の機能構成例を示す概略ブロック図である。
プロセッサ１１６は、記憶部１１４から所定のプログラムを読み出し、読み出したプログラムを実行して制御部１３０の機能を実現する。
制御部１３０は、入力制御部１３２、出力制御部１３４、音声検出部１３６、動作モード制御部１３８、音声制御部１４０、トリガー検出部１４２、およびユーザ検出部１４４を含んで構成される。

ユーザ検出部１４４は、検出部１１８から入力されるユーザ検出情報を逐次に取得し、取得したユーザ検出情報からその時点におけるユーザの検出の有無を判定する。ユーザが検出されるとき、ユーザ検出部１４４は、ユーザ検出情報からそのユーザの方向を特定し、そのユーザに係る方向を示すユーザ方向情報を入力制御部１３２に出力する。
ユーザ検出情報にさらにユーザの距離が含まれている場合には、ユーザ検出部１４４は、そのユーザの距離をユーザ方向情報に含めて入力制御部１３２に出力してもよい。

受音部１０８がマイクロホンアレイである場合には、入力制御部１３２は、受音部１０８の指向方向をユーザ方向情報が示す方向に定めてもよい。入力制御部１３２は、定めた方向を目標方向として示す指向性制御信号を受音部１０８に出力する。受音部１０８は、入力制御部１３２から入力される指向性制御信号が示す目標方向に、公知の指向性制御技術を用いて指向方向を制御する。

撮像部１１０が可変カメラである場合には、入力制御部１３２は、撮像部１１０の撮像方向をユーザ方向情報が示す方向に定めてもよい。撮像方向とは、視野の中心、つまり撮像部１１０の光学軸の方向である。入力制御部１３２は、定めた方向を目標方向として示す視野制御信号を撮像部１１０に出力する。撮像部１１０は、入力制御部１３２から入力される視野制御信号が示す撮像方向に、公知の視野制御技術を用いて視野を制御する。
ユーザ方向情報に距離の情報がさらに含まれる場合には、入力制御部１３２は、その距離を撮像距離と定め、撮像方向と撮像距離の組で特定される目標位置を示す視野制御信号を撮像部１１０に出力してもよい。撮像部１１０は、入力制御部１３２から入力される視野制御信号が示す目標位置に設置された被写体の像が撮像される画像のうち予め定めた領域を占めるように、公知の視野制御技術を用いて視野を制御し、かつ、公知のズーム制御技術を用いてズームを制御してもよい。例えば、所定の領域とは中心が画像全体の領域と共通であって、水平方向の幅と垂直方向の高さが画像全体の幅、高さの半分以上の大きさを有する領域であり、撮像部１１０は、その領域の垂直方向の一端と他端の高さが、ユーザの顔面の垂直方向の一端と他端の高さに接する大きさ、位置に視野を制御する。

なお、入力制御部１３２は、あるユーザが発話中と判定されるとき、受音部１０８の指向方向をそのユーザの方向に制御してもよい。そこで、音声検出部１３６は、上記のように発話区間の開始または終了を示す発話区間信号を入力制御部１３２に出力する。
入力制御部１３２は、音声検出部１３６から発話区間信号が発話区間の開始を示す発話区間信号が入力された後、次に発話区間の終了を示す発話区間信号が入力されるまでの間、ユーザが発話中と判定することができる。
入力制御部１３２は、受音部１０８の指向方向をそのユーザの方向に制御する際、その方向に指向方向を固定してもよいし、その方向に指向方向を公知の指向性制御技術を用いて追従させてもよい。
このように受音部１０８の指向方向を制御することで、他の方向に所在する他のユーザの発話による音声が排除または低減される。そのため、他のユーザとの同時発話による音声認識精度の低下が回避または抑制される。

また、トリガー検出部１４２が、撮像部１１０が撮像した画像に基づく第２トリガーを待ち受ける場合には、入力制御部１３２は、あるユーザが発話中と判定されるとき、その発話区間を含む音声操作受付期間の満了後に開始される第２待機期間の終了まで、撮像部１１０の撮像方向をそのユーザの方向に制御してもよい。そこで、動作モード制御部１３８は、上記のように生成した動作モード信号を入力制御部１３２に出力する。入力制御部１３２は、動作モード制御部１３８から音声操作受付モードを示す動作モード信号が入力された後、次に第２トリガー待機モードを示す動作モード信号が入力されるまでの間に、音声検出部１３６から発話区間信号が発話区間の開始を示す発話区間信号が入力されるとき、あるユーザが発話中と判定することができる。入力制御部１３２は、次に第２トリガー待機モードを示す動作モード信号が入力され、さらに次に第１トリガー待機モードを示す動作モード信号が入力されるとき、発話区間を含む音声操作受付期間の満了後に開始される第２待機期間の終了を判定することができる。また、入力制御部１３２は、撮像部１１０の撮像方向をそのユーザの方向に制御する際、その方向に撮像方向を固定してもよいし、その方向に撮像方向を公知の視野制御技術を用いて追従させてもよい。このように撮像部１１０の撮像方向を発話から第２待機期間の終了までそのユーザの方向に制御することで、発話したユーザに係る画像に基づく第２トリガー（例えば、ジェスチャー、など）をより確実に取得し、他のユーザに係る画像に基づく第２トリガーの検出による割込みが回避されるので、発話したユーザの第２トリガーを優先して音声操作受付期間の再開が指示される。このことは、第２トリガーの検出に対するＦＲＲが仮に高いとしても許容されうる。

よって、本実施形態に係る電子機器１０は、検出部１１８が検出した人物の方向に受音部１０８の指向方向を制御することができる。図１に示す例では、ユーザＵ０１が検出される。入力制御部１３２は、検出したユーザＵ０１の発話期間において受音部１０８の指向方向をユーザＵ０１の方向に向ける。他方、その他のユーザ、例えば、机ＴＢの前面の椅子ＣＲに座っているユーザＵ０２が発話した音声は収音されない。そのため、ユーザＵ０２の発話情報に所定のトリガーワードが含まれていても音声操作受付期間が開始されない。また、音声操作受付期間において発話情報に所定の音声コマンドが含まれていても、その音声コマンドは認識されないので実行されない。
また、入力制御部１３２は、音声操作受付期間において検出したユーザＵ０１が発話するとき、そのユーザＵ０１の像が含まれる方向に撮像部１１０の視野を維持する。トリガー検出部１４２は、第２待機期間において撮像部１１０で撮像される画像に対して画像認識処理を行う。そのため、トリガー検出部１４２は、ユーザＵ０１のジェスチャを第２トリガーとして検出することができる。また、ユーザＵ０２の方向は、カメラの視野に含まれないため、ユーザＵ０２が電子機器１０に対してジェスチャを行っても第２トリガーとして検出されない。

（まとめ）
以上に説明したように、上記の実施形態に係る電子機器１０は、音声信号を入力する音声入力部（例えば、受音部１０８）と、制御部１３０とを備える。制御部１３０は、第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部ＡＳＲに前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる。制御部１３０は、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間（例えば、第１待機期間Ｘ［秒］）を経過するとき音声操作受付期間を終了させる。制御部１３０は、音声操作受付期間の終了から所定の第２の待機時間（例えば、第２待機期間Ｙ［秒］）の経過前に第２のトリガーを検出するとき、音声操作受付期間を再開させる。
この構成によれば、音声操作受付期間の終了から第２の待機期間の経過前に第２のトリガーが検出されるとき、音声操作受付期間が再開されるので、ネットワークを介して音声信号が送信される音声操作受付期間を延長しなくても、第２のトリガーを与えればユーザの発話による操作が可能となる。そのため、第１のトリガーを再度与えることなく、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。

また、電子機器１０において、制御部１３０は、入力される音声信号に対して音声認識を実行して認識される所定の語句（例えば、トリガーワード）を第１のトリガーとして待機する。
この構成によれば、ユーザは第１のトリガーとして所定の語句を発話しなくても、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。

また、電子機器１０は、操作を受け付ける操作入力部１０６を備え、制御部１３０は、操作入力部が受け付ける所定の操作（例えば、音声操作受付開始ボタンの押下）を第１のトリガーとして待機する。
この構成によれば、ユーザは第１のトリガーとして所定の操作を行わなくても、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。

また、電子機器１０は、画像信号を入力する画像入力部（例えば、撮像部１１０）を備え、制御部１３０は、画像信号に対して画像認識を実行して認識されるユーザの所定の挙動を前記第２のトリガーとして待機する。
この構成によれば、ユーザは第１のトリガーを与えなくても、所定の挙動を示せば、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。

また、電子機器１０において、制御部１３０は、その挙動として自器の方向を指示する挙動を待機する。
この構成によれば、ユーザは第１のトリガーを与えなくても、自器の方向を指示する挙動を示すことで、特段の操作を行わずに電子機器１０の使用の意思を容易に示すことができる。

また、電子機器１０において、自器から所定の範囲内に所在するユーザを検出する検出部１１８を備え、制御部１３０は、検出したユーザの方向に、画像信号を入力する音声入力部の指向方向を制御する。
この構成によれば、検出したユーザの方向から到来する音声が主に収音され、他の方向から到来する音声の収音レベルが相対的に低下する。
検出したユーザが発話した音声の発話情報に対する音声認識精度が高くなるため、ユーザの意図に従った操作が可能となる。

また、電子機器１０において、制御部１３０は、ユーザの発話が検出された後、第２の待機時間の経過または第２のトリガーの検出まで、ユーザの方向に画像入力部の撮像方向を制御する。
この構成によれば、発話したユーザの方向に少なくとも第２の待機時間中に第２のトリガーが与えられるまで画像入力部の撮像方向が向けられる。そのため、発話したユーザの所定の挙動を第２のトリガーとして、より確実に取得することができる。

また、電子機器１０は、表示部１０４を備え、制御部１３０は、音声操作受付期間において表示部１０４に第１の表示を表示させ、音声操作受付期間の終了から、第２の待機時間の経過または音声操作受付期間の再開までの期間において表示部１０４に第１の表示とは異なる態様の第２の表示を表示させる。
これにより、ユーザは発話による音声が認識される音声操作受付期間と、第２のトリガーが検出される期間を把握することができる。そのため、電子機器の音声操作を行うために、なすべき行動を直感的に判断することができる。

この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。上述の実施形態において説明した各構成は、矛盾が生じない限り組み合わせることができ、構成の一部が省略されてもよい。

例えば、電子機器１０は、図６に示す専用のスマートスピーカに限られず、経路案内装置、ロボット、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣ）、タブレット端末装置、携帯電話機、などの汎用の情報機器などユーザからの発話情報に応じた動作を実現できる機器であればよい。
また、操作入力部１０６は、他の機器から操作信号を有線または無線で取得できれば、必ずしもユーザの操作を受け付ける部材を備えていなくてもよい。
音声入力部として電子機器１０が受音部１０８を備える場合を例にしたが、他の機器から音声信号を有線または無線で取得できれば、電子機器１０は必ずしも受音部１０８を備えていなくてもよい。
画像入力部として電子機器１０が撮像部１１０を備える場合を例にしたが、他の機器から画像信号を有線または無線で取得できれば、電子機器１０は必ずしも撮像部１１０を備えていなくてもよい。
再生部１１２は、他の機器に音声信号を送信できれば、必ずしもスピーカを備えていなくてもよい。
検出部１１８は、他の機器から検出信号を有線または無線で取得できれば、必ずしも人感センサを備えていなくてもよい。

１０…電子機器、１０２…通信部、１０４…表示部、１０６…操作入力部、１０８…受音部、１１０…撮像部、１１２…再生部、１１４…記憶部、１１６…プロセッサ、１１８…検出部、１３０…制御部、１３２…入力制御部、１３４…出力制御部、１３６…音声検出部、１３８…動作モード制御部、１４０…音声制御部、１４２…トリガー検出部、１４４…ユーザ検出部

Claims

音声信号を入力する音声入力部と、
第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させ、
前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間を経過するとき前記音声操作受付期間を終了させ、
前記音声操作受付期間の終了から所定の第２の待機時間の経過前に第２のトリガーを検出するとき、前記音声操作受付期間を再開させる制御部と、を備える
電子機器。
前記制御部は、
前記音声信号に対して音声認識を実行し、認識される所定の語句を前記第１のトリガーとして待機するトリガー検出部を備える
請求項１に記載の電子機器。
操作を受け付ける操作入力部を備え、
前記制御部は、
前記操作入力部が受け付ける所定の操作を前記第１のトリガーとして待機するトリガー検出部を備える
請求項１または請求項２に記載の電子機器。
画像信号を入力する画像入力部を備え、
前記制御部は、
前記画像信号に対して画像認識を実行して認識されるユーザの所定の挙動を前記第２のトリガーとして待機するトリガー検出部を備える
請求項１から請求項３のいずれか一項に記載の電子機器。
前記制御部は、
前記挙動として自器の方向を指示する挙動を待機する
請求項４に記載の電子機器。
自器から所定の範囲内に所在するユーザを検出する検出部を備え、
前記制御部は、
前記ユーザの方向に、前記音声入力部の指向方向を制御する
請求項１から請求項５のいずれか一項に記載の電子機器。
前記制御部は、
前記ユーザの発話が検出された後、第２の待機時間の経過または第２のトリガーの検出まで、前記ユーザの方向に、画像信号を入力する画像入力部の撮像方向を制御する
請求項６に記載の電子機器。
表示部を備え、
前記制御部は、
前記音声操作受付期間において前記表示部に第１の表示を表示させ、
前記音声操作受付期間の終了から、前記第２の待機時間の経過または前記音声操作受付期間の再開までの期間において前記表示部に前記第１の表示とは異なる態様の第２の表示を表示させる
請求項１から請求項７のいずれか一項に記載の電子機器。
音声信号を入力する音声入力部を備える電子機器の制御方法であって、
第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第１ステップと、
前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間を経過するとき前記音声操作受付期間を終了させる第２ステップと、
前記音声操作受付期間の終了から、所定の第２の待機時間の経過前に第２のトリガーを検出するとき、前記音声操作受付期間を再開させる第３ステップと、を有する
制御方法。
音声信号を入力する音声入力部を備える電子機器のコンピュータに、
第１のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第１手順と、
前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第１の待機時間を経過するとき前記音声操作受付期間を終了させる第２手順と、
前記音声操作受付期間の終了から、所定の第２の待機時間の経過前に第２のトリガーを検出するとき、前記音声操作受付期間を再開させる第３手順と、
を実行させるためのプログラム。