JP6842489B2 - 電子機器、制御方法およびプログラム - Google Patents

電子機器、制御方法およびプログラム Download PDF

Info

Publication number
JP6842489B2
JP6842489B2 JP2019062617A JP2019062617A JP6842489B2 JP 6842489 B2 JP6842489 B2 JP 6842489B2 JP 2019062617 A JP2019062617 A JP 2019062617A JP 2019062617 A JP2019062617 A JP 2019062617A JP 6842489 B2 JP6842489 B2 JP 6842489B2
Authority
JP
Japan
Prior art keywords
voice
trigger
unit
electronic device
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019062617A
Other languages
English (en)
Other versions
JP2020160387A (ja
Inventor
多聞 福島
多聞 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2019062617A priority Critical patent/JP6842489B2/ja
Publication of JP2020160387A publication Critical patent/JP2020160387A/ja
Application granted granted Critical
Publication of JP6842489B2 publication Critical patent/JP6842489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、電子機器、制御方法およびプログラムに関する。
ユーザが発話した音声に対して音声認識を行って得られる発話情報で指示される処理や発話情報に応答する機能(以下、音声操作、と総称)を有する電子機器が提案されている。例えば、発話情報により指示された情報の検索や連携機器に対する操作が実現される。かかる電子機器は、例えば、音声アシスタント機能を有する音声入力装置として構成されることがあり、スマートスピーカ、AI(Artificial intelligence)スピーカ、などとも呼ばれる。音声認識処理は、スマートスピーカではなく、インターネットに接続された音声認識サーバにより実行される。入力される音声に対して常に音声認識処理が実行されると、ユーザが意図していないタイミングで発話情報がインターネットを経由して不特定のユーザに漏洩することがある。そのため、ユーザのプライバシーが保護されないリスクが生ずる。そこで、音声認識処理を実行させる音声操作受付期間が制限される。図8に示す例では、電子機器は、所定の発話(いわゆるトリガーワード)や音声操作受付開始ボタンの押下をトリガーとして待ち受ける(ステップS102)、トリガーを検出したとき音声操作受付期間を開始する(ステップS104)。
音声操作受付期間においては、電子機器は、ユーザの発話により得られる音声信号を音声認識サーバ(外部音声認識部)に送信して(ステップS106)、音声認識処理を実行させる(ステップS108)。音声認識サーバは、音声認識処理の処理結果として得られる発話情報を電子機器に送信する(ステップS110)。電子機器は、受信した発話情報に応じた処理を行う(ステップS112)。
そして、最後に音声認識処理により得られる発話情報に対する処理が終了した後、所定の待機期間X[秒]以上継続して発話された音声が得られないとき、電子機器は音声操作受付期間を終了する(ステップS114)。音声操作受付期間外では、ユーザによる発話がなされても外部音声認識部での音声認識処理は行われず、発話情報に応じた音声操作が実現しない。
特開2014−170185号公報
しかしながら、ユーザは所定の待機期間よりも長期間継続して一時的に発話を停止する場合でも、音声操作を継続したいと考える場合がある。音声認識処理を再開するには、ユーザは、電子機器にトリガーを与えるために所定の発話を行うか音声操作受付開始ボタンを押下する必要がある。他方、待機期間を延長すると、発話に基づく音声信号がネットワークを経由して送信されるので、ユーザのプライバシーが保護されないリスクが増大するおそれがある。従って、ユーザに対する利便性とプライバシーの保護を両立させることが期待される。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様に係る電子機器は、音声信号を入力する音声入力部と、第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させ、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間を経過するとき前記音声操作受付期間を終了させ、前記音声操作受付期間の終了から所定の第2の待機時間の経過前に第2のトリガーを検出するとき、前記音声操作受付期間を再開させる制御部と、を備える。
上記電子機器において、前記制御部は、前記音声信号に対して音声認識を実行して認識される所定の語句を前記第1のトリガーとして待機するトリガー検出部を備えてもよい。
上記電子機器は、操作を受け付ける操作入力部を備え、前記制御部は、前記操作入力部が受け付ける所定の操作を前記第1のトリガーとして待機するトリガー検出部を備えてもよい。
上記電子機器は、画像信号を入力する画像入力部を備え、前記制御部は、前記画像信号に対して画像認識を実行して認識されるユーザの所定の挙動を前記第2のトリガーとして待機するトリガー検出部を備えてもよい。
上記電子機器において、前記制御部は、前記挙動として自器の方向を指示する挙動を待機してもよい。
上記電子機器は、自器から所定の範囲内に所在するユーザを検出する検出部を備え、前記制御部は、前記ユーザの方向に、前記音声入力部の指向方向を制御してもよい。
上記電子機器において、前記制御部は、前記ユーザの発話が検出された後、第2の待機時間の経過または第2のトリガーの検出まで、前記ユーザの方向に、画像信号を入力する画像入力部の撮像方向を制御してもよい。
上記電子機器は、表示部を備え、前記制御部は、前記音声操作受付期間において前記表示部に第1の表示を表示させ、前記音声操作受付期間の終了から、前記第2の待機時間の経過または前記音声操作受付期間の再開までの期間において前記表示部に前記第1の表示とは異なる態様の第2の表示を表示させてもよい。
本発明の第2態様に係る制御方法は、音声信号を入力する音声入力部を備える電子機器の制御方法であって、第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第1ステップと、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間を経過するとき前記音声操作受付期間を終了させる第2ステップと、前記音声操作受付期間の終了から、所定の第2の待機時間の経過前に第2のトリガーを検出するとき、前記音声操作受付期間を再開させる第3ステップと、を有する。
本発明の第3態様に係るプログラムは、音声信号を入力する音声入力部を備える電子機器のコンピュータに、第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第1手順と、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間を経過するとき前記音声操作受付期間を終了させる第2手順と、前記音声操作受付期間の終了から、所定の第2の待機時間の経過前に第2のトリガーを検出するとき、前記音声操作受付期間を再開させる第3手順と、を実行させるためのプログラムである。
本発明の上記態様によれば、ユーザに対する利便性とプライバシーの保護を両立させることができる。
第1の実施形態に係る電子機器の概要を説明するための説明図である。 第1の実施形態に係る電子機器のハードウェア構成の一例を示す概略ブロック図である。 第1の実施形態に係る電子機器の機能構成例を示す概略ブロック図である。 第1の実施形態に係る電子機器が実行する動作モード制御の例を示すシーケンス図である。 第2の実施形態に係る電子機器のハードウェア構成の一例を示す概略ブロック図である。 第2の実施形態に係る電子機器の外観構成例を示す斜視図である。 第2の実施形態に係る電子機器の機能構成例を示す概略ブロック図である。 従来の電子機器の動作モード制御の一例を示すシーケンス図である。
以下、本発明の実施形態について、図面を参照して説明する。
(第1の実施形態)
まず、本発明の第1の実施形態に係る電子機器10の概要について説明する。
図1は、本実施形態に係る電子機器10の概要を説明するための説明図である。
図1に示す例では、電子機器10は、居間LRに設置されスマートスピーカとして実装される。電子機器10は、マイクロホン、カメラを備える。電子機器10は、マイクロホンで収音された音声信号をネットワークに接続された外部音声認識部ASR(図4)に送信し、外部音声認識部ASRから音声認識結果として発話情報を受信する。外部音声認識部ASRは、個々の電子機器10から受信した音声信号に対して音声認識処理を行う専用の音声認識サーバとして構成されてもよいし、他の機能(例えば、各種の情報提供)を併せ持つウェブサーバとして構成されてもよい。
電子機器10は、発話情報に第1のトリガーとして、所定のトリガーワードが含まれるとき音声操作受付期間を開始する。トリガーワードとして、電子機器10の名称が用いられてもよい。電子機器10の名称は、正式名称に限られず、愛称、略称、などの変名であってもよい。音声操作受付期間は、電子機器10が音声操作を受け付け可能とする期間である。音声操作受付期間では、あらゆる発話情報、主に音声コマンドが認識対象となる。但し、音声操作受付期間以外の期間においては、トリガーワードが認識対象となり、トリガーワード以外の語句は認識対象とならない。例えば、ソファーSFに座っているユーザU01は、トリガーワードを発話することで音声操作受付期間を開始させることができる。他方、机TBの前面の椅子CRに座っているユーザU02が所定の音声コマンドを発話しても、所定のトリガーワードが含まれていなければ、音声操作受付期間が開始されない。
音声操作受付期間において、電子機器10は入力される音声信号を外部音声認識部ASRに送信し、外部音声認識部ASRから音声認識処理の処理結果として発話情報を受信する。受信した発話情報に音声コマンドが含まれるとき、電子機器10は、音声コマンドで指示される処理を実行する。以下の説明では、音声コマンドで指示される処理を実行することを、単に「音声コマンドを実行する」と呼ぶことがある。音声コマンドは、電子機器10自体の動作に対する操作を目的とする指令に限られず、電子機器10と各種のデータを送受信可能に接続され、電子機器10を用いて他の操作を目的とする指令が含まれることがある。例えば、「テレビつけて」は電子機器10に接続されるテレビTVに対する起動(Power ON)を指示するための音声コマンドである。「○○にして」はテレビTVに対して○○の放送チャネルの選局を指示するための音声コマンドである。「○○」は、放送局の正式名称または変名を示す。例えば、音声操作受付期間中にユーザU01が「テレビつけて」と発話するとき、電子機器10は、外部音声認識部ASRから受信した発話情報に含まれる音声コマンド「テレビつけて」を特定する。電子機器10は、特定した音声コマンドで指示される処理として、起動を示す動作制御信号をテレビTVに送信する。テレビTVは、動作を停止しているときに電子機器10から起動を示す動作制御信号を受信するとき、自装置への電力供給を開始し、テレビジョン受信機の主機能として放送波で受信した番組の映像と音声の提示を開始する。その後、電子機器10は、発話情報で指示される処理の終了から所定の待機時間の経過時に音声操作受付期間を終了させる。この待機時間は、第2待機期間Y[秒](後述)と区別するために、「第1待機期間X[秒]」と呼ぶことがある。
電子機器10は、音声操作受付期間の終了から第2待機期間Y[秒]以内に、第2トリガーを検出するとき、音声操作受付期間を再開させる。第2トリガーとして、電子機器10が備える撮像部(後述)が撮像した画像から画像認識処理により認識される所定のジェスチャが適用可能である。ジェスチャは、電子機器10を指し示す挙動、例えば、電子機器10への指差し、などが適用可能である。ユーザU01が第2待機期間中に所定のジェスチャを示すことで、特段の操作を行わずに音声操作受付期間を再開させることができる。ユーザU01は、音声コマンドを発話することで、電子機器10または電子機器10と接続された連携機器を操作することができることとなる。
なお、第2待機期間Y[秒]の経過後は、電子機器10は画像認識処理を終了する。電子機器10は、第1のトリガーが検出されない限り、音声操作受付期間を再開させない。
上記の例のように、電子機器10は、音声操作受付期間の終了時に開始される第2待機期間内に第1トリガーとは別個の第2トリガーを検出するとき、音声操作受付期間を再開させる。ユーザは、第2トリガーとして所定の挙動を示すことで、第1トリガーを与えるための特段の操作を行わずに音声操作受付期間を再開することができる。そのため、音声操作受付期間の延長を避けることで、音声操作受付期間中における音声信号の漏洩によるプライバシーリスクを低減することができる。
(ハードウェア構成)
次に、本実施形態に係る電子機器10のハードウェア構成について説明する。図2は、本実施形態に係る電子機器10のハードウェア構成の一例を示す概略ブロック図である。
電子機器10は、通信部102、表示部104、操作入力部106、受音部108、撮像部110、再生部112、記憶部114、およびプロセッサ116を含んで構成される。これらの構成要素は、バスBSを用いて相互に各種のデータを入出力可能に接続されている。
通信部102は、プロセッサ116による制御に基づいて、ネットワークに接続された他の機器(外部音声認識部ASRを含む)と通信を行う。通信部102は、所定の通信方式で各種のデータを送受信するための通信インタフェースを含んで構成される。
表示部104は、画像、テキスト、など視認可能な情報を表示情報として表示するディスプレイ、光源、またはそれらの組み合わせを含んで構成される。ディスプレイは、例えば、液晶ディスプレイパネルなどを含んで構成される。光源は、例えば、LED(Light Emitting Diode、発光ダイオード)などを含んで構成される。
操作入力部106は、ユーザの操作を受け付け、受け付けた操作に基づく操作信号を生成し、生成した操作信号を出力する。操作入力部106は、ボタン、ダイヤルなどの専用の部材を含んで構成されてもよいし、キーボード、マウス、タッチセンサなどの汎用の部材を含んで構成されてもよい。タッチセンサは、表示部104として機能する液晶ディスプレイパネルと一体化してタッチパネルとして構成されてもよい。
受音部108は、自部に到来した音を受音する受音素子を備え、受音素子は受音した音を電気信号である音声信号に変換するマイクロホンである。受音部108は、変換された音声信号をプロセッサ116に出力する。
撮像部110は、所定の視野内の物体を表す画像を撮像し、撮像した画像を示す画像信号を生成し、生成した画像信号を出力する。撮像部110は、撮像面に複数の撮像素子が二次元配置されてなるCCD(Charge Coupled Device、電荷結合素子)カメラなどの電子カメラであってもよい。
再生部112は、自部に入力される音声信号に基づく音を再生する。再生部112は、例えば、スピーカを含んで構成される。再生部112には、例えば、プロセッサ116が実行したコマンドに応じて生成された音声信号が入力され、入力される音声信号で各種の案内情報を有する音声を再生する。
記憶部114は、電子機器10の処理に用いられる各種の情報、電子機器10が処理により取得した各種の情報、を記憶する記憶媒体を含んで構成される。各種の情報には、プログラム、パラメータ、画像、などが含まれる。記憶部114は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)、RAM(Random Access Memory)などを含んで構成される。なお、電子機器10には、各種の入出力インタフェースを用いて、他の記憶媒体と接続されてもよい。
プロセッサ116は、記憶部114に記憶されている各種のプログラムに記述された命令で指示される処理を実行し、電子機器10の各部の動作を制御する。プロセッサは、例えば、CPU(Central Processing Unit)、MPU(Micro−Processing Unit)など、である。なお、以下の説明では、プログラムに記述された命令で指示される処理を実行することを、「プログラムを実行する」と呼ぶことがある。
(機能構成)
次に、本実施形態に係る電子機器10の機能構成例について説明する。
図3は、本実施形態に係る電子機器10の機能構成例を示す概略ブロック図である。
プロセッサ116は、記憶部114から所定のプログラムを読み出し、読み出したプログラムを実行して制御部130の機能を実現する。
制御部130は、入力制御部132、出力制御部134、音声検出部136、動作モード制御部138、音声制御部140、およびトリガー検出部142を含んで構成される。
入力制御部132は、操作入力部106から入力される操作信号を取得する。入力制御部132は、受音部108から入力される音声信号を取得する。
出力制御部134は、表示部104に表示させる表示情報を出力する。出力制御部134は、再生部112に再生させる音を示す音声信号を出力する。
音声検出部136は、受音部108から入力される音声信号から人が発話した音声を検出する。音声検出部136は、公知の音声区間検出(VAD:Voice Activity Detection)アルゴリズムを用いて音声区間を検出する。音声検出部136は、例えば、所定期間(例えば、20〜50ms)ごとに音声信号の信号レベルと、個々の信号値の零交差点数を解析し、信号レベルが所定のレベル以上、かつ、零交差点が所定の範囲内(例えば、200−500Hz)である区間を音声区間として判定し、それ以外の区間を非音声区間として判定する。音声検出部136は、非音声区間が所定時間(例えば、1〜3秒)以上継続する区間を非発話区間として判定し、非発話区間の終了時を新たな発話区間の開始時、非発話区間の再開時をその発話区間の終了時として判定する。これにより、個々の発話区間が特定される。なお、発話区間には、音声区間が継続する区間の他、音声区間と非音声区間が断続する区間も含まれる。これは、一時的に発話が停止され直後に発話が再開される場合や、正常な発話中であっても促音など発話中であっても短時間信号レベルが無音時と同等なレベルに低下する場合も発話区間に含めるためである。
音声検出部136は、動作モード制御部138から入力される動作モード信号で指示される動作モードに従って、発話区間内の音声信号の出力先を制御する。動作モードが音声操作受付モード、つまり、現時点が音声操作受付期間内である場合には、音声検出部136は、音声制御部140に発話区間内の音声信号を出力する。通信部102を用いてネットワークを経由して外部音声認識部ASRに発話区間内の音声信号を出力する。外部音声認識部ASRは、例えば、取得した音声信号に対して音声認識処理を行う音声認識サーバである。外部音声認識部ASRは、電子機器10から受信した音声信号に対して音声認識処理を行い、音声認識結果として発話内容を示す発話情報を電子機器10にネットワークを経由して送信する。
音声検出部136は、現時点が音声操作受付期間外である場合には、発話区間内の音声信号をトリガー検出部142に出力する。
動作モード制御部138は、トリガー検出部142が認識したトリガーやそのタイミングに基づいて自器の動作モードを制御する。
動作モード制御部138は、自器の動作モードが第1トリガー待機モードであって、トリガー検出部142から第1のトリガーの検出を示す第1トリガー検出信号が入力されるとき、自器の動作モードを音声操作受付モードに変更する。動作モード制御部138は、変更後の動作モードである音声操作受付モードを示す動作モード信号を表示部104、音声検出部136、およびトリガー検出部142に出力する。表示部104は、動作モード制御部138から音声操作受付モードを示す動作モード信号が入力されるとき、音声操作受付期間を示す第1の表示を行う。表示部104は、例えば、発光部を備え、第1の表示として所定の色(例えば、緑色)で点灯する。
動作モード制御部138は、自器の動作モードが音声操作受付モードであるとき、音声操作受付期間の開始の時点、音声制御部140から音声コマンドの実行終了を示す実行終了信号が入力された時点、または最後の発話終了を示す発話終了信号が入力された時点のうち最も遅い時点から第1待機期間X[秒]が経過するまでの間、新たな発話開始を示す発話開始信号が入力される場合、自器の動作モードを音声操作受付モードのまま維持する。つまり、動作モード制御部138は、音声操作受付期間の開始から第1待機期間X[秒]経過していても、音声認識処理により音声コマンドが認識された場合には、最後に認識された音声コマンドの実行終了から第1待機期間X[秒]が経過するまでの間、音声コマンドが認識されない場合には、最後の発話終了から第1待機期間X[秒]が経過するまでの間、新たな発話開始を示す発話開始信号が入力される場合、自器の動作モードを音声操作受付モードのまま維持する。その第1待機期間X[秒]が経過するまでの間、新たな発話開始を示す発話開始信号が入力されないとき、動作モード制御部138は、自器の動作モードを音声操作受付モードから第2トリガー待機モードに変更する。動作モード制御部138は、変更後の動作モードである第2トリガー待機モードを示す動作モード信号を表示部104、音声検出部136、およびトリガー検出部142に出力する。表示部104は、動作モード制御部138から第2トリガー待機モードを示す動作モード信号が入力されるとき、第1の表示を停止し、第2待機期間を示す第2の表示を行う。表示部104は、例えば、第2の表示として、第1の表示とは異なる所定の色(例えば、黄色)で点灯する。
動作モード制御部138は、自器の動作モードが第2トリガー待機モードであるとき、動作モードを音声操作受付モードから第2トリガー待機モードに変更した時点から所定の第2待機期間Y[秒]が経過するまでの間、トリガー検出部142から第2トリガーの検出を示す第2トリガー検出信号が入力されるとき、自器の動作モードを音声操作受付モードに変更する。動作モード制御部138は、変更後の動作モードである音声操作受付モードを示す動作モード信号を表示部104、音声検出部136、およびトリガー検出部142に出力する。表示部104は、動作モード制御部138から第2トリガー待機モードを示す動作モード信号が入力されるとき、第2の表示を停止し、音声操作受付期間を示す第1の表示を行う。
動作モード制御部138は、自器の動作モードが第2トリガー待機モードであるとき、動作モードを音声操作受付モードから第2トリガー待機モードに変更した時点から所定の第2待機期間Y[秒]が経過するまでの間、トリガー検出部142から第2トリガーの検出を示す第2トリガー検出信号が入力されないとき、自器の動作モードを第1トリガー待機モードに変更する。動作モード制御部138は、変更後の動作モードである第1トリガー待機モードを示す動作モード信号を表示部104、音声検出部136、およびトリガー検出部142に出力する。表示部104は、動作モード制御部138から第1トリガー待機モードを示す動作モード信号が入力されるとき、第2の表示を停止する。
自器の動作モードが音声操作受付モードであるとき、音声制御部140には音声検出部136から発話区間ごとに音声信号が入力される。音声制御部140は、入力された音声信号を外部音声認識部ASRに通信部102を経由して送信する。他方、音声制御部140は、発話区間開始ごとに発話区間開始を示す発話開始信号を動作モード制御部138に出力し、発話区間終了ごとに発話区間終了を示す発話終了信号を動作モード制御部138に出力する。音声制御部140は、外部音声認識部ASRから音声信号に対する応答として発話情報を受信し、受信した発話情報が予め設定された1個または複数の音声コマンドのうち、いずれかの音声コマンドを含むか否かを判定する。音声制御部140は、発話情報に含まれると判定された音声コマンドを特定し、特定した音声コマンドで指示される処理を実行する。従って、音声制御部140は、いわゆる音声アシスタントの機能を実現する。
音声制御部140は、例えば、認識された音声コマンドが気象情報の照会を示すとき、通信部102を用いて所定の気象情報サーバ装置に気象情報要求を送信する。音声制御部140は、気象情報サーバ装置から気象情報要求に対する応答として気象情報を受信するとき、受信した気象情報を示すテキストに対して公知のテキスト音声合成処理を行って、気象情報を示す音声信号に変換する。音声制御部140は、変換された音声信号を再生部112に出力し、気象情報を発話情報として有する音声を再生させる。
音声制御部140は、例えば、認識された音声コマンドがネットワークに接続された他の機器(以下、ネットワーク機器)に対する動作制御情報を示すとき、通信部102を用いて、ネットワーク機器に動作制御情報を送信する。その機器は、電子機器10から動作制御情報を受信するとき、受信した動作制御情報に従って動作を制御する。制御対象とするネットワーク機器は、電子機器10と共通のLAN(Local Area Network、構内ネットワーク)に無線または有線で接続された情報端末装置、家庭電化器具などのいずれであってもよい。
音声制御部140は、例えば、認識された音声コマンドが映像コンテンツの再生要求を示すとき、所定の映像コンテンツサーバ装置に、再生が指示された映像コンテンツを示す映像コンテンツ要求を送信する。音声制御部140は、映像コンテンツサーバ装置から映像コンテンツ要求に対する応答として映像コンテンツデータを受信するとき、受信した映像コンテンツデータから、映像データと音声データを分離する。音声制御部140は、分離した映像データを表示情報として表示部104に出力し、音声データを音声信号として再生部112に出力する。
トリガー検出部142は、動作モード制御部138から入力される動作モード信号が示す動作モードを特定する。トリガー検出部142は、動作モードに応じたトリガーの検出を試みる。
動作モードが第1トリガー待機モードであるとき、トリガー検出部142は、音声操作受付期間の開始に対するトリガーとして第1トリガーを待ち受ける。
トリガー検出部142は、例えば、音声検出部136から入力される音声信号に対して公知の音声認識処理を行って発話情報を取得する。トリガー検出部142は、取得した発話情報が所定のトリガーワードを含むとき、第1トリガーを検出したと判定し、その発話情報がトリガーワードを含まないとき、第1トリガーを検出しないと判定する。認識可能とする語彙として所定のトリガーワードが含まれれば足りるため、トリガー検出部142における音声認識処理において要求される処理能力は、外部音声認識部ASRで要求される処理能力よりも格段に低くてもよい。
また、操作入力部106がボタン(以下、音声操作受付開始ボタン)を含んで構成される場合には、トリガー検出部142は、音声操作受付開始ボタンの押下を示す操作信号が音声操作受付開始ボタンから入力されるとき、第1トリガーを検出したと判定してもよい。トリガー検出部142は、音声操作受付開始ボタンの押下を示す操作信号が音声操作受付開始ボタンから入力されないとき、第1トリガーを検出しないと判定する。
トリガー検出部142は、第1トリガーを検出するとき、第1トリガーの検出を示す第1トリガー検出信号を動作モード制御部138に出力する。
動作モードが第2トリガー待機モードであるとき、トリガー検出部142は、音声操作受付期間の再開を示す第2トリガーを待ち受ける。
トリガー検出部142は、例えば、撮像部110から入力される画像信号に対して公知の画像認識処理を行い、所定のジェスチャを示すユーザを検出するとき、第2トリガーを検出したと判定する。トリガー検出部142は、例えば、所定の範囲の速度(例えば、秒速20−50cm程度)で自器に接近する所定の大きさ(例えば、径が8−15cm程度)を有する物体を第2トリガーとして検出してもよい。
トリガー検出部142は、所定のジェスチャを示すユーザを検出できないとき、第2トリガーを検出しないと判定する。
所定のジェスチャを示すユーザを検出できないとき、トリガー検出部142は、第2トリガーを検出しないと判定する。
トリガー検出部142は、第2トリガーを検出するとき、第2トリガーの検出を示す第2トリガー検出信号を動作モード制御部138に出力する。
トリガー検出部142は、ジェスチャの検出に代え、もしくはジェスチャの検出とともに、撮像部110から入力される画像信号に対して公知の視線検出技術を用いてユーザの視線方向を検出してもよい。視線方向は、例えば、画像に表れているユーザの顔面を構成する諸器官の位置から顔面の方向が推定され、さらに両眼の瞳孔の位置に基づいて推定される。トリガー検出部142は、検出した視線方向が、自器の方向から所定の範囲(例えば、5〜10°)以内の方向であるとき、第2トリガーを検出したと判定する。
視線を第2トリガーとして採用することで、ユーザに対して電子機器10との対話の感覚を与えることができる。また、視線を第2トリガーとして併用することで、ジェスチャに対する画像認識処理のFAR(False Acceptance Rate、誤り受入率)が低くても許容される。
(動作モード制御)
次に、本実施形態に係る電子機器10が実行する動作モード制御の例について説明する。図4は、本実施形態に係る電子機器10が実行する動作モード制御の例を示すシーケンス図である。図4に示す処理は、電子機器10の動作モードが、第1トリガー待機モードであるときに開始される場合を例にする。
(ステップS102)トリガー検出部142は、音声操作受付期間の開始に対する第1トリガーを待ち受ける。音声検出部136は、受音部108から入力制御部132を経由して入力される音声信号から発話区間を判定する。トリガー検出部142は、例えば、音声検出部136を経由して入力される発話区間ごとの音声信号に対して音声認識処理を行って発話情報を取得し、第1トリガーとして所定のトリガーワードが取得された発話情報に含まれるか否かを判定する。また、トリガー検出部142は、押下に応じて生ずる操作信号が第1トリガーとして音声操作受付開始ボタンから入力されるか否かを判定する。トリガー検出部142が第1トリガーを検出するとき、ステップS104の処理に進む。
(ステップS104)動作モード制御部138は、自器の動作モードを音声操作受付モードに変更し、音声操作受付期間を開始する。動作モード制御部138は、表示部104に現時点が音声操作受付期間であることを示す第1表示を開始させる。その後、ステップS106の処理に進む。
(ステップS106)音声制御部140は、音声検出部136から入力される発話区間ごとの音声信号を外部音声認識部ASRに通信部102を経由して送信する。その後、ステップS108の処理に進む。
(ステップS108)外部音声認識部ASRは、電子機器10から受信した音声信号に対して音声認識処理を実行する。その後、ステップS110の処理に進む。
(ステップS110)外部音声認識部ASRは、音声認識処理に得られた発話情報を電子機器10に送信する。その後、ステップS112の処理に進む。
(ステップS112)音声制御部140は、外部音声認識部ASRから受信した発話情報から音声コマンドを識別し、識別された音声コマンドで指示される処理を実行する。その後、ステップS114の処理に進む。
(ステップS114)音声操作受付期間の開始時、音声コマンドの実行終了時、または最後の発話終了時のうち最も遅い時点から所定の第1待機期間X[秒]が経過するまでの間、新たな発話が開始されないとき、動作モード制御部138は、自器の動作モードを音声操作受付モードから第2トリガー待機モードに変更する。動作モード制御部138は、音声操作受付期間を終了し、表示部104に第1表示を停止させる。その後、ステップS116の処理に進む。
(ステップS116)動作モード制御部138は、第2待機期間を開始し、表示部104に現時点が第2待機期間であることを示す第2表示を開始させる。その後、ステップS118の処理に進む。
(ステップS118)トリガー検出部142は、第2トリガーを待ち受け、第2トリガーを検出したか否かを判定する。トリガー検出部142は、例えば、撮像部110から入力される画像信号に対して画像認識処理を行い、所定のジェスチャを示すユーザを第2トリガーとして検出するための処理を行う。第2トリガーが検出される場合(ステップS118 YES)、ステップS120の処理に進む。第2トリガーが検出されない場合(ステップS118 NO)、ステップS122の処理に進む。
(ステップS120)動作モード制御部138は、自器の動作モードを第2トリガー待機モードから音声操作受付モードに変更すると判定する。ここで、動作モード制御部138は、第2待機期間を終了し、表示部104に第2表示を停止させる。その後、ステップS104の処理に戻る。
(ステップS122)動作モード制御部138は、第2待機期間の開始時から所定の第2待機期間Y[秒]経過したか否かを判定する。第2待機期間Y[秒]経過したと判定されるとき(ステップS122 YES)、ステップS124の処理に進む。第2待機期間Y[秒]経過していないと判定されるとき(ステップS122 NO)、ステップS118の処理に戻る。
(ステップS124)動作モード制御部138は、自器の動作モードを第2トリガー待機モードから第1トリガー待機モードに変更すると判定する。ここで、動作モード制御部138は、第2待機期間を終了し、表示部104に第2表示を停止させる。その後、ステップS102の処理に戻る。
このように、動作モード制御部138は、第2待機期間内に第1トリガーとは別個の第2トリガーを検出するとき音声操作受付期間を再開させる。ユーザは、第2待機期間内に第2トリガーとして所定の挙動を示すことで、第1トリガーを与えるための特段の操作を行わずに音声操作受付期間を再開することができる。そのため、利便性を確保したうえで、音声操作受付期間の延長を避けることができ、ひいては発話情報の漏洩によるプライバシーリスクを低減することができる。仮に第2トリガーの検出に係るFARが高いために誤って第2待機期間が開始されても、ユーザの意思により発話されなければ音声認識処理がなされないため許容されうる。トリガー検出部142は、第2トリガーの検出に際して、FRR(False Rejection Rate、誤り拒否率)が高ければよいので、複雑な処理を要しない。このことは、消費電力の低下ならびに経済的な実現に貢献する。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。以下の説明では、特に断らない限り上記の実施形態との差異点を主とする。
上記の実施形態と共通の処理、構成については、同一の符号を付してその説明を援用する。
(ハードウェア構成)
まず、本実施形態に係る電子機器10のハードウェア構成の一例について説明する。
図5は、本実施形態に係る電子機器10のハードウェア構成の一例を示す概略ブロック図である。
電子機器10は、通信部102、表示部104、操作入力部106、受音部108、撮像部110、再生部112、記憶部114、プロセッサ116、および検出部118を含んで構成される。
検出部118は、自部から所定範囲(例えば、2〜5m)内に所在する人物の方向を検出する人感センサである。人感センサは、接近センサ(Proximity Sensor)とも呼ばれる。検出部118は、検出した人物の方向をユーザの方向として示すユーザ検出情報をプロセッサ116に出力する。検出部118は、自部からその人物までの距離をさらに検出する構成を備えてもよい。その場合には、検出部118は、さらにその距離をユーザ検出情報に含めてプロセッサ116に出力してもよい。
図1に示す例では、検出部118は、ソファーSFに座っているユーザU01を検出することができる。
なお、受音部108の指向性は、無指向性または所定の指向方向に固定であってもよいが、受音部108は、入力制御部132による制御に基づいて指向性を可変とするマイクロホンアレイであってもよい
また、撮像部110の視野は固定であってもよいが、撮像部110は、入力制御部132による制御に基づいて視野を可変とする可変カメラであってもよい。可変カメラのパラメータとして、例えば、その範囲の大きさを示す視野角、光学軸の方向に相当する撮像方向、自部からその像のピントが合う被写体までの距離に相当する合焦距離のいずれか、またはそれらの任意の組が制御されてもよい。
(外観構成)
次に、本実施形態に係る電子機器10の外観構成例について説明する。
図6は、本実施形態に係る電子機器10の外観構成例を示す斜視図である。
電子機器10は、底面の直径よりも高さの方が大きい細長の円筒形の筐体を有する。筐体の表面には、2個のランプ104−1、104−2と、2個のボタン106−1、106−2と、8個のマイクロホン108−1〜108−8が配置されている。筐体の側面には、カメラ110cと、スピーカ112pと、ソナー118nが配置されている。
ランプ104−1、104−2は、表示部104の例である。ランプ104−1、104−2は、それぞれLEDである。ランプ104−1、104−2は、それぞれ動作モード制御部138により点滅が制御される。ランプ104−1は、音声操作受付期間において第1の表示として点灯し、その他の期間において消灯する。ランプ104−2は、第2トリガー期間において第2の表示として点灯し、その他の期間において消灯する。ランプ104−1、104−2が発光する光の色は、相互に異なっていてもよい。ランプ104−1、104−2それぞれの表面には、それぞれ発話、第2トリガーを示す表示が付されてもよい。かかる表示は、例えば、文字、記号、図案のいずれか、またはこれらの任意の組み合わせであってもよい。
ボタン106−1、106−2は、操作入力部106の例である。ボタン106−1、106−2は、それぞれ音量ボタン、音声操作受付開始ボタンとして機能する。
ボタン106−1は、押下の検出に応じて音量の変更を示す音量変更信号を操作信号の一形態として出力制御部134に出力する。出力制御部134は、再生部112の出力する音声信号に対する利得(ゲイン)をボタン106−1から入力される音量変更信号に基づいて変更する。例えば、出力制御部134には、予め設定された複数通りの利得の候補のうちの1つを音声信号に作用する利得として、音量変更信号が入力されるたびに巡回的に選択する。
ボタン106−2は、押下の検出に応じて音声認識開始を示す音声認識開始信号を操作信号の一形態としてトリガー検出部142に出力する。例えば、トリガー検出部142は、ボタン106−2から音声認識開始信号が入力されるとき、第1トリガーを検出したと判定する。
マイクロホン108−1〜108−8は、いずれも受音部108の一部を構成する。受音部108は、複数のマイクロホンを有するマイクロホンアレイとして機能する。図6に示す例では、マイクロホン108−1〜108−8は、それぞれ筐体表面の周縁部に等間隔に配置され、それぞれに到来する音の音圧に応じた音声信号に変換する。受音部108は、それぞれ異なる位置に配置されたマイクロホン108−1〜108−8から取得される音声信号にそれぞれ作用する利得と遅延を調整することで、受音部108としての指向方向を可変とする。指向方向は、到来する音の感度が、その他の方向の感度よりも相対的に高い方向である。入力制御部132は、受音部108の指向方向を制御する際、遅延和ビームフォーマ等、公知の指向性制御技術を用いることができる。
カメラ110cは、撮像部110の例である。カメラ110cは、視野を可変とする可変カメラとして機能する。カメラ110cは、例えば、複数の撮像系を備え、その全部または一部から個別画像を取得し、取得した個別画像を統合して、より視野が大きい1つの画像を合成することができる。個々の撮像系は、複数の撮像素子が配置された撮像面と、入射光を撮像面に収束させる対物レンズを備える。カメラ110cは、例えば、入力制御部132の制御に基づき、ある撮像方向が視野に含まれる1個の撮像系を選択し、選択された撮像系で撮像された画像を出力し、その他の撮像系で撮像された画像を出力しないことで、視野方向を可変にしてもよい。その他の撮像系は必ずしも動作する必要がないため、それらに対する電力の供給を停止することで、複数の撮像系を同時に動作させる場合よりも電力の消費量を低減することができる。
なお、カメラ110cは、撮像系における対物レンズと撮像面との位置関係、対物レンズに前置される絞り機構の絞り量の一方または両方を制御することで、視野を可変としてもよい。
スピーカ112pは、再生部112の例である。スピーカ112pは、出力制御部134から入力される音声信号に応じた音を再生する。
ソナー118nは、検出部118の例である。ソナー118nは、放射器、受信器、および検出器を備える。放射器は、超音波を放射する。放射器から到来した超音波は、所定範囲内に所在する物体の表面において反射波として反射する。検出器は、到来方向ごとに物体から反射された反射波を受波する。検出器は、予め人物が所在していない場合に取得した反射波である参照波の成分を受波した反射波から差し引いて、人物の所在による反射波の成分を抽出する。検出器は、抽出した成分のうち、強度が所定の検出閾値よりも高く、かつ、強度が最大となる到来方向を人物の方向と判定することができる。また、検出器は、その方向について抽出した成分と放射した超音波との位相差に基づいて人物までの距離を推定することができる。
なお、電子機器10のハードウェア構成は、これには限られない。電子機器10に配置される個々の部材の種別、数、位置、等は変更可能である。
また、検出部118は、自部から所定範囲内に所在する人物の方向を検出することができれば、いかなる検出原理のセンサが採用可能である。例えば、検出部118として、赤外線センサが適用可能である。赤外線センサは、物体から入射する赤外線を検出面に収束させるレンズと検出面に配置された複数の受光素子を含む光学系および検出器を備える。受光素子は、それぞれ人間の体温に対応する波長の赤外線を受光し、受光した赤外線の強度に応じた検出信号を検出器に出力する。検出器は、受光した赤外線の強度が、所定の検出閾値よりも強度が高い赤外線を検出した受光素子と、それらの受光素子の位置の中心点に対応する方向を人物の方向として判定することができる。また、赤外線センサが位置の異なる2個以上の光学系を備える場合には、検出器は光学系間で検出信号の平均値を代表値として算出し、それぞれの代表値間の位相差と光学系の間の距離に基づいて、自部から人物までの距離を算出することができる。
なお、検出部118は、ソナー、赤外線センサなどの専用のセンサを備えずに撮像部110から入力される画像信号に対して公知の画像認識処理を行い、撮像された画像のうち人物が表れている領域である人物表示領域を特定してもよい。検出部118は、既知の視野と光学系の位置との関係と、画像における人物表示領域の重心点の位置に基づいて、その人物の方向を定めてもよい。画像の中心は、撮像部110の光学軸の方向に対応し、画像の一端は、撮像部110の視野の一端の方向に対応する。
(機能構成)
次に、本実施形態に係る電子機器10の機能構成例について説明する。
図7は、本実施形態に係る電子機器10の機能構成例を示す概略ブロック図である。
プロセッサ116は、記憶部114から所定のプログラムを読み出し、読み出したプログラムを実行して制御部130の機能を実現する。
制御部130は、入力制御部132、出力制御部134、音声検出部136、動作モード制御部138、音声制御部140、トリガー検出部142、およびユーザ検出部144を含んで構成される。
ユーザ検出部144は、検出部118から入力されるユーザ検出情報を逐次に取得し、取得したユーザ検出情報からその時点におけるユーザの検出の有無を判定する。ユーザが検出されるとき、ユーザ検出部144は、ユーザ検出情報からそのユーザの方向を特定し、そのユーザに係る方向を示すユーザ方向情報を入力制御部132に出力する。
ユーザ検出情報にさらにユーザの距離が含まれている場合には、ユーザ検出部144は、そのユーザの距離をユーザ方向情報に含めて入力制御部132に出力してもよい。
受音部108がマイクロホンアレイである場合には、入力制御部132は、受音部108の指向方向をユーザ方向情報が示す方向に定めてもよい。入力制御部132は、定めた方向を目標方向として示す指向性制御信号を受音部108に出力する。受音部108は、入力制御部132から入力される指向性制御信号が示す目標方向に、公知の指向性制御技術を用いて指向方向を制御する。
撮像部110が可変カメラである場合には、入力制御部132は、撮像部110の撮像方向をユーザ方向情報が示す方向に定めてもよい。撮像方向とは、視野の中心、つまり撮像部110の光学軸の方向である。入力制御部132は、定めた方向を目標方向として示す視野制御信号を撮像部110に出力する。撮像部110は、入力制御部132から入力される視野制御信号が示す撮像方向に、公知の視野制御技術を用いて視野を制御する。
ユーザ方向情報に距離の情報がさらに含まれる場合には、入力制御部132は、その距離を撮像距離と定め、撮像方向と撮像距離の組で特定される目標位置を示す視野制御信号を撮像部110に出力してもよい。撮像部110は、入力制御部132から入力される視野制御信号が示す目標位置に設置された被写体の像が撮像される画像のうち予め定めた領域を占めるように、公知の視野制御技術を用いて視野を制御し、かつ、公知のズーム制御技術を用いてズームを制御してもよい。例えば、所定の領域とは中心が画像全体の領域と共通であって、水平方向の幅と垂直方向の高さが画像全体の幅、高さの半分以上の大きさを有する領域であり、撮像部110は、その領域の垂直方向の一端と他端の高さが、ユーザの顔面の垂直方向の一端と他端の高さに接する大きさ、位置に視野を制御する。
なお、入力制御部132は、あるユーザが発話中と判定されるとき、受音部108の指向方向をそのユーザの方向に制御してもよい。そこで、音声検出部136は、上記のように発話区間の開始または終了を示す発話区間信号を入力制御部132に出力する。
入力制御部132は、音声検出部136から発話区間信号が発話区間の開始を示す発話区間信号が入力された後、次に発話区間の終了を示す発話区間信号が入力されるまでの間、ユーザが発話中と判定することができる。
入力制御部132は、受音部108の指向方向をそのユーザの方向に制御する際、その方向に指向方向を固定してもよいし、その方向に指向方向を公知の指向性制御技術を用いて追従させてもよい。
このように受音部108の指向方向を制御することで、他の方向に所在する他のユーザの発話による音声が排除または低減される。そのため、他のユーザとの同時発話による音声認識精度の低下が回避または抑制される。
また、トリガー検出部142が、撮像部110が撮像した画像に基づく第2トリガーを待ち受ける場合には、入力制御部132は、あるユーザが発話中と判定されるとき、その発話区間を含む音声操作受付期間の満了後に開始される第2待機期間の終了まで、撮像部110の撮像方向をそのユーザの方向に制御してもよい。そこで、動作モード制御部138は、上記のように生成した動作モード信号を入力制御部132に出力する。入力制御部132は、動作モード制御部138から音声操作受付モードを示す動作モード信号が入力された後、次に第2トリガー待機モードを示す動作モード信号が入力されるまでの間に、音声検出部136から発話区間信号が発話区間の開始を示す発話区間信号が入力されるとき、あるユーザが発話中と判定することができる。入力制御部132は、次に第2トリガー待機モードを示す動作モード信号が入力され、さらに次に第1トリガー待機モードを示す動作モード信号が入力されるとき、発話区間を含む音声操作受付期間の満了後に開始される第2待機期間の終了を判定することができる。また、入力制御部132は、撮像部110の撮像方向をそのユーザの方向に制御する際、その方向に撮像方向を固定してもよいし、その方向に撮像方向を公知の視野制御技術を用いて追従させてもよい。このように撮像部110の撮像方向を発話から第2待機期間の終了までそのユーザの方向に制御することで、発話したユーザに係る画像に基づく第2トリガー(例えば、ジェスチャー、など)をより確実に取得し、他のユーザに係る画像に基づく第2トリガーの検出による割込みが回避されるので、発話したユーザの第2トリガーを優先して音声操作受付期間の再開が指示される。このことは、第2トリガーの検出に対するFRRが仮に高いとしても許容されうる。
よって、本実施形態に係る電子機器10は、検出部118が検出した人物の方向に受音部108の指向方向を制御することができる。図1に示す例では、ユーザU01が検出される。入力制御部132は、検出したユーザU01の発話期間において受音部108の指向方向をユーザU01の方向に向ける。他方、その他のユーザ、例えば、机TBの前面の椅子CRに座っているユーザU02が発話した音声は収音されない。そのため、ユーザU02の発話情報に所定のトリガーワードが含まれていても音声操作受付期間が開始されない。また、音声操作受付期間において発話情報に所定の音声コマンドが含まれていても、その音声コマンドは認識されないので実行されない。
また、入力制御部132は、音声操作受付期間において検出したユーザU01が発話するとき、そのユーザU01の像が含まれる方向に撮像部110の視野を維持する。トリガー検出部142は、第2待機期間において撮像部110で撮像される画像に対して画像認識処理を行う。そのため、トリガー検出部142は、ユーザU01のジェスチャを第2トリガーとして検出することができる。また、ユーザU02の方向は、カメラの視野に含まれないため、ユーザU02が電子機器10に対してジェスチャを行っても第2トリガーとして検出されない。
(まとめ)
以上に説明したように、上記の実施形態に係る電子機器10は、音声信号を入力する音声入力部(例えば、受音部108)と、制御部130とを備える。制御部130は、第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部ASRに前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる。制御部130は、前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間(例えば、第1待機期間X[秒])を経過するとき音声操作受付期間を終了させる。制御部130は、音声操作受付期間の終了から所定の第2の待機時間(例えば、第2待機期間Y[秒])の経過前に第2のトリガーを検出するとき、音声操作受付期間を再開させる。
この構成によれば、音声操作受付期間の終了から第2の待機期間の経過前に第2のトリガーが検出されるとき、音声操作受付期間が再開されるので、ネットワークを介して音声信号が送信される音声操作受付期間を延長しなくても、第2のトリガーを与えればユーザの発話による操作が可能となる。そのため、第1のトリガーを再度与えることなく、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。
また、電子機器10において、制御部130は、入力される音声信号に対して音声認識を実行して認識される所定の語句(例えば、トリガーワード)を第1のトリガーとして待機する。
この構成によれば、ユーザは第1のトリガーとして所定の語句を発話しなくても、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。
また、電子機器10は、操作を受け付ける操作入力部106を備え、制御部130は、操作入力部が受け付ける所定の操作(例えば、音声操作受付開始ボタンの押下)を第1のトリガーとして待機する。
この構成によれば、ユーザは第1のトリガーとして所定の操作を行わなくても、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。
また、電子機器10は、画像信号を入力する画像入力部(例えば、撮像部110)を備え、制御部130は、画像信号に対して画像認識を実行して認識されるユーザの所定の挙動を前記第2のトリガーとして待機する。
この構成によれば、ユーザは第1のトリガーを与えなくても、所定の挙動を示せば、ネットワークを介した音声信号の送信期間の延長が回避されるので、利便性とプライバシー保護を両立することができる。
また、電子機器10において、制御部130は、その挙動として自器の方向を指示する挙動を待機する。
この構成によれば、ユーザは第1のトリガーを与えなくても、自器の方向を指示する挙動を示すことで、特段の操作を行わずに電子機器10の使用の意思を容易に示すことができる。
また、電子機器10において、自器から所定の範囲内に所在するユーザを検出する検出部118を備え、制御部130は、検出したユーザの方向に、画像信号を入力する音声入力部の指向方向を制御する。
この構成によれば、検出したユーザの方向から到来する音声が主に収音され、他の方向から到来する音声の収音レベルが相対的に低下する。
検出したユーザが発話した音声の発話情報に対する音声認識精度が高くなるため、ユーザの意図に従った操作が可能となる。
また、電子機器10において、制御部130は、ユーザの発話が検出された後、第2の待機時間の経過または第2のトリガーの検出まで、ユーザの方向に画像入力部の撮像方向を制御する。
この構成によれば、発話したユーザの方向に少なくとも第2の待機時間中に第2のトリガーが与えられるまで画像入力部の撮像方向が向けられる。そのため、発話したユーザの所定の挙動を第2のトリガーとして、より確実に取得することができる。
また、電子機器10は、表示部104を備え、制御部130は、音声操作受付期間において表示部104に第1の表示を表示させ、音声操作受付期間の終了から、第2の待機時間の経過または音声操作受付期間の再開までの期間において表示部104に第1の表示とは異なる態様の第2の表示を表示させる。
これにより、ユーザは発話による音声が認識される音声操作受付期間と、第2のトリガーが検出される期間を把握することができる。そのため、電子機器の音声操作を行うために、なすべき行動を直感的に判断することができる。
この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。上述の実施形態において説明した各構成は、矛盾が生じない限り組み合わせることができ、構成の一部が省略されてもよい。
例えば、電子機器10は、図6に示す専用のスマートスピーカに限られず、経路案内装置、ロボット、PC(Personal Computer、PC)、タブレット端末装置、携帯電話機、などの汎用の情報機器などユーザからの発話情報に応じた動作を実現できる機器であればよい。
また、操作入力部106は、他の機器から操作信号を有線または無線で取得できれば、必ずしもユーザの操作を受け付ける部材を備えていなくてもよい。
音声入力部として電子機器10が受音部108を備える場合を例にしたが、他の機器から音声信号を有線または無線で取得できれば、電子機器10は必ずしも受音部108を備えていなくてもよい。
画像入力部として電子機器10が撮像部110を備える場合を例にしたが、他の機器から画像信号を有線または無線で取得できれば、電子機器10は必ずしも撮像部110を備えていなくてもよい。
再生部112は、他の機器に音声信号を送信できれば、必ずしもスピーカを備えていなくてもよい。
検出部118は、他の機器から検出信号を有線または無線で取得できれば、必ずしも人感センサを備えていなくてもよい。
10…電子機器、102…通信部、104…表示部、106…操作入力部、108…受音部、110…撮像部、112…再生部、114…記憶部、116…プロセッサ、118…検出部、130…制御部、132…入力制御部、134…出力制御部、136…音声検出部、138…動作モード制御部、140…音声制御部、142…トリガー検出部、144…ユーザ検出部

Claims (10)

  1. 音声信号を入力する音声入力部と、
    第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させ、
    前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間を経過するとき前記音声操作受付期間を終了させ、
    前記音声操作受付期間の終了から所定の第2の待機時間の経過前に第2のトリガーを検出するとき、前記音声操作受付期間を再開させる制御部と、を備える
    電子機器。
  2. 前記制御部は、
    前記音声信号に対して音声認識を実行し、認識される所定の語句を前記第1のトリガーとして待機するトリガー検出部を備える
    請求項1に記載の電子機器。
  3. 操作を受け付ける操作入力部を備え、
    前記制御部は、
    前記操作入力部が受け付ける所定の操作を前記第1のトリガーとして待機するトリガー検出部を備える
    請求項1または請求項2に記載の電子機器。
  4. 画像信号を入力する画像入力部を備え、
    前記制御部は、
    前記画像信号に対して画像認識を実行して認識されるユーザの所定の挙動を前記第2のトリガーとして待機するトリガー検出部を備える
    請求項1から請求項3のいずれか一項に記載の電子機器。
  5. 前記制御部は、
    前記挙動として自器の方向を指示する挙動を待機する
    請求項4に記載の電子機器。
  6. 自器から所定の範囲内に所在するユーザを検出する検出部を備え、
    前記制御部は、
    前記ユーザの方向に、前記音声入力部の指向方向を制御する
    請求項1から請求項5のいずれか一項に記載の電子機器。
  7. 前記制御部は、
    前記ユーザの発話が検出された後、第2の待機時間の経過または第2のトリガーの検出まで、前記ユーザの方向に、画像信号を入力する画像入力部の撮像方向を制御する
    請求項6に記載の電子機器。
  8. 表示部を備え、
    前記制御部は、
    前記音声操作受付期間において前記表示部に第1の表示を表示させ、
    前記音声操作受付期間の終了から、前記第2の待機時間の経過または前記音声操作受付期間の再開までの期間において前記表示部に前記第1の表示とは異なる態様の第2の表示を表示させる
    請求項1から請求項7のいずれか一項に記載の電子機器。
  9. 音声信号を入力する音声入力部を備える電子機器の制御方法であって、
    第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第1ステップと、
    前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間を経過するとき前記音声操作受付期間を終了させる第2ステップと、
    前記音声操作受付期間の終了から、所定の第2の待機時間の経過前に第2のトリガーを検出するとき、前記音声操作受付期間を再開させる第3ステップと、を有する
    制御方法。
  10. 音声信号を入力する音声入力部を備える電子機器のコンピュータに、
    第1のトリガーを検出するとき、ネットワークを介して接続された外部音声認識部に前記音声信号に対して音声認識を実行させる音声操作受付期間を開始させる第1手順と、
    前記音声操作受付期間の開始と前記音声認識により得られた発話情報に対する処理の終了のうち遅い方から、所定の第1の待機時間を経過するとき前記音声操作受付期間を終了させる第2手順と、
    前記音声操作受付期間の終了から、所定の第2の待機時間の経過前に第2のトリガーを検出するとき、前記音声操作受付期間を再開させる第3手順と、
    を実行させるためのプログラム。
JP2019062617A 2019-03-28 2019-03-28 電子機器、制御方法およびプログラム Active JP6842489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019062617A JP6842489B2 (ja) 2019-03-28 2019-03-28 電子機器、制御方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019062617A JP6842489B2 (ja) 2019-03-28 2019-03-28 電子機器、制御方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020160387A JP2020160387A (ja) 2020-10-01
JP6842489B2 true JP6842489B2 (ja) 2021-03-17

Family

ID=72643217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019062617A Active JP6842489B2 (ja) 2019-03-28 2019-03-28 電子機器、制御方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6842489B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6995273B1 (ja) 2021-02-10 2022-01-14 株式会社エクサウィザーズ 業務支援方法、システム及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3844874B2 (ja) * 1998-02-27 2006-11-15 株式会社東芝 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP6236805B2 (ja) * 2013-03-05 2017-11-29 日本電気株式会社 発話コマンド認識システム
CN107430856B (zh) * 2015-03-23 2021-02-19 索尼公司 信息处理系统和信息处理方法
KR102098633B1 (ko) * 2017-08-22 2020-04-08 네이버 주식회사 인공지능 기기에서의 연속 대화 기능

Also Published As

Publication number Publication date
JP2020160387A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
JP6669162B2 (ja) 情報処理装置、制御方法、およびプログラム
WO2016157658A1 (ja) 情報処理装置、制御方法、およびプログラム
EP3602241B1 (en) Method and apparatus for interaction with an intelligent personal assistant
US20190019513A1 (en) Information processing device, information processing method, and program
WO2021037129A1 (zh) 一种声音采集方法及装置
JP6433903B2 (ja) 音声認識方法及び音声認識装置
KR102056221B1 (ko) 시선인식을 이용한 장치 연결 방법 및 장치
US20080289002A1 (en) Method and a System for Communication Between a User and a System
US20210211823A1 (en) Audio communication system and method
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2000347692A (ja) 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2017102516A (ja) 表示装置、通信システム、表示装置の制御方法、及び、プログラム
WO2019220729A1 (ja) 情報処理装置、情報処理方法、および記録媒体
JP6364735B2 (ja) 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP6842489B2 (ja) 電子機器、制御方法およびプログラム
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP4677593B2 (ja) コミュニケーションロボット
EP3195618B1 (en) A method for operating a hearing system as well as a hearing system
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP2019146118A (ja) コミュニケーション装置、コミュニケーション方法、コミュニケーションプログラム及びコミュニケーションシステム
KR102136461B1 (ko) 스마트 디바이스 및 그 제어 방법
KR102613040B1 (ko) 영상 통화 방법 및 이를 구현하는 로봇
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20240129686A1 (en) Display control apparatus, and display control method
KR102136462B1 (ko) 스마트 디바이스 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210219

R150 Certificate of patent or registration of utility model

Ref document number: 6842489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250