JP2019204025A

JP2019204025A - 電子機器、制御方法、及びプログラム

Info

Publication number: JP2019204025A
Application number: JP2018099859A
Authority: JP
Inventors: 英久森; Hidehisa Mori; 雅春米田; Masaharu Yoneda; 幸司川北; Koji Kawakita; 堀野俊和; Toshikazu Horino; 俊和堀野
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2019-11-28
Also published as: US10748536B2; US20190362714A1

Abstract

【課題】キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減すること。【解決手段】電子機器は、第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理部と、第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、第２の時間以内に特定の言葉が含まれていない場合には第３の処理に移行させない第２処理部と、第３の処理において、特定の機能を起動する第３処理部と、を備える。【選択図】図１

Description

本発明は、電子機器、制御方法、及びプログラムに関する。

ユーザが発話した内容を音声認識し、発話内容に応答したり、発話内容による指示に対応した処理を実行したりする機能（所謂、音声アシスタント）が搭載された電子機器がある（例えば、特許文献１）。

特開２０１４−１７０１８５号公報

上述した音声アシスタントのように特定の機能を利用する場合、キーワード（特定の言葉）を話しかけることによりその機能が起動するものがある。しかしながら、当該キーワードを含む会話をした場合、または当該キーワードに音として似ている言葉が会話の中に含まれていた場合に、音声アシスタントを利用する意思が無いのに起動してしまうことがあった。この場合、ユーザからすると、意図しないタイミングで音声アシスタントなどの機能が反応してしまうことがあった。

本発明は、上記した事情に鑑みてなされたもので、キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減することができる電子機器、制御方法、及びプログラムを提供することを目的の一つとする。

本発明は上記の課題を解決するためになされたものであり、本発明の第１態様に係る電子機器は、第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理部と、前記第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、前記第２の時間以内に特定の言葉が含まれていない場合には前記第３の処理に移行させない第２処理部と、前記第３の処理において、特定の機能を起動する第３処理部と、を備える。

前記第２処理部は、前記第２の処理に移行してから前記第２の時間以内に特定の言葉が含まれていない場合には前記第１の処理に移行させてもよい。

前記第３処理部は、前記第３の処理において、検出された音声に対して音声認識が行われることにより認識された音声の内容に基づく応答処理を実行してもよい。

前記第１の時間及び前記第２の時間の少なくとも一方は地域設定または言語設定に基づいて設定されてもよい。

前記第１の時間及び前記第２の時間の少なくとも一方はユーザにより設定可能であってもよい。

また、本発明の第２態様に係る電子機器における制御方法は、第１処理部が、第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理ステップと、第２処理部が、前記第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、前記第２の時間以内に特定の言葉が含まれていない場合には前記第３の処理に移行させない第２処理ステップと、第３処理部が、前記第３の処理において、特定の機能を起動する第３処理ステップと、を有する。

また、本発明の第３態様に係るプログラムは、コンピュータに、第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理ステップと、前記第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、前記第２の時間以内に特定の言葉が含まれていない場合には前記第３の処理に移行させない第２処理ステップと、前記第３の処理において、特定の機能を起動する第３処理ステップと、を実行させる。

本発明の上記態様によれば、キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減することができる。

実施形態に係る音声アシスタント起動制御処理の概要を示す図。実施形態に係る音声アシスタントシステムの構成の一例を示すシステム図。実施形態に係る端末のハードウェア構成の一例を示すブロック図。実施形態に係る端末の機能構成の一例を示すブロック図。実施形態に係る音声アシスタント起動処理の一例を示すフローチャート。実施形態に係る音声アシスタント起動処理の変形例を示すフローチャート。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。なお、各図において同一部分には同一符号を付している。

本実施形態では、特定の言葉（以下、「キーワード」ともいう）を話しかけることにより、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）に搭載されている音声アシスタントが自動で起動する音声アシスタントシステムを例に説明する。ここで、音声アシスタントとは、ユーザが発話する内容を音声認識することにより、その発話内容に対する応答を出力する機能である。例えば、音声アシスタントは、ユーザの発話内容に応じて、天気情報、ニュース、お店や観光地などの情報を提供したり、動画や音楽などのコンテンツをストリーミング再生したりといったような各種の情報を提供する。例えば、天気情報を例にすると、ユーザの発話内容が「今日の天気は？」の場合には、天気情報の提供サイトを参照して、現在地の今日の天気予報についての回答（例えば、「今日は、晴れの予報です」）が応答される。応答の方法は、音声合成による音声出力であってもよいし、文字や画像による表示出力であってもよいし、その両方であってもよい。

ところで、音声アシスタントを起動させるためのキーワードが一連の会話の中に含まれていた場合、または当該キーワードに音として似ている言葉が会話の中に含まれていた場合などに、音声アシスタントを利用する意思が無いのに、音声アシスタントが起動してしまうことがある。この場合、ユーザの意図しないタイミングで音声アシスタントが反応し、会話や作業が途切れてしまうことになる。また、常に、音声アシスタントによって聞き耳を立てられている感覚がして不快に感じる場合もある。そのため、ユーザが音声アシスタントを使用できないように機能自体を無効（Ｄｉｓａｂｌｅ）に設定してしまい、せっかくＰＣに音声アシスタントが搭載されていても使用されなくなってしまう可能性がある。

そこで、本実施形態では、ユーザが音声アシスタントを利用する意思を持ってキーワードを話しかけた場合に音声アシスタントを起動し、キーワードが一連の会話の中に単に含まれていた場合や、キーワードに音として似ている言葉が会話の中に含まれていた場合には、音声アシスタントが起動してしまうことを抑制するように音声アシスタントの起動を制御する。図１を参照して、この音声アシスタント起動制御処理の概要を説明する。

図１は、本実施形態に係る音声アシスタント起動制御処理の概要を示す図である。音声アシスタント起動制御処理は、「Ｐｈａｓｅ１」、「Ｐｈａｓｅ２」、「Ｐｈａｓｅ３」の順に処理が行われる。「Ｐｈａｓｅ１」は、周囲の音から音声を検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）する処理である。「Ｐｈａｓｅ２」は、「Ｐｈａｓｅ１」で音声が検出された場合にその音声とキーワードとを照合し、キーワードが検出された場合に音声アシスタントを起動させる指示を行う処理（ＶｏｉｃｅＴｒｉｇｇｅｒ）である。「Ｐｈａｓｅ３」は、「Ｐｈａｓｅ２」における音声アシスタントを起動させる指示に応じて、音声アシスタント（ＶｏｉｃｅＥｎｇｉｎｅ）を起動する。また、図示する各ＰｈａｓｅにおけるＰＣの状態は、「Ｐｈａｓｅ１」では音声を聞いている状態（ｌｉｓｔｅｎｉｎｇ）を示し、「Ｐｈａｓｅ２」では音声とキーワードのマッチングを行っている状態（ｔｈｉｎｋｉｎｇ）を示し、「Ｐｈａｓｅ３」では、音声アシスタントが起動して起動音が出力された状態を示している。

ここで、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合には、音声が連続して検出されている中にキーワード（またはキーワードに似ている言葉）が検出される。一方、ユーザが音声アシスタントを利用する意思を持ってキーワードを話しかける場合には、一定時間の沈黙があってから話しかける傾向があるため、一定時間の沈黙（音声なし）の後の一定時間以内にキーワードが検出されることが一般的であると考えられる。また、例え、一連の会話の最後に一定時間の沈黙を挟まずに意思を持ってキーワードを話しかけることがあったとしても、音声アシスタントから反応が無ければ、ユーザは一定時間の沈黙が挟まれた後に再びキーワードを話しかけることが考えられる。

そこで、本実施形態の音声アシスタントシステムは、図示するように「Ｐｈａｓｅ１」では、一定時間の沈黙（音声なし）の後に音声が検出された場合に「Ｐｈａｓｅ２」へ移行させ、さらに「Ｐｈａｓｅ２」に移行してから一定時間以内にキーワードが検出された場合に「Ｐｈａｓｅ３」へ移行させて音声アシスタントを起動させる。また、本実施形態の音声アシスタントシステムは、「Ｐｈａｓｅ２」に移行してから一定時間内以内キーワードが検出されない場合には「Ｐｈａｓｅ１」に戻す。つまり、本実施形態の音声アシスタントシステムは、一旦「Ｐｈａｓｅ２」移行しても、一定時間以上会話が続いた後にキーワードが検出されたとしても、それはユーザが音声アシスタントを利用する意思を持ったものではないと判断してキーワード検出を停止し、「Ｐｈａｓｅ１」に戻すことにより、再び一定時間の沈黙（音声なし）の後に音声が検出されたときにキーワード検出を再開する。

これにより、本実施形態では、会話の中で出てくるキーワードまたはキーワードに似た言葉によって音声アシスタントを起動させてしまうといった誤認識率（ＦＡＲ：ＦａｌｅｓＡｃｃｅｐｔａｎｃｅＲａｔｉｏ）を下げることができ、ユーザの意図したタイミングで適切に音声アシスタントを起動できるようになる。例えば、従来は、「Ｐｈａｓｅ１」で音声が検出されることによって「Ｐｈａｓｅ２」へ一旦移行すると、その後キーワードが検出されるまでキーワード検出が行われていたため、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに音声アシスタントが起動してしまう場合があった。本実施形態では、一定時間の沈黙（音声なし）の後の一定時間以内にキーワードが検出された場合に音声アシスタントを起動させるため、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことを抑制することができる。

以下、本実施形態に係る音声アシスタントシステムの構成について詳細に説明する。
図２は、本実施形態に係る音声アシスタントシステムの構成の一例を示すシステム図である。図示する音声アシスタントシステム１は、複数の端末１０（１０−１、１０−２、・・・１０−Ｎ：Ｎは自然数）と音声認識サーバ２０とを備えている。複数の端末１０のそれぞれは、音声認識サーバ２０とネットワークＮＷを介して通信接続される。

ネットワークＮＷは、例えば、携帯電話網、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙ-ｐｈｏｎｅＳｙｓｔｅｍ）網、ＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）網、専用通信回線網、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＰＳＴＮ（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ；公衆交換電話網）など、またはこれらの組み合わせによって構成される通信ネットワークである。

端末１０は、ユーザが利用するコンピュータ装置であり、例えば、デスクトップＰＣ、ラップトップＰＣ（ノートＰＣ）、タブレットＰＣなどの電子機器である。なお、端末１０は、スマートフォンなどの携帯電話機、スマートスピーカなどのような電子機器であってもよい。端末１０は、音声認識サーバ２０と連携して音声アシスタントの機能を実現する。例えば、図１に示す「Ｐｈａｓｅ３」に移行することにより音声アシスタントが起動すると、端末１０は、ユーザが発話した音声を検出し、検出した音声の音声信号を、ネットワークＮＷを介して音声認識サーバ２０へ送信する。

音声認識サーバ２０は、端末１０から送信された音声信号に対して音声認識を行い、認識結果（即ち、ユーザの発話内容）を示す情報を端末１０へ送信する。端末１０は、音声認識サーバ２０から取得した認識結果を示す情報に基づいて、ユーザの発話内容に応じた応答を出力する。例えば、端末１０は、ユーザの発話内容に応じて、天気情報、ニュース、お店や観光地などの情報を音声または映像で出力したり、動画コンテンツや音楽コンテンツなどをストリーミング再生したりする。

なお、音声認識サーバ２０は、端末１０から送信された音声信号に対して音声認識を行い、ユーザの発話内容に応じた応答を生成して端末１０へ提供してもよい。例えば、音声認識サーバ２０は、ユーザの発話内容に応じて天気情報、ニュース、お店や観光地などの情報を端末１０へ送信してもよいし、動画コンテンツや音楽コンテンツなどのストリーミング再生信号などを送信してもよい。これにより、端末１０は、ユーザの発話内容に応じた応答を音声認識サーバ２０から取得して出力するようにしてもよい。

図３は、本実施形態に係る端末１０のハードウェア構成の一例を示すブロック図である。端末１０は、通信部１１と、表示部１２と、操作入力部１３と、マイク１４と、スピーカ１５と、記憶部１６と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１７とを備えている。これらの構成要素は、バス１８を介して相互に通信可能に接続されている。

通信部１１は、例えば、複数のイーサネット（登録商標）ポートや複数のＵＳＢ等のデジタル入出力ポート、無線ＬＡＮポート等を含んで構成され、ＣＰＵ１７による制御に基づいて、ネットワークＮＷを介して音声認識サーバ２０や他の装置等と通信を行う。

表示部１２は、画像やテキスト等の情報を表示するディスプレイであり、例えば、液晶ディスプレイパネル、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイパネルなどを含んで構成される。操作入力部１３は、例えば、キーボードやマウス、タッチパッドなどの入力装置であり、ユーザの操作入力を受け付け、受け付けた操作入力に基づく操作信号を出力する。なお、操作入力部１３は、タッチパネルとしてディスプレイ（表示部１２）と一体に構成されてもよい。

マイク１４は、周囲の音を検知して音信号に変換して出力する。例えば、マイク１４は、ユーザの発話などの音声が入力されると入力された音声を音声信号に変換して出力する。スピーカ１５は、音声アシスト機能による応答として生成された音声信号などに基づいて、音声を出力する。

記憶部１６は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ-ＯｎｌｙＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ-ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含み、端末１０が処理する各種情報や画像、プログラム等を記憶する。なお、記憶部１６は、端末１０に内蔵されるものに限らず、ＵＳＢ等のデジタル入出力ポート等によって接続された外付け型の記憶装置でもよい。

ＣＰＵ１７は、記憶部１６に記憶されている各種プログラムを実行し、端末１０の各部を制御する。なお、端末１０は、不図示のカメラ、ジャイロセンサ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）受信モジュールなどのハードウェア構成を含んで構成されてもよい。

次に図４を参照して、端末１０の機能構成について説明する。図４は、本実施形態に係る端末１０の機能構成の一例を示すブロック図である。端末１０は、記憶部１６に記憶されているプログラム（例えば、音声アシスタント制御プログラム）をＣＰＵ１７が実行することにより実現される機能構成として、制御部１７０を備えている。図４は、本実施形態に係る端末１０が備える制御部１７０の機能構成の一例を示すブロック図である。制御部１７０は、入力制御部１７１と、出力制御部１７２と、音声検出部１７３と、キーワード検出部１７４と、音声アシスタント部１７５とを備えている。

入力制御部１７１は、操作入力部１３から出力される操作信号を取得する。また、入力制御部１７１は、マイク１４から出力された音信号を取得する。

出力制御部１７２は、表示部１２の表示を制御する。また、出力制御部１７２は、スピーカ１５から出力する音（例えば、音声）を制御する。

音声検出部１７３は、周囲の音から音声（人の声）を検出する。例えば、音声検出部１７３は、入力制御部１７１を介してマイク１４から取得した音信号に対して周波数解析を行うことにより、マイク１４に入力された音の中から音声を検出する。また、音声検出部１７３は、音声が検出されていない状態が一定時間（例えば、２秒）以上続いた後（即ち、一定時間の沈黙（音声なし）の後）に音声を検出した場合にキーワード検出部１７４による処理に移行させる。例えば、音声検出部１７３は、予め設定された第１の判定時間と比較することにより、音声が検出されていない状態が一定時間以上続いたか否かを判定する。この第１の判定時間は、会話が連続していないと判定するため判定閾値として予め設定されている。以下では、この第１の判定時間のことを、「音声検出判定時間」ともいう。

例えば、音声検出部１７３は、「Ｐｈａｓｅ１」（図１参照）において、音声が検出されていない状態が音声検出判定時間以上続いた後に音声を検出した場合、一定時間の沈黙（音声なし）の後に音声を検出したため、「Ｐｈａｓｅ２」（図１参照）に移行させる。一方、音声検出部１７３は、「Ｐｈａｓｅ１」において、連続的（或いは断続的に）に音声を検出しており音声が検出されていない状態が音声検出判定時間以上続かない場合には、音声を検出しても、「Ｐｈａｓｅ２」に移行させないで、音声検出処理を継続する。

キーワード検出部１７４は、音声検出部１７３により音声が検出されていない状態が一定時間以上続いた後に音声が検出された場合、音声検出部１７３により検出された音声にキーワードが含まれているか否かを検出する。例えば、キーワード検出部１７４は、音声検出部１７３により検出された音声と、予め設定されているキーワード（音声アシスタントを起動させるためのキーワード）とを照合することにより、音声にキーワードが含まれているか否かを検出する。

また、キーワード検出部１７４は、音声検出部１７３により音声が検出されていない状態が一定時間以上続いた後に音声が検出されてから（即ち、「Ｐｈａｓｅ１」から「Ｐｈａｓｅ２」に移行してから）一定時間（例えば、５秒）以内にキーワードが含まれていた場合には、音声アシスタントを起動させる指示を行う（即ち、「Ｐｈａｓｅ３」（図１参照）に移行させる）。例えば、キーワード検出部１７４は、予め設定された第２の判定時間と比較することにより、「Ｐｈａｓｅ２」に移行してから一定時間以内にキーワードが含まれていたか否かを判定する。この第２の判定時間は、一定時間以上会話が続いていない（即ち、一連の会話の途中ではない）と判定するため判定閾値として予め設定されている。以下では、この第２の判定時間のことを、「キーワード検出判定時間」ともいう。

例えば、キーワード検出部１７４は、「Ｐｈａｓｅ２」に移行してからキーワード検出判定時間以内にキーワードを検出した場合には、一定時間以内にキーワードが含まれているため、ユーザが音声アシスタントを利用する意思を持ってキーワードを話しかけたと判定する。そして、キーワード検出部１７４は、音声アシスタントを起動させる指示を行い、「Ｐｈａｓｅ３」に移行させる。

一方、キーワード検出部１７４は、「Ｐｈａｓｅ２」に移行してからキーワード検出判定時間以内にキーワードを検出できなかった場合には、一定時間以内にキーワードが含まれていないため、例えそれ以降にキーワードを検出したとしても、一連の会話の途中にたまたまキーワードが含まれたものであると判定する。そのため、キーワード検出部１７４は、音声アシスタントを起動させる指示を行わない（即ち、「Ｐｈａｓｅ３」に移行させない）。例えば、キーワード検出部１７４は、キーワード検出判定時間以内にキーワードを検出できなかった場合には、キーワード検出処理を中止して、「Ｐｈａｓｅ１」に戻してもよい。

音声アシスタント部１７５は、キーワード検出部１７４から音声アシスタントを起動させる指示を受け取ると、音声アシスタントを起動する。例えば、音声アシスタント部１７５は、音声アシスタントを起動するとともに、起動したことを示す起動音または音声を、出力制御部１７２を介してスピーカ１５から出力させる。また、音声アシスタント部１７５は、音声アシスタントを起動すると、マイク１４により検出された音声（ユーザの発話）に対して音声認識を行う。具体的には、音声アシスタント部１７５は、マイク１４により検出された音声の音声信号を、通信部１１を介して音声認識サーバ２０に送信することにより、音声認識サーバ２０で行われた音声認識の認識結果である音声の内容（ユーザの発話内容）を示す情報を取得する。そして、音声アシスタント部１７５は、取得した認識結果に基づく応答処理を実行する。例えば、音声アシスタント部１７５は、ユーザの発話内容に応じて、天気情報、ニュース、お店や観光地などの情報を音声または映像で出力させたり、動画コンテンツや音楽コンテンツなどをストリーミング再生させたりする。

（判定時間の設定例）
次に、音声検出判定時間及びキーワード検出判定時間の設定例を説明する。上述したように、音声検出判定時間は、会話が連続していないと判定するための判定閾値であり、音声検出部１７３が、音声が検出されていない状態が一定時間以上続いたか否か（即ち、一定時間の沈黙（音声なし）があったか否か）を判定する際に使用する判定時間である。一方、キーワード検出判定時間は、一定時間以上会話が続いていないと判定するため判定閾値であり、キーワード検出部１７４が、「Ｐｈａｓｅ２」の処理に移行してから一定時間以内にキーワードが含まれていたか否かを判定する際に使用する判定時間である。

音声検出判定時間は、例えば、２〜５秒に設定されている。さらに、より詳細には、音声検出判定時間は、一例として２秒に設定されてもよい。一方、キーワード検出判定時間は、例えば、５〜１０秒に設定されている。さらに、より詳細には、キーワード検出判定時間は、一例として５秒に設定されてもよい。

なお、上記の例では、音声検出判定時間よりキーワード検出判定時間の方が長く設定されているが、音声検出判定時間よりキーワード検出判定時間の方が短く設定されてもよい。例えば、音声検出判定時間が３〜５秒に設定され、キーワード検出判定時間が２〜４秒に設定されてもよい。さらに、より詳細には一例として、音声検出判定時間が３秒に設定され、キーワード検出判定時間が２秒に設定されてもよい。なお、音声検出判定時間とキーワード検出判定時間との長さが同じに設定されてもよい。

また、会話の速度には地域や言語の種類によって異なることも考えられる。そのため、音声検出判定時間及びキーワード検出判定時間の一方または両方は、ＰＣの地域設定または言語設定に基づいて設定されてもよい。例えば、ＰＣの初期設定で選択する「国」または「言語設定」の選択肢のそれぞれに対して、音声検出判定時間及びキーワード検出判定時間の一方または両方の値がそれぞれ関連付けられていてもよい。そして、ＰＣの初期設定で「国」または「言語設定」が選択されたことに応じて、選択された「国」または「言語設定」に関連付けられている音声検出判定時間及びキーワード検出判定時間の一方または両方が設定されてもよい。

また、会話の速度には個人差もある。そのため、音声検出判定時間及びキーワード検出判定時間の一方または両方は、ユーザにより設定可能としてもよい。例えば、音声検出判定時間及びキーワード検出判定時間の一方または両方は、ユーザが任意の時間を設定可能なようにしてもよいし、予め決められた複数の設定時間の中から任意に選択可能なようにしてもよい。また、音声検出判定時間及びキーワード検出判定時間の両方ともユーザにより設定可能な場合、それぞれ個別に設定可能なようにしてもよいし、両方の設定が組みとなった選択肢の中から選択可能なようにしてもよい。また、時間を設定するのではなく、「早め」、「普通」、「ゆっくり」などのような項目の中からユーザが選択することで、選択された項目に対応して予め設定されている音声検出判定時間及びキーワード検出判定時間が設定されてもよい。

（音声アシスタント起動処理の動作）
次に図５を参照して、端末１０の制御部１７０が、ユーザが発話するキーワードを検出することにより音声アシスタントを起動する音声アシスタント起動処理の動作について説明する。図５は、本実施形態に係る音声アシスタント起動処理の一例を示すフローチャートである。なお、ここでは、端末１０において音声アシスタントの使用の有効／無効（Ｅｎａｂｌe／Ｄｉｓａｂｌｅ）が設定可能な場合には、有効（Ｅｎａｂｌe）に設定されているものとして説明する。

以下のステップＳ１０１〜Ｓ１０５の処理が「Ｐｈａｓｅ１」に相当する。
（ステップＳ１０１）端末１０が起動すると、音声検出部１７３は、入力制御部１７１を介してマイク１４から取得した音信号に基づいて、周囲の音から音声（人の声）を検出する音声検出処理を開始する。そして、ステップＳ１０３の処理に進む。

（ステップＳ１０３）音声検出部１７３は、音声が検出されていない状態が一定時間以上続いたか否かを判定する。そして、音声検出部１７３は、音声が検出されていない状態が一定時間（音声検出判定時間）以上続いていないと判定した場合（ＮＯ）にはステップＳ１０３の処理を継続し、一定時間以上続いたと判定した場合（ＹＥＳ）にはステップＳ１０５の処理に進む。

（ステップＳ１０５）音声検出部１７３は、音声（人の声）を検出したか否かを判定する。そして、音声検出部１７３は、音声（人の声）を検出していないと判定した場合（ＮＯ）にはステップＳ１０３の処理に戻し、音声（人の声）を検出した場合（ＹＥＳ）にはステップＳ１０７の処理に進む。つまり、音声検出部１７３は、一定時間以上の沈黙の後に音声を検出した場合に、ステップＳ１０７の処理に進む（即ち、「Ｐｈａｓｅ２」に移行）。

次のステップＳ１０７〜Ｓ１１１の処理が「Ｐｈａｓｅ２」に相当する。
（ステップＳ１０７）キーワード検出部１７４は、音声検出部１７３により検出された音声と、予め設定されているキーワード（音声アシスタントを起動させるためのキーワード）とを照合（キーワードマッチング）することにより、音声からキーワードを検出する。そして、ステップＳ１０９の処理に進む。

（ステップＳ１０９）キーワード検出部１７４は、上記キーワードマッチングの結果に基づいて、音声検出部１７３により検出された音声からキーワードを検出したか否かを判定する。そして、キーワード検出部１７４は、キーワードを検出していない場合（ＮＯ）にはステップＳ１１１の処理に進み、キーワードを検出した場合（ＹＥＳ）にはステップＳ１１３の処理に進む（即ち、「Ｐｈａｓｅ３」に移行）。

（ステップＳ１１１）キーワード検出部１７４は、ステップＳ１０５において音声が検出されてから（即ち、「Ｐｈａｓｅ２」に移行してから）の経過時間（即ち、キーワードが未検出である時間）が一定時間（キーワード検出判定時間）以内であるか否かを判定する。そして、キーワード検出部１７４は、キーワードが未検出である時間が一定時間以内であると判定した場合（ＹＥＳ）には、ステップＳ１０７の処理に戻してキーワード検出処理を続ける。一方、キーワード検出部１７４は、キーワードが未検出である時間が一定時間を超えたと判定した場合（ＮＯ）には、キーワード検出処理を停止して、ステップＳ１０３の処理に戻す（即ち、「Ｐｈａｓｅ１」に戻す）。

つまり、キーワード検出部１７４は、ステップＳ１０５において音声が検出されてから（即ち、「Ｐｈａｓｅ２」に移行してから）一定時間以内にキーワードを検出した場合、ステップＳ１１３の処理（「Ｐｈａｓｅ３」）に進む。

次のステップＳ１１３の処理が「Ｐｈａｓｅ３」に相当する。
（ステップＳ１１３）音声アシスタント部１７５は、音声アシスタントを起動するとともに、起動したことを示す起動音または音声を、出力制御部１７２を介してスピーカ１５から出力させる。

次に、音声アシスタント起動処理の変形例について説明する。
「Ｐｈａｓｅ１」の音声検出処理において、端末１０の起動後の初回は、音声が検出されていない状態が一定時間（音声検出判定時間）以上続いているか否かに関わらず、音声（人の声）を検出した場合には「Ｐｈａｓｅ２」に移行してもよい。

図６は、本実施形態に係る音声アシスタント起動処理の変形例を示すフローチャートである。図６に示すステップＳ２０１〜Ｓ２１３の各処理は、図５に示すステップＳ１０１〜Ｓ１１３の各処理と対応しており、「Ｐｈａｓｅ１」の処理のみが異なる。
（ステップＳ２０１）端末１０が起動すると、音声検出部１７３は、入力制御部１７１を介してマイク１４から取得した音信号に基づいて、周囲の音から音声（人の声）を検出する音声検出処理を開始する。そして、ステップＳ２０５の処理に進む。

（ステップＳ２０５）音声検出部１７３は、音声（人の声）を検出したか否かを判定する。そして、音声検出部１７３は、音声（人の声）を検出していないと判定した場合（ＮＯ）にはステップＳ２０５の処理を継続し、音声（人の声）を検出した場合（ＹＥＳ）にはステップＳ２０７の処理に進む。つまり、音声検出部１７３は、一定時間以上の沈黙の有無に関わらず、音声を検出した場合には、ステップＳ２０７の処理に進む（即ち、「Ｐｈａｓｅ２」に移行）。

一方、「Ｐｈａｓｅ２」へ一旦移行した後に「Ｐｈａｓｅ１」に戻った場合には、一定時間以上の沈黙の後に音声を検出した場合にステップＳ２０７の処理に進む（即ち、「Ｐｈａｓｅ２」に移行）。具体的には、「Ｐｈａｓｅ２」のステップＳ２１１において、キーワード検出部１７４は、キーワードが未検出である時間が一定時間を超えたと判定した場合（ＮＯ）には、キーワード検出処理を停止して、ステップＳ２０３の処理に戻す（即ち、「Ｐｈａｓｅ１」に戻す）。

（ステップＳ２０３）音声検出部１７３は、音声が検出されていない状態が一定時間以上続いたか否かを判定する。そして、音声検出部１７３は、音声が検出されていない状態が一定時間（音声検出判定時間）以上続いていないと判定した場合（ＮＯ）にはステップＳ２０３の処理を継続し、一定時間以上続いたと判定した場合（ＹＥＳ）にはステップＳ２０５の処理に進む。これにより、「Ｐｈａｓｅ２」へ一旦移行した後に「Ｐｈａｓｅ１」に戻った場合には、音声検出部１７３は、一定時間以上の沈黙の後に音声を検出した場合に、ステップＳ２０７の処理に進む（即ち、「Ｐｈａｓｅ２」に移行）。

（各処理の消費電力について）
次に、「Ｐｈａｓｅ１」、「Ｐｈａｓｅ２」、「Ｐｈａｓｅ３」の各処理の消費電力について説明する。「Ｐｈａｓｅ１」、「Ｐｈａｓｅ２」、「Ｐｈａｓｅ３」の各処理では、処理が異なるため消費電力が異なる。「Ｐｈａｓｅ１」及び「Ｐｈａｓｅ２」は、音声アシスタントが起動していないため「Ｐｈａｓｅ３」よりは消費電力が低いが、「Ｐｈａｓｅ１」と「Ｐｈａｓｅ２」とでも消費電力は異なる。「Ｐｈａｓｅ１」が音声検出処理であるのに対して「Ｐｈａｓｅ２」では音声検出処理に加えてキーワード検出処理が行われるため、「Ｐｈａｓｅ１」より「Ｐｈａｓｅ２」の方が消費電力は高くなる。一例として、「Ｐｈａｓｅ１」の消費電力が５００μＷ程度であるのに対し、「Ｐｈａｓｅ２」の消費電力は７０ｍＷ程度になる。よって、本実施形態において、「Ｐｈａｓｅ２」において、一定時間以内にキーワードが検出されない場合に「Ｐｈａｓｅ１」に戻すことで、「Ｐｈａｓｅ２」を継続する場合よりも消費電力を低減することができる。

以上説明したように、本実施形態に係る端末１０（電子機器の一例）は、音声検出部１７３（第１処理部の一例）と、キーワード検出部１７４（第２処理部の一例）と、音声アシスタント部１７５（第３処理部の一例）とを備えている。音声検出部１７３は、「Ｐｈａｓｅ１」（第１の処理）において、周囲の音から音声を検出するとともに、音声が検出されていない状態が一定時間（第１の判定時間、音声検出判定時間）以上続いた後に音声を検出した場合に「Ｐｈａｓｅ２」（第２の処理）に移行させる。キーワード検出部１７４は、「Ｐｈａｓｅ２」において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、「Ｐｈａｓｅ２」に移行してから一定時間（第２の判定時間、キーワード検出判定時間）以内にキーワード（特定の言葉）が含まれていた場合には「Ｐｈａｓｅ３」（第３の処理）に移行させ、一定時間（第２の判定時間、キーワード検出判定時間）以内にキーワードが含まれていない場合には「Ｐｈａｓｅ３」に移行させない。音声アシスタント部１７５は、「Ｐｈａｓｅ３」において、音声アシスタント（特定の機能の一例）を起動する。例えば、音声アシスタント部１７５は、検出された音声に対して音声認識が行われることにより認識された音声の内容に基づく応答処理を実行する。

これにより、端末１０は、一定時間の沈黙（音声なし）の後の一定時間以内にキーワードが検出された場合に音声アシスタントを起動させるため、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことを抑制できる。よって、端末１０は、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことを抑制することができる。したがって、端末１０は、キーワードを話しかけることにより音声アシスタントを実行させる際の誤認識率を低減することができる。また、端末１０は、ユーザの意図しないタイミングで音声アシスタントが反応してしまうことを抑制できるため、会話や作業が途切れてしまうことを低減できるとともに、常に音声アシスタントによって聞き耳を立てられている感覚から解放され、音声アシスタントの使用に対する不快感の解消に繋げることができる。

また、キーワード検出部１７４は、「Ｐｈａｓｅ２」に移行してから一定時間（第２の判定時間、キーワード検出判定時間）以内にキーワードが含まれていない場合には「Ｐｈａｓｅ１」に移行させてもよい。

これにより、端末１０は、「Ｐｈａｓｅ１」において音声を検出したことにより「Ｐｈａｓｅ２」に移行してキーワード検出を開始しても、一定時間以内にキーワードが検出されない場合にはキーワード検出を停止して「Ｐｈａｓｅ１」に戻すため、キーワードが検出するまで「Ｐｈａｓｅ２」のキーワード検出処理を継続する場合に比べて、消費電力を低減することができる。

なお、キーワード検出部１７４は、「Ｐｈａｓｅ２」に移行してから一定時間（第２の判定時間、キーワード検出判定時間）以内にキーワードが含まれていない場合には、「Ｐｈａｓｅ１」に移行させずに、その後キーワードが検出されたとしても「Ｐｈａｓｅ２」のままとしてもよい。この場合、「Ｐｈａｓｅ１」に移行させることによる低消費電力化の効果はないが、「Ｐｈａｓｅ３」には移行させないことにより、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに音声アシスタントが起動してしまうことは同様に抑制できる。また、この場合には、音声検出部１７３により音声が検出されていない状態が一定時間（第１の判定時間、音声検出判定時間）以上続いたことが検出された場合に、キーワード検出部１７４は、「Ｐｈａｓｅ２」に移行してからカウントする時間をリセットして、再び、一定時間（第２の判定時間、キーワード検出判定時間）以内にキーワードが含まれているか否かを判定してもよい。

また、上記音声検出判定時間及びキーワード検出判定時間の少なくとも一方は、地域設定または言語設定に基づいて設定されてもよい。これにより、端末１０は、地域性や言語の特性によって会話の速度が異なる場合でも、キーワードを適切に検出することができる。

また、上記音声検出判定時間及びキーワード検出判定時間の少なくとも一方は、ユーザにより設定可能な構成としてもよい。これにより、端末１０は、会話の速度に個人差がある場合でも、使用するユーザが自身の会話の速度に合わせて設定することが可能であるため、キーワードを適切に検出することができる。

なお、上記実施形態では、音声認識サーバ２０を備えたクラウド環境において音声認識処理が行われる構成例を説明したが、端末１０が音声認識処理を行う機能を備えてもよい。

また、上記実施形態では、「Ｐｈａｓｅ３」で起動する機能が音声アシスタントである例を説明したが、音声アシスタントに限られるものではない。例えば、「Ｐｈａｓｅ３」で起動する機能は、特定のアプリケーションソフトや、他のＰＣの電源スイッチ、通信機能を有する家電（所謂、ＩＯＴ家電、スマート家電）の電源スイッチなど、様々な機能にも適用することができる。よって、端末１０は、一定時間の沈黙（音声なし）の後の一定時間以内にキーワードが検出された場合に特定の機能を起動させるため、キーワードが一連の会話の中に含まれていた場合、またはキーワードに音として似ている言葉が会話の中に含まれていた場合などに、ユーザが利用する意思が無いのに特定の機能が起動してしまうことを抑制できる。よって、端末１０は、ユーザが利用する意思が無いのに特定の機能が起動してしまうことを抑制することができる。したがって、端末１０は、キーワードを話しかけることにより特定の機能を実行させる際の誤認識率を低減することができる。

なお、上述した端末１０は、内部にコンピュータシステムを有している。そして、上述した端末１０が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した端末１０が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ−ＲＯＭ等の非一過性の記録媒体であってもよい。

また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末１０が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上述した実施形態における端末１０が備える各機能の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１音声アシスタントシステム、１０端末、１１通信部、１２表示部、１３操作入力部、１４マイク、１５スピーカ、１６記憶部、１７ＣＰＵ、２０音声認識サーバ、１７０制御部、１７１入力制御部、１７２出力制御部、１７３音声検出部、１７４キーワード検出部、１７５音声アシスタント部

Claims

第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理部と、
前記第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、前記第２の時間以内に特定の言葉が含まれていない場合には前記第３の処理に移行させない第２処理部と、
前記第３の処理において、特定の機能を起動する第３処理部と、
を備える電子機器。
前記第２処理部は、
前記第２の処理に移行してから前記第２の時間以内に特定の言葉が含まれていない場合には前記第１の処理に移行させる、
請求項１に記載の電子機器。
前記第３処理部は、
前記第３の処理において、検出された音声に対して音声認識が行われることにより認識された音声の内容に基づく応答処理を実行する、
を備える請求項１または請求項２に記載の電子機器。
前記第１の時間及び前記第２の時間の少なくとも一方は地域設定または言語設定に基づいて設定される、
請求項１から請求項３のいずれか一項に記載の電子機器。
前記第１の時間及び前記第２の時間の少なくとも一方はユーザにより設定可能である、
請求項１から請求項４のいずれか一項に記載の電子機器。
電子機器における制御方法であって、
第１処理部が、第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理ステップと、
第２処理部が、前記第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、前記第２の時間以内に特定の言葉が含まれていない場合には前記第３の処理に移行させない第２処理ステップと、
第３処理部が、前記第３の処理において、特定の機能を起動する第３処理ステップと、
を有する制御方法。
コンピュータに、
第１の処理において、周囲の音から音声を検出するとともに、音声が検出されていない状態が第１の時間以上続いた後に音声を検出した場合に第２の処理に移行させる第１処理ステップと、
前記第２の処理において、周囲の音から検出された音声に特定の言葉が含まれているか否かを検出するとともに、前記第２の処理に移行してから第２の時間以内に特定の言葉が含まれていた場合には第３の処理に移行させ、前記第２の時間以内に特定の言葉が含まれていない場合には前記第３の処理に移行させない第２処理ステップと、
前記第３の処理において、特定の機能を起動する第３処理ステップと、
を実行させるためのプログラム。