JP2022018605A

JP2022018605A - 電子機器及び音声起動方法

Info

Publication number: JP2022018605A
Application number: JP2020121823A
Authority: JP
Inventors: 勝浩鶴田; Katsuhiro Tsuruta
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2022-01-27
Anticipated expiration: 2040-07-16
Also published as: JP7417488B2

Abstract

【課題】音声起動方式において誤起動を抑制する。【解決手段】ユーザによるキーワードの発話を契機に所定機能（アシスタント機能）を起動させることが可能な電子機器において、ユーザによりキーワード又はキーワードに関連するリレイションワードが発話されたか否かを検出するワード検出部と、ワード検出部の検出結果に基づき所定機能の起動を制御する起動制御部と、を備える。起動制御部は、キーワードの発話が検出されたとき、その検出前においてリレイションワードの発話が検出されたかに応じ、所定機能の起動の是非を判断する（ステップＳ１３～Ｓ１８）。【選択図】図７

Description

本発明は、電子機器及び音声起動方法に関する。

ユーザの発話により操作が可能な装置が提案されている。このような装置では音声で起動する方式（音声起動方式）が採用されている。ユーザは、まず予め登録されたキーワードを発話し、続けて要求内容（例えば天気情報を知りたいという要求内容）を発話する。音声起動方式が採用された装置では、キーワードの発話を受けて必要な機能が起動し、起動した機能によりユーザの要求に応じた応答（例えば天気情報のユーザへの通知）を行う。

特開２０１９－２０４０２５号公報特開２００４－３０１８７５号公報

音声起動方式は利便性の高い方式である。しかしながら、ユーザが装置の機能を利用する意思がないのに、キーワードが一連の会話の中で発話されることもあり、この場合、ユーザが意図しないタイミングで装置の機能が起動する（即ち誤起動が生じる）。誤起動の具体例は後述される。誤起動の発生はユーザにとって煩わしく、抑制されるべきである。

本発明は、音声起動方式に関わる誤起動の抑制に寄与する電子機器及び音声起動方法を提供することを目的とする。

本発明に係る電子機器は、ユーザによるキーワードの発話を契機に所定機能を起動させることが可能な電子機器において、ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出部と、前記ワード検出部の検出結果に基づき前記所定機能の起動を制御する起動制御部と、を備え、前記起動制御部は、前記キーワードの発話が検出されたとき、その検出前において前記リレイションワードの発話が検出されたかに応じ、前記所定機能の起動の是非を判断する構成（第１の構成）である。

上記第１の構成に係る電子機器において、前記起動制御部は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合、前記リレイションワード及び前記キーワードの発話間隔に基づき、前記所定機能の起動の是非を判断する構成（第２の構成）であっても良い。

上記第２の構成に係る電子機器において、前記起動制御部は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合、前記発話間隔が所定の判定時間より短ければ前記所定機能を非起動とする一方、前記発話間隔が前記判定時間より長ければ前記所定機能を起動する構成（第３の構成）であっても良い。

上記第１～第３の構成の何れかに係る電子機器において、前記起動制御部は、前記リレイションワードの発話が検出されずに前記キーワードの発話が検出された場合、前記所定機能を起動する構成（第４の構成）であっても良い。

上記第１～第４の構成の何れかに係る電子機器において、前記起動制御部は、前記キーワードの発話が検出された場合において前記所定機能を非起動としたとき、ユーザに対し所定の非起動通知を行う構成（第５の構成）であっても良い。

上記第１～第５の構成の何れかに係る電子機器において、前記キーワードを格納するとともに、前記キーワードに関連するワードとして予め設定された１以上のワードを前記リレイションワードとして格納するワード格納部を更に備えた構成（第６の構成）であっても良い。

本発明に係る音声起動方法は、ユーザによるキーワードの発話を契機に所定機能を起動させるための音声起動方法において、ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出ステップと、前記ワード検出ステップでの検出結果に基づき前記所定機能の起動を制御する起動制御ステップと、を備え、前記起動制御ステップでは、前記キーワードの発話が検出されたとき、その検出前において前記リレイションワードの発話が検出されたかに応じ、前記所定機能の起動の是非を判断する構成（第７の構成）である。

本発明によれば、音声起動方式に関わる誤起動の抑制に寄与する電子機器及び音声起動方法を提供することが可能となる。

本発明の実施形態に係るアシスタントシステムの全体構成図である。本発明の実施形態に係り、アシスタント装置が車両に搭載される様子を示す図である。本発明の実施形態に係り、キーワード及びリレイションワードの例を示す図である。本発明の実施形態に係り、アシスタント機能の概要を示す図である。本発明の実施形態に係り、ユーザ間の会話の例を示す図である。本発明の実施形態に係り、ユーザ間の会話の他の例を示す図である。本発明の実施形態に属する第１実施例に係り、アシスタントシステムの動作フローチャートである。本発明の実施形態に属する第１実施例に係り、リレイションワードの発話検出後にキーワードの発話が検出されたときのアシスタント機能の起動制御を示す図である。本発明の実施形態に属する第１実施例に係り、リレイションワード及びキーワードの発話間隔の説明図である。本発明の実施形態に属する第１実施例に係り、リレイションワードの発話検出を経ずにキーワードの発話が検出されたときのアシスタント機能の起動制御を示す図である。

以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。

図１は本発明の実施形態に係るアシスタントシステムＳＹＳの全体構成図である。アシスタントシステムＳＹＳは、ユーザの音声により操作が可能な音声操作システムの一種であり、アシスタント装置１とサーバ装置４０とで構成される。アシスタント装置１は、電子機器１０、マイクロホン２０及びスピーカ３０を備える。本実施形態では、図２に示す如くアシスタント装置１が車両ＣＲに搭載されることを想定する。車両ＣＲとして路面上を走行可能な車両（自動車等）が主に想定されるが、車両ＣＲは任意の種類の車両であって良い。

電子機器１０に対してマイクロホン２０及びスピーカ３０が接続される。図２では、アシスタント装置１が１つの四角形として表現されているが、実際には、電子機器１０、マイクロホン２０及びスピーカ３０が車両ＣＲの適所に配置される。マイクロホン２０及びスピーカ３０の内、任意の一方、又は、双方は、電子機器１０に内蔵されていても良い。

電子機器１０は、ユーザと対話したり、対話を通じて車両ＣＲに搭載された様々な機器を制御したりすることができる。本実施形態において、ユーザとは車両ＣＲの乗員を指す。ユーザとしての乗員は、車両ＣＲの運転操作を行う運転手であっても良いし、運転手以外の同乗者であっても良い。ユーザが発話を行う際、ユーザは発話者となる。以下、発話とは、特に記述なき限りユーザの発声による発話を指す。

マイクロホン２０は、ユーザの発話内容を収音し、収音した音を音声信号に変換して出力する。マイクロホン２０の出力音声信号は電子機器１０（後述の音声認識部１２）に入力される。スピーカ３０は、電子機器１０（後述の音声合成部１６）から供給される音声信号を音声としてユーザに出力する。

電子機器１０は、システム制御部１１、音声認識部１２、ワード検出部１３、ワード格納部１４、起動制御部１５、音声合成部１６及び通信部１７を備える。電子機器１０において、音声認識部１２、ワード検出部１３、ワード格納部１４、起動制御部１５、音声合成部１６及び通信部１７は、システム制御部１１を介して互いに接続されており、符号１１～１７によって参照される計７つのブロックの間で任意の信号及び情報のやり取りが可能となっている。

音声認識部１２は、マイクロホン２０の出力音声信号に基づきユーザの発話内容を認識することで、ユーザの発話内容をテキストデータ（文字列データ）に変換する。この変換により生成される、ユーザの発話内容を示すテキストデータを、発話テキストデータと称する。ワード検出部１３は、発話テキストデータに基づき、ユーザが所定のキーワードの発話を行ったか否か及び所定のリレイションワードの発話を行ったか否かを検出する。ワード格納部１４にはワード検出部１３にて検出の対象となるワードが格納される。即ち、ワード格納部１４にはキーワード及びリレイションワードが格納される。ユーザがキーワードを発話することで発話テキストデータにキーワードが含まれるとき、キーワードの発話があったと判断され、ユーザがリレイションワードを発話することで発話テキストデータにリレイションワードが含まれるとき、リレイションワードの発話があったと判断される。発話テキストデータにキーワードが含まれるとは、厳密には発話テキストデータにより表される文字列の中にキーワードが含まれることを指す。同様に、発話テキストデータにリレイションワードが含まれるとは、厳密には発話テキストデータにより表される文字列の中にリレイションワードが含まれることを指す。

キーワードは予め電子機器１０に登録された特定の言葉である。キーワードとして複数のキーワードがワード格納部１４に格納されていても良く、この場合、ワード格納部１４に格納された複数のキーワードの内、任意の何れかのキーワードがユーザにより発話されることで発話テキストデータに含まれるとき、ワード検出部１３によりキーワードの発話があったと検出される。但し、以下では、ワード格納部１４に格納されるキーワードの個数は１であるとする。

ワード格納部１４には複数のリレイションワードが格納される。ワード格納部１４に格納された複数のリレイションワードの内、任意の何れかのリレイションワードがユーザにより発話されることで発話テキストデータに含まれるとき、ワード検出部１３によりリレイションワードの発話があったと検出される。但し、ワード格納部１４に格納されるリレイションワードの個数は１であっても良い。

キーワードの同義語がリレイションワードとしてワード格納部１４に格納されていて良く、これに加えて又はこれに代えて、キーワードの類義語がリレイションワードとしてワード格納部１４に格納されていて良い。更に、キーワードの共起語がリレイションワードとしてワード格納部１４に格納されていて良い。リレイションワードとしての共起語とは、キーワードと共に使用される確率が高いワード（言葉）を指す。キーワードの同義語及び類似語は、キーワードの共起語に含まれうる。何れにせよ、キーワードに関連するワードとして予め設定された１以上のワード（言葉）がリレイションワードとしてワード格納部１４に格納される。

例えば、或る特定の会社においてブランド名「イクリプス」を冠する商品群が販売及び製造されていて、当該商品群にカーナビゲーション装置、ドライブレコーダ装置及びカーオーディオ装置が含まれている場合を考える。この場合において、当該商品群の１つに電子機器１０が含まれていて、キーワードが上記ブランド名と同じ「イクリプス」である場合、図３に示す如く、カーナビゲーション装置の呼び名又は略称である「カーナビ」及び「ナビ」と、特定の会社（ここでは本願の出願人である「株式会社デンソーテン」）の呼び名又は略称である「デンソーテン」及び「テン」と、ドライブレコーダ装置の呼び名又は略称である「ドライブレコーダ」及び「ドラレコ」と、オーディオ一体型ナビケーション装置の呼び名である「ＡＶＮ」（登録商標）とが、計７つのリレイションワードとして含まれる。勿論、６つ未満のリレイションワード又は８つ以上のリレイションワードを設定しておくことも可能である。

電子機器１０においては、発話者によるキーワードの発話を契機に所定機能を起動させる（キーワードの発話があっても所定機能が起動しないケースも有り；詳細は後述）。システム制御部１１は所定機能を実現可能に構成されている。この際、システム制御部１１はサーバ装置４０と協働して所定機能を実現して良い。但し、サーバ装置４０と協働することなく、システム制御部１１単体で所定機能が実現されることがあっても良い。

起動制御部１５は、ワード検出部１３によるキーワードの発話の有無の検出結果及びリレイションワードの発話の有無の検出結果に基づき所定機能の起動を制御する（換言すれば起動の是非を判断する）。この制御方法については後述される。音声合成部１６は、システム制御部１１から供給されたテキストデータを音声信号に変換し、得られた音声信号をスピーカ３０に供給することで、スピーカ３０から当該テキストデータを音声として出力させる。通信部１７は所定の通信網を介してサーバ装置４０と無線接続され、サーバ装置４０と双方向通信を行う。サーバ装置４０はインターネット網に接続されたコンピュータ装置である。サーバ装置４０はインターネット網に接続された任意の他のコンピュータ装置から様々な情報の提供を受けることができる。

上述の所定機能は任意の機能であって良いが、ここでは、所定機能は以下のアシスタント機能であるとする。

アシスタント機能は、音声操作機能とも称されるべき機能であり、ユーザの発話内容を認識して、ユーザの発話内容に対する応答（以下、アシスタント応答と称する）を行う機能である。このアシスタント機能の起動により、ユーザは電子機器１０を音声操作することができる。アシスタント応答は、ユーザに対する音声応答及び表示応答の少なくとも一方を含んでいて良い。音声応答は、音声合成部１６を用いて実現されるスピーカ３０からの音声出力により実現される。表示応答は、電子機器１０に接続又は内蔵された表示画面（不図示）での文字や画像の表示により実現される。発話者が運転操作の従事などにより表示画面を見がたいことも考えられるため、アシスタント応答は少なくとも音声応答を含んでいると良い。

例えば、アシスタント応答では、キーワードに続くユーザの発話内容に応じて、天候情報、ニュース、店舗又は観光地などの情報を音声応答又は表示応答によりユーザに提供したり、音楽又は動画像などのコンテンツを音声応答又は表示応答によりユーザに提供する。天候情報を例にとれば、図４に示す如く、キーワード発話によるアシスタント機能の起動後、ユーザから「今日の天気を教えて」という発話があった場合、サーバ装置４０により天候情報の提供サイトから車両ＣＲの現在地の天候情報が取得され、取得された天候情報が通信部１７を通じてシステム制御部１１に送られる。システム制御部１１は、アシスタント応答として、取得された天候情報（例えば「今日は、終日、晴れの予報です」）をユーザに通知する。この通知は、音声応答により実現される、或いは、音声応答及び表示応答により実現される。

システム制御部１１がナビゲーション動作を実行可能に構成されている場合、アシスタント応答は、例えば、ナビゲーション動作における目的地の設定を含んでいて良い。ナビゲーション動作では、車両ＣＲの現在地から目的地までの走行予定ルートを設定し、地図画像上に走行予定ルートを重畳した画像を上記表示画面に表示する。走行予定ルートは、目的地に至るまでに車両ＣＲが走行する予定のルートを表しており、車両ＣＲの運転者は走行予定ルートに沿って車両ＣＲが走行するよう運転操作を行うことが支援される。例えば、キーワード発話によるアシスタント機能の起動後、ユーザから「ＡＢＣ市役所を目的地に設定して」という発話があった場合、サーバ装置４０により地図情報の提供サイトからＡＢＣ市役所の位置情報が取得され、取得された位置情報が通信部１７を通じてシステム制御部１１に送られる。システム制御部１１は、アシスタント応答として、取得された位置情報に基づきナビゲーション動作における目的地を設定すると共にＡＢＣ市役所を目的地に設定したナビゲーション動作を開始し、この際、ＡＢＣ市役所を目的地に設定したことをユーザに通知する。この通知は、音声応答により実現される、或いは、音声応答及び表示応答により実現される。

システム制御部１１は制御対象機器の制御を行う機能を有していても良く、この場合、アシスタント応答は制御対象機器の制御を含み得る。制御対象機器は、車両ＣＲに搭載された機器（但し電子機器１０、マイクロホン２０及びスピーカ３０とは異なる）であって、システム制御部１１により動作が制御される機器である。例えば、車外を照らす車外用照明装置（ヘッドライト等）、車室内を照らす車内用照明装置、車両ＣＲのフロントガラスに付着した水や汚れを払拭するためのワイパー、車室内の温度及び湿度を調整するエアコンディショナが、制御対象機器に該当しうる。ワイパーを例にとれば、キーワード発話によるアシスタント機能の起動後、ユーザから「ワイパーをオンにして」という発話があった場合、システム制御部１１は、アシスタント応答として、「了解しました」という音声出力による音声応答を行うと共に（この際、表示応答も行っても良い）、ワイパーを作動させる。制御対象機器の制御そのものは、サーバ装置４０の機能によることなく、システム制御部１１単体で実現される。

ところで、ユーザがアシスタント機能を利用する意思がないのに、アシスタント機能を起動させるためのキーワードが一連の会話の中で発話されることがある。この場合、何らかの対応策を講じなかったとしたならば、ユーザが意図しないタイミングでアシスタント機能が起動する。このような起動を誤起動と称する。

図３に示すキーワード及びリレイションワードが採用される場合を考えて誤起動に関わる具体例を挙げる。例えば、図５に示す如く、第１ユーザが「このカーナビのブランドは何？」と発話し、これに返答する形で第２ユーザが「イクリプスです」と発話する第１ケースでは、第２ユーザによりキーワードの発話が行われているが、そのキーワードの発話は一連の会話の中での発話であるので、当該発話を契機にアシスタント機能を起動させるべきでは無い。また例えば、図６に示す如く、一連の会話の中で第１ユーザが第２ユーザに向け「このカーナビのブランド名はイクリプスといいます」という文章の発話を行う第２ケースもあり、この第２ケースでもアシスタント機能を起動させるべきでは無い。

ここで、一連の会話の中でキーワードが発話される際には、リレイションワードの発話も行われやすい点が注目される。上記第１及び第２ケースにおいては、キーワードの発話の前にリレイションワードの発話がある。つまり、キーワードの発話の前にリレイションワードの発話がある場合、当該キーワードの発話は一連の会話の中での発話である可能性が高い。

これに着眼し、起動制御部１５は、キーワードの発話が検出されたとき、キーワードの発話の検出前においてリレイションワードの発話が検出されたかに応じ、所定機能（ここではアシスタント機能）の起動の是非を判断する。リレイションワードの発話の検出後にキーワードの発話が検出されたときにおいて所定機能の起動を止めることが可能に起動制御部１５を構成しておけば良い。

これにより、第１及び第２ケースのような一連の会話の中でキーワードが発話されるケースにおいて、アシスタント機能を非起動とする制御が可能となる。つまり、誤起動を抑制することが可能となり、結果、ユーザの音声操作性の向上が図られる。誤起動抑制を促進させるためにも、キーワードと共に会話の中で使用される可能性が高い言葉をリレイションワードとしてワード格納部１４に設定及び格納しておくと良い。

以下、アシスタントシステムＳＹＳに関わる具体的な動作例、応用技術又は変形技術を、複数の実施例の中で説明する。本実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の各実施例に適用される。各実施例において、上述の事項と矛盾する事項がある場合には、各実施例での記載が優先されて良い。また矛盾無き限り、以下に示す複数の実施例の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる（即ち複数の実施例の内の任意の２以上の実施例を組み合わせることも可能である）。

＜＜第１実施例＞＞
アシスタントシステムＳＹＳの第１実施例を説明する。図７に、ユーザによるキーワード又はリレイションワードの発話があった場合にアシスタント機能が起動又は非起動とされるまでの、アシスタントシステムＳＹＳの動作の流れを示す。

まずステップＳ１１において、ユーザの発話に対し音声認識部１２により発話テキストデータが生成される。発話テキストデータが生成されるとステップＳ１２に進む。ステップＳ１２において、ワード検出部１３は、発話テキストデータをワード格納部１４に格納されたキーワード及びリレイションワードと比較することで、発話テキストデータにキーワード又はリレイションワードが含まれているか否かを判断する、即ちユーザによるキーワード又はリレイションワードの発話の有無を検出する。

ステップＳ１２に続くステップＳ１３ではステップＳ１２での判断結果がチェックされる。ユーザによるリレイションワードの発話が検出された場合にはステップＳ１４に進む一方、そうでない場合にはステップＳ１７に進む。ステップＳ１７においてもステップＳ１２での判断結果がチェックされる。ユーザによるリレイションワードの発話が検出されることなくキーワードの発話が検出された場合にはステップＳ１７からステップＳ１８に進む一方、リレイションワード及びキーワードの何れの発話も検出されなかった場合にはステップＳ１７からステップＳ１１に戻る。尚、ステップＳ１３～Ｓ１８の各処理は起動制御部１５により実行される。但し、ステップＳ１３及びＳ１７の処理はワード検出部１３により実行されると考えても良い。

ステップＳ１４では、ユーザによるリレイションワードの発話の検出後にキーワードの発話が検出されたか否かがチェックされる。リレイションワードの発話の検出後にキーワードの発話が検出された場合には、ステップＳ１４からステップＳ１５に進む。リレイションワードの発話の検出後にキーワードの発話が検出されなかった場合にはステップＳ１１に戻る。リレイションワードの発話の検出後、所定のリセット時間以上、キーワードの発話が検出されなかった場合には、ステップＳ１４からステップＳ１１に戻ると良い。尚、リセット時間は後述の判定時間Ｔ_ＲＥＦ（図８参照）よりも長い。

ステップＳ１５において、起動制御部１５により所定の非起動判定条件の成否が判断され、非起動判定条件が成立する場合にはステップＳ１５からステップＳ１６に進む一方で、非起動判定条件が成立しない場合にはステップＳ１５からステップＳ１８に進む。非起動判定条件については後述される。

起動制御部１５は、ステップＳ１６においてアシスタント機能を起動させず、ステップＳ１８においてアシスタント機能を起動させる。図７には特に示さないが、ステップＳ１６に進んだ後にはステップＳ１１に戻って上述の動作を繰り返すことができ、ステップＳ１８に進んだ後は、キーワードに続くユーザの発話に対してアシスタント応答を行ってからステップＳ１１に戻り上述の動作を繰り返すことができる。

図８等を参照して、ステップＳ１６又はＳ１８に至る発話パターンを説明する。図８には、第１発話パターンによるユーザの発話の流れが示されている。任意の自然数ｉに関し、時刻ｔ_{Ａ（ｉ＋１）}は時刻ｔ_Ａｉよりも後の時刻であるとする。第１発話パターンではリレイションワードの発話の後にキーワードの発話が行われている。第１発話パターンにおいて、リレイションワードの発話とキーワードの発話は、図５の第１ケースの如く、別々のユーザの発話であっても良いし、図６の第２ケースの如く、一人のユーザの発話であっても良い。任意のワードの発話には、当然、有限の時間がかかる。第１発話パターンでは、時刻ｔ_Ａ１から時刻ｔ_Ａ２にかけてリレイションワードの発話が行われ、その後、時刻ｔ_Ａ３から時刻ｔ_Ａ４にかけてキーワードの発話が行われる。即ち、時刻ｔ_Ａ１及びｔ_Ａ２間の期間５１１はリレイションワードの発話期間であり、時刻ｔ_Ａ３及びｔ_Ａ４間の期間５１２はキーワードの発話期間である。第１発話パターンでは、電子機器１０においてリレイションワードの発話の検出後にキーワードの発話が検出されることになるので、図７のステップＳ１４を経由してステップＳ１５に至り、非起動判定条件の成否が判定される。

第１実施例では、非起動判定条件の成否が発話間隔に基づいて判定される。ここにおける発話間隔とは、リレイションワードの発話の後にキーワードの発話があった場合における、リレイションワードの発話とキーワードの発話との時間間隔を指す。ワード検出部１３又は起動制御部１５により発話間隔が検出され、検出された発話間隔（即ち発話間隔の検出値）を記号“Ｔ_ＤＥＴ”により表す。発話間隔は、時刻ｔ_Ａ１及びｔ_Ａ３間の間隔であると考えることもできるし、時刻ｔ_Ａ２及びｔ_Ａ４間の間隔であると考えることもできるし、発話期間５１１中の特定の時刻（例えば中心時刻）と発話期間５１２中の特定の時刻（例えば中心時刻）との間隔であると考えることもできるし、時刻ｔ_Ａ２及びｔ_Ａ３間の間隔であると考えることもできる。

故に、第１発話パターンにおいて、図９（ａ）に示す如く時刻ｔ_Ａ１及びｔ_Ａ３間の間隔が発話間隔Ｔ_ＤＥＴとして導出されても良いし、図９（ｂ）に示す如く時刻ｔ_Ａ２及びｔ_Ａ４間の間隔が発話間隔Ｔ_ＤＥＴとして導出されても良いし、図９（ｃ）に示す如く発話期間５１１中の特定の時刻（例えば中心時刻）と発話期間５１２中の特定の時刻（例えば中心時刻）との間隔が発話間隔Ｔ_ＤＥＴとして導出されても良いし、図９（ｄ）に示す如く時刻ｔ_Ａ２及びｔ_Ａ３間の間隔が発話間隔Ｔ_ＤＥＴとして導出されても良い。

電子機器１０には、現在時刻を取得できる計時部（不図示）が設けられており、マイクロホン２０の出力音声信号に基づいてリレイションワード及びキーワードの発話が検出されたとき、ワード検出部１３又は起動制御部１５は、計時部の取得内容を参照して、リレイションワードの発話開始時刻ｔ_Ａ１、発話終了時刻ｔ_Ａ２及び発話期間５１１、並びに、キーワードの発話開始時刻ｔ_Ａ３、発話終了時刻ｔ_Ａ４及び発話期間５１２を認識することができる。

図８の第１発話パターンにおいて、発話間隔Ｔ_ＤＥＴが相対的に短い場合、リレイションワード及びキーワードは一連の会話の中で発話されている可能性が相対的に高いと考えられ、発話間隔Ｔ_ＤＥＴが相対的に長い場合には、その可能性は相対的に低いと考えられる。このため、第１発話パターンにおいて、起動制御部１５は、発話間隔Ｔ_ＤＥＴを所定の判定時間Ｔ_ＲＥＦと比較することで非起動判定条件の成否を判定する。具体的には、第１発話パターンにおいて、発話間隔Ｔ_ＤＥＴが判定時間Ｔ_ＲＥＦよりも短ければ非起動判定条件が成立してステップＳ１５からステップＳ１６（図７参照）に進み、アシスタント機能が非起動とされる。逆に、第１発話パターンにおいて、発話間隔Ｔ_ＤＥＴが判定時間Ｔ_ＲＥＦよりも長ければ非起動判定条件が成立せずにステップＳ１５からステップＳ１８（図７参照）に進み、アシスタント機能が起動される。発話間隔Ｔ_ＤＥＴが判定時間Ｔ_ＲＥＦとちょうど一致する場合、非起動判定条件は成立及び不成立の何れであっても良い。判定時間Ｔ_ＲＥＦは、会話の中で生じると想定される発話間の間隔を考慮した時間長さを持ち、数秒程度（例えば５秒）に設定されるが、任意の時間長さを持ちうる。

上述の如く、起動制御部１５は、リレイションワードの発話の検出後にキーワードの発話が検出された場合、リレイションワード及びキーワードの発話間隔に基づき、アシスタント機能の起動の是非を判断する（図８及び図９参照）。具体的には、起動制御部１５は、リレイションワードの発話の検出後にキーワードの発話が検出された場合、それらの発話間隔を検出して、その検出値を示す発話間隔Ｔ_ＤＥＴが所定の判定時間Ｔ_ＲＥＦより短ければアシスタント機能を非起動とする一方、発話間隔Ｔ_ＤＥＴが判定時間Ｔ_ＲＥＦより長ければアシスタント機能を起動する。

これにより、一連の会話の中でキーワードが発話されるケース（“Ｔ_ＤＥＴ＜Ｔ_ＲＥＦ”となることが見込まれるケース）において、アシスタント機能を非起動とすることが可能となる。つまり、誤起動を抑制することが可能となり、結果、ユーザの音声操作性の向上が図られる。

図１０には、第２発話パターンによるユーザの発話の流れが示されている。第２発話パターンでは、リレイションワードが発話されることなくキーワードが発話される。そうすると、第２発話パターンでは、電子機器１０においてリレイションワードの発話が検出されることなくキーワードの発話が検出されるので、図７のステップＳ１３の“否定”及びステップＳ１７の“肯定”を経由してステップＳ１８に至り、アシスタント機能が起動する。第２発話パターンにおいて、キーワードの発話後にリレイションワードが発話されるか否か（詳細にはキーワードの発話の検出後にリレイションワードの発話が検出されるか否か）は任意であり、キーワードの発話が検出された時点でアシスタント機能が起動する。何らかのリレイションワードの発話が検出された後、他のリレイションワードの発話検出を伴わずに十分に長い時間が経過してからキーワードの発話が検出されるパターンは、第２発話パターンに属する。

尚、図７のフローチャートでは、ステップＳ１１及びＳ１２の段階でのみ発話テキストデータの生成動作並びにリレイションワード及びキーワードの発話検出動作が行われているかのように示されているが、実際には、それらの生成動作及び発話検出動作は、リアルタイムで常時実行されるものであって良い。何れにせよ、図７のフローチャートは処理の流れの一例にすぎず、図８及び図１０を参照して説明したアシスタント機能の起動／非起動の制御が可能となる限り、処理の流れは任意に変更できる。

アシスタント機能の起動後の動作について説明を補足する。アシスタント機能において、ユーザが所望するアシスタント応答を実現するためには、ユーザが発する任意の言葉を認識してテキストデータに変換する詳細音声認識処理、及び、詳細音声認識機能にて得られたテキストデータに基づきユーザの発話内容の意味及びユーザの意図を理解する自然言語処理が必要となる。詳細音声認識処理及び自然言語処理は多くのリソースを要する。このため、アシスタントシステムＳＹＳでは、詳細音声認識処理及び自然言語処理をサーバ装置４０に担わせ、電子機器１０の音声認識部１２及びワード検出部１３にはキーワード又はリレイションワードの発話があったか否かの認識及び検出処理だけを担わせている。

このため、アシスタント機能が起動すると、システム制御部１１は、キーワードに続いて発話されるユーザの要求内容を示すマイクロホン２０の出力音声信号を通信部１７を通じサーバ装置４０に送信する。サーバ装置４０は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容に応えるための成果データを生成し、当該成果データを電子機器１０に送信する。システム制御部１１は、受信した成果データに基づいてアシスタント応答を行う。

例えば、アシスタント機能の起動後、ユーザから「今日の天気を教えて」という発話があった場合を考える。この場合、「今日の天気を教えて」という発話の電気信号であるマイクロホン２０の出力音声信号がシステム制御部１１からサーバ装置４０に送信され、サーバ装置４０は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容（今日の天気の情報を知りたいという要求内容）を認識する。この認識結果に基づき、サーバ装置４０は、天候情報の提供サイトから車両ＣＲの現在地の天候情報を取得し、取得した天候情報を成果データとして電子機器１０に送信する。システム制御部１１は、アシスタント応答として、受信した天候情報（例えば「今日は、終日、晴れの予報です」）を音声応答又は表示応答によりユーザに通知する。

また例えば、アシスタント機能の起動後、ユーザから「ＡＢＣ市役所を目的地に設定して」という発話があった場合を考える。この場合、「ＡＢＣ市役所を目的地に設定して」という発話の電気信号であるマイクロホン２０の出力音声信号がシステム制御部１１からサーバ装置４０に送信され、サーバ装置４０は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容（ＡＢＣ市役所を目的地に設定したいという要求内容）を認識する。この認識結果に基づき、サーバ装置４０は、地図情報の提供サイトからＡＢＣ市役所の位置情報を取得し、取得した位置情報を成果データとして電子機器１０に送信する。システム制御部１１は、受信した位置情報に基づき、アシスタント応答として、ナビゲーション動作における目的地を設定すると共にＡＢＣ市役所を目的地に設定したナビゲーション動作を開始し、この際、ＡＢＣ市役所を目的地に設定したことを音声応答又は表示応答によりユーザに通知する。

また例えば、アシスタント機能の起動後、ユーザから「ワイパーをオンにして」という発話があった場合を考える。この場合、「ワイパーをオンにして」という発話の電気信号であるマイクロホン２０の出力音声信号がシステム制御部１１からサーバ装置４０に送信され、サーバ装置４０は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容（ワイパーを作動させたいという要求内容）を認識する。サーバ装置４０は、この認識結果に基づく情報（例えば、ワイパーを作動させる要求がユーザからあったことを示す情報）を成果データとして電子機器１０に送信する。システム制御部１１は、受信した成果データに基づき、アシスタント応答として「了解しました」という音声出力による音声応答を行うと共に（この際、表示応答も行っても良い）、ワイパーを作動させる。

＜＜第２実施例＞＞
アシスタントシステムＳＹＳの第２実施例を説明する。起動制御部１５は、キーワードの発話が検出されたとき、ユーザの発話の文脈も考慮して、アシスタント機能の起動の是非を判定しても良い。これについて説明する。

第２実施例では、アシスタント機能の起動の是非判定のためにユーザの発話の文脈を考慮することから、ユーザの発話の電気信号であるマイクロホン２０の出力音声信号が、アシスタント機能の起動前においてもシステム制御部１１からサーバ装置４０に送信される。サーバ装置４０は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの発話の文脈を認識する。例えば、発話が、質問とその質問に対する回答とで構成されているか否かに基づいて、或いは、同じ話題の会話中のものであるか否かに基づいて、当該発話の文脈を認識する。

そして、図８の第１発話パターンにおいては、ユーザの発話の文脈の認識結果に基づき、リレイションワード及びキーワードの発話が一連の会話の中での発話であるのか否かをサーバ装置４０が判断する。リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断された場合には、所定の非起動対応信号がサーバ装置４０から電子機器１０に送信され、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断されなかった場合には、所定の起動対応信号がサーバ装置４０から電子機器１０に送信される。

例えば、リレイションワードを含む第１の発話に続きキーワードを含む第２の発話があった場合において、第１の発話が質問の発話であって且つ第２の発話が当該質問に対する回答の発話であると文脈認識が成されたときには、或いは、第１の発話及び第２の発話が同じ話題の会話中のものであると文脈認識が成されたときには、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断し、そうでないときにはリレイションワード及びキーワードの発話が一連の会話の中での発話であると判断しない、といったことが可能である。

図８の第１発話パターンにおいては、リレイションワードの発話の検出後にキーワードの発話が検出されるので、図７のステップＳ１４を経由してステップＳ１５に至り、非起動判定条件の成否が判定される。第２実施例において、非起動判定条件の成否は、非起動対応信号及び起動対応信号の何れを受信したかで定まる。即ち、サーバ装置４０から非起動対応信号が電子機器１０に送信され、非起動対応信号が電子機器１０にて受信されると非起動判定条件が成立し、ステップＳ１５からステップＳ１６に進んでアシスタント機能が非起動とされる。一方、サーバ装置４０から起動対応信号が電子機器１０に送信され、起動対応信号が電子機器１０にて受信されると非起動判定条件が不成立となり、ステップＳ１５からステップＳ１８に進んでアシスタント機能が起動される。

第２実施例において非起動判定条件の成否は発話間隔Ｔ_ＤＥＴに依存しないものであって良い。従って、第１発話パターンにおいて、ユーザの発話の文脈の認識結果に基づき、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断されたならば、発話間隔Ｔ_ＤＥＴと判定時間Ｔ_ＲＥＦとの長短関係に関係なくアシスタント機能を非起動とし、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断されなかったならば、発話間隔Ｔ_ＤＥＴと判定時間Ｔ_ＲＥＦとの長短関係に関係なくアシスタント機能を起動して良い。但し、ユーザの発話の文脈の認識結果と発話間隔Ｔ_ＤＥＴとの双方を考慮して、アシスタント機能を起動の是非を判断するようにしても良い。

第２実施例においても、図１０の第２発話パターンでは、第１実施例と同様に、アシスタント機能が起動する。

尚、キーワードの発話が検出された場合であっても、ユーザの発話の文脈の認識結果に基づき、当該キーワードが一連の文章の発話の途中において発話されたものであると判断されるときには、アシスタント機能を非起動としても良い。これは、キーワードの発話の検出前にリレイションワードの発話が検出された場合でも、キーワードの発話の検出前にリレイションワードの発話が検出されなかった場合でも、同様であって良い。

＜＜第３実施例＞＞
アシスタントシステムＳＹＳの第３実施例を説明する。第１及び第２実施例では、リソースの観点から詳細音声認識処理及び自然言語処理をサーバ装置４０に担わせることを想定したが、サーバ装置４０の機能の全部又は一部をシステム制御部１１に担わせても良い。サーバ装置４０の機能の全部をシステム制御部１１に担わせる場合、詳細音声認識処理及び自然言語処理がシステム制御部１１にて行われることになる。そして、この場合、図１のアシスタントシステムＳＹＳからサーバ装置４０を省略でき、第２実施例で示したような文脈を考慮したアシスタント機能の起動制御も電子機器１０単体で行うことができる。

＜＜第４実施例＞＞
アシスタントシステムＳＹＳの第４実施例を説明する。キーワードの発話があってワード検出部１３によりキーワードの発話が検出されたにも関わらずアシスタント機能を非起動としたとき、起動制御部１５はユーザに対し所定の非起動通知を行うようにしても良い。つまり、図７の動作の流れでは、ステップＳ１６にて所定の非起動通知を行うようにしても良い。非起動通知は、電子機器１０に接続又は内蔵された表示画面（不図示）を用いた視覚的な通知を含んでいても良いし、これに加えて又はこれに代えて、スピーカ３０を用いた聴覚的な通知を含んでいても良い。非起動通知の内容は任意である。非起動通知は、キーワードの発話が検知されたが誤起動抑制アルゴリズムによりアシスタント機能の起動がマスクされた旨を示すような通知であっても良いし、より簡素な通知であっても良い。

非起動通知を行うようにしておくことにより、ユーザは、適切に誤起動が抑制されていることを認識でき、安心してアシスタントシステムＳＹＳの利用を継続することができる。

＜＜第５実施例＞＞
アシスタントシステムＳＹＳの第５実施例を説明する。

リレイションワードの発話の検出後にキーワードの発話が検出される第１発話パターン（図８参照）おいてアシスタント機能が非起動とされうる方法を上述した。しかしながら、キーワードの発話の検出後にリレイションワードの発話が検出される第３発話パターン（不図示）においても、ユーザの発話の文脈等を適宜考慮してアシスタント機能が非起動とされることが有りうるよう、アシスタントシステムＳＹＳを構成しても良い。

アシスタント装置１及び電子機器１０が車両ＣＲに搭載されることを想定したが（図２参照）、アシスタント装置１又は電子機器１０は車両ＣＲ以外の任意の装置に搭載されて良い。例えば、アシスタント装置１又は電子機器１０は、室内設置用のテレビ受信機、空気調和器、オーディオ機器のような家電機器に搭載されても良いし、スマートホン、パーソナルコンピュータ又はタブレットのような情報端末装置に搭載されても良い（アシスタント装置１自体が、又は、電子機器１０自体が、情報端末装置であっても良い）。

本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。

ＳＹＳアシスタントシステム
１アシスタント装置
１０電子機器
１１システム制御部
１２音声認識部
１３ワード検出部
１４ワード格納部
１５起動制御部
１６音声合成部
１７通信部
２０マイクロホン
３０スピーカ
４０サーバ装置
ＣＲ車両

Claims

ユーザによるキーワードの発話を契機に所定機能を起動させることが可能な電子機器において、
ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出部と、
前記ワード検出部の検出結果に基づき前記所定機能の起動を制御する起動制御部と、を備え、
前記起動制御部は、前記キーワードの発話が検出されたとき、その検出前において前記リレイションワードの発話が検出されたかに応じ、前記所定機能の起動の是非を判断する
ことを特徴とする電子機器。
前記起動制御部は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合、前記リレイションワード及び前記キーワードの発話間隔に基づき、前記所定機能の起動の是非を判断する
ことを特徴とする請求項１に記載の電子機器。
前記起動制御部は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合、前記発話間隔が所定の判定時間より短ければ前記所定機能を非起動とする一方、前記発話間隔が前記判定時間より長ければ前記所定機能を起動する
ことを特徴とする請求項２に記載の電子機器。
前記起動制御部は、前記リレイションワードの発話が検出されずに前記キーワードの発話が検出された場合、前記所定機能を起動する
ことを特徴とする請求項１～３の何れかに記載の電子機器。
前記起動制御部は、前記キーワードの発話が検出された場合において前記所定機能を非起動としたとき、ユーザに対し所定の非起動通知を行う
ことを特徴とする請求項１～４の何れかに記載の電子機器。
前記キーワードを格納するとともに、前記キーワードに関連するワードとして予め設定された１以上のワードを前記リレイションワードとして格納するワード格納部を更に備えた
ことを特徴とする請求項１～５の何れかに記載の電子機器。
ユーザによるキーワードの発話を契機に所定機能を起動させるための音声起動方法において、
ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出ステップと、
前記ワード検出ステップでの検出結果に基づき前記所定機能の起動を制御する起動制御ステップと、を備え、
前記起動制御ステップでは、前記キーワードの発話が検出されたとき、その検出前において前記リレイションワードの発話が検出されたかに応じ、前記所定機能の起動の是非を判断する
ことを特徴とする音声起動方法。