JP7465700B2

JP7465700B2 - 車載装置および車載装置における音声処理方法

Info

Publication number: JP7465700B2
Application number: JP2020058355A
Authority: JP
Inventors: 勝昭引間; 大輔山▲崎▼; 太小菅
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2024-04-11
Anticipated expiration: 2040-03-27
Also published as: JP2021158578A; US11580981B2; US20210304752A1; CN113450789A

Description

本発明は、車載装置および車載装置における音声処理方法に関する。

従来、音声認識技術や自然言語処理などを利用してユーザの話す内容を理解し、ユーザの指示や要求に対して適切な回答や処理を行う音声アシスタント機能が知られている。音声アシスタント機能は、例えばスマートフォン等の端末装置に搭載されている。

また、音声アシスタント機能を起動する際に、ウェイクアップワードを利用することが知られている（例えば特許文献１参照）。ウェイクアップワードは、指令または命令を送信するトリガとなる所定のワードであり、指令等を出す前にユーザから発せられる所定ワードである。ウェイクアップワードは、例えば、「ハロー、マイコンピュータ」や「ヘイ、ビークル」等である。例えば、ユーザは、「ハロー、マイコンピュータ、近くにあるカフェを教えて。」といった発声を行う。ウェイクアップワードを含むフレーズが検出されれば、音声アシスタント機能が起動され、自動音声認識技術により理解されたユーザの指示や要求に対して適切な回答や処理が行われる。

特開２０１９－１７４７７８号公報

ところで、例えば車両の運転中に安全に端末装置を利用することができるように、端末装置と車載装置とを接続する技術が知られている。この技術に関連して、端末装置に接続される車載装置を介して、端末装置の音声アシスタント機能を利用することが考えられる。車載装置を介して端末装置の音声アシスタント機能を利用する場合でも、ウェイクアップワードを利用した音声アシスタント機能の起動が必要以上に遅くならないことが望まれる。

本発明は、音声アシスタント機能を有する端末装置と接続された車載装置において、特定の言葉（ウェイクアップワード）を用いた音声アシスタント機能の起動を短時間で行うことができる技術を提供することを目的とする。

上記目的を達成するために本発明の車載装置は、音声アシスタント機能を有する端末装置と接続可能な車載装置であって、マイクから入力される音声信号を音声認識して、その認識結果に基づいて前記車載装置の種々の機能を制御する音声検出部と、前記端末装置と通信するインターフェース部と、を備え、前記インターフェース部は、前記音声検出部が、前記音声信号を音声認識した結果、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したことを通知されたときは、前記音声検出部を介することなく前記マイクから入力された音声信号を前記端末装置に伝送する構成（第１の構成）になっている。

また、上記第１の構成の車載装置において、前記音声検出部は、前記特定の言葉を検出したときに、前記インターフェース部を介して、前記端末装置に前記特定の言葉の検出を通知し、前記インターフェース部は、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記音声検出部を介することなく前記マイクから入力された音声信号を前記端末装置に伝送する構成（第２の構成）であってよい。

また、上記第１又は第２の構成の車載装置において、前記インターフェース部は、前記マイクから入力された音声信号を一時的に蓄積するインターフェース部バッファを有し、前記インターフェース部は、前記特定の言葉の検出の通知を受けて、前記インターフェース部バッファに蓄積された音声信号を、前記端末装置に伝送する構成（第３の構成）であってよい。

また、上記第３の構成の車載装置において、前記インターフェース部は、前記インターフェース部バッファに蓄積された音声信号の、前記通知を受けた時点から所定時間遡った時点からの音声信号を、前記端末装置に伝送する構成（第４の構成）であってよい。

また、上記第１から第４のいずれかの構成の車載装置は、前記音声検出部が有する第１のエコーキャンセラおよびノイズキャンセラと異なる第２のエコーキャンセラおよびノイズキャンセラを更に備え、前記インターフェース部には、前記マイクからの音声信号が前記第２のエコーキャンセラおよびノイズキャンセラを介して入力される構成（第５の構成）であることが好ましい。

また、上記第５の構成の車載装置において、前記第２のエコーキャンセラおよびノイズキャンセラは、前記端末装置を用いたハンズフリー通話時に使用されるエコーキャンセラおよびノイズキャンセラを兼ねる構成（第６の構成）であることが好ましい。

また、上記第１から第６のいずれかの構成の車載装置において、前記音声検出部は、前記マイクからの音声信号が入力される第１のエコーキャンセラおよびノイズキャンセラと、前記第１のエコーキャンセラおよびノイズキャンセラを通過した音声信号が入力され、前記特定の言葉を認識可能に設けられる自動音声認識部と、前記第１のエコーキャンセラおよびノイズキャンセラを通過した音声信号を一時的に保持する音声検出部バッファと、を有する構成（第７の構成）であってよい。

また、上記目的を達成するために本発明の車載装置における音声処理方法は、音声アシスタント機能を有する端末装置と接続可能な車載装置における音声処理方法であって、前記車載装置は、マイクから入力される音声信号を音声認識して、その認識結果に基づいて前記車載装置の種々の機能を制御する音声検出部と、前記端末装置と通信するインターフェース部と、を備え、前記マイクから入力された音声信号を前記音声検出部に向けて送信する第１のステップと、前記音声検出部にて前記音声アシスタント機能を起動するための特定の言葉が検出された場合に、前記特定の言葉の検出を前記インターフェース部に通知する第２のステップと、前記特定の言葉の検出の通知により、前記インターフェース部が前記マイクから送信された音声信号を、前記音声検出部を介することなく前記端末装置に伝送する第３のステップと、を備える構成（第８の構成）になっている。

本発明によれば、音声アシスタント機能を有する端末装置と接続された車載装置において、特定の言葉を用いた音声アシスタント機能の起動を短時間で行うことができる。

音声処理システムの構成を示す模式図演算処理部の機能構成を示すブロック図車載装置により端末装置の音声アシスタント機能を利用する際の処理の流れを例示するフローチャート本実施形態の車載装置の効果を説明するための比較例を示す図

以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。

＜１．音声処理システム＞
図１は、本発明の実施形態に係る音声処理システム１００の構成を示す模式図である。図１に示すように、音声処理システム１００は、大きくは、車載装置１と、端末装置２と、サーバ装置３と、を備える。

車載装置１は、マイク（マイクロホンの略語）４と有線又は無線にて接続される。車載装置１には、マイク４を介してユーザの発話音声が入力される。車載装置１は、マイク４から入力された音声信号を処理する。また、車載装置１は、スピーカ５と有線又は無線にて接続される。車載装置１は、スピーカ５から音声を出力するために必要となる音声信号の処理を行う。スピーカ５は、車載装置１から入力された音声信号を音声に変換して出力する。

なお、本実施形態では、マイク４およびスピーカ５は、車載装置１とは別の装置である。ただし、マイク４およびスピーカ５は、車載装置１に含まれてもよい。

本実施形態では、車載装置１は、音声処理装置として機能し、車両７に搭載される。マイク４およびスピーカ５も、車両７に搭載される。ただし、車載装置１は、車載との文言にとらわれることなく、車両以外の移動体に搭載されてもよい。車両以外の移動体は、例えば、船舶や航空機等であってよい。また、車載装置１は、車載との文言にとらわれることなく、例えば室内等に配置されてもよい。車載装置１は、音声処理機能だけでなく、例えばオーディオ機能、ナビゲーション機能、或いは、これらの両機能を有する複合装置であってもよい。

端末装置２は、車載装置１と有線又は無線にて接続される。換言すると、車載装置１は、端末装置２と接続可能に設けられる。本実施形態において、端末装置２は、音声アシスタント機能を有する。端末装置２は、例えばスマートフォン又はタブレット端末である。端末装置２は、ネットワーク６を介してサーバ装置３と通信可能に設けられる。本実施形態では、端末装置２は、ユーザが車両７に持ち込み、車載装置１と接続して使用することが想定されている。端末装置２が車載装置１と接続されることにより、ユーザ（運転者）は、運転中に端末装置２自体を操作することなく、安全に端末装置２の機能を利用することが可能になる。

サーバ装置３は、人工知能（ＡＩ）を備える。人工知能は、音声の解読を行い、音声内容に沿った処理を行う。端末装置２の音声アシスタント機能が起動すると、ユーザの音声による命令がネットワーク６を介してサーバ装置３に送られ、人工知能が、その命令を解読して、命令に沿った処理を実行する。ここで、命令に沿った処理とは、例えば、映像や音楽、或いは、調べ物などの検索処理が挙げられる。

なお、本実施形態では、端末装置２が有する音声アシスタント機能は、ユーザの発話音声の中に含まれる特定の言葉を検出した場合に起動する。特定の言葉は、いわゆるウェイクアップワードである。以下、端末装置２が有する音声アシスタント機能を起動させる特定の言葉のことをウェイクアップワードと記載する。本実施形態では、ユーザがウェイクアップワードをマイク４に向けて発すると、車載装置１の動作により端末装置２の音声アシスタント機能が起動する。

＜２．車載装置の詳細構成＞
図１に示すように、車載装置１は、音声信号の処理を行う演算処理部（演算処理回路）１０を備える。演算処理部１０は、例えば、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、および、ＲＯＭ（Read Only Memory）等を含むコンピュータであってよい。

図２は、本発明の実施形態に係る演算処理部１０の機能構成を示すブロック図である。図２において、実線の矢印は音声信号の流れを示し、破線の矢印はコマンドの流れを示す。図２に示す各ブロックは、コンピュータが有するＣＰＵがメモリに記憶されるプログラムに従って演算処理を実行することにより実現される機能である。

図２に示すように、演算処理部１０は、音声入出力制御部１１と、音声検出部１２と、中継部１３と、を備える。換言すると、車載装置１は、音声入出力制御部１１と、音声検出部１２と、中継部１３とを備える。

音声入出力制御部１１は、音声信号の入出力を制御する。音声入出力制御部１１は、マイク４から入力される音声信号を制御する。音声入出力制御部１１は、スピーカ５から出力する音声信号を制御する。音声入出力制御部１１は、例えば、ＡＬＳＡ（Advanced Linux（登録商標） Sound Architecture）等のサウンドドライバで構成される。

音声入出力制御部１１はインターフェース部１１１を備える。換言すると、車載装置１はインターフェース部１１１を備える。インターフェース部１１１は、端末装置２との接続を可能とする。インターフェース部１１１は、端末装置２と通信する。本実施形態では、インターフェース部１１１は、端末装置２が備える特定のアプリケーションソフトウェアを使用可能とするためのインターフェース用ソフトウェアである。インターフェース部１１１の詳細については後述する。

音声検出部１２は、マイク４から音声信号が入力される。詳細には、音声検出部１２は、マイク４から音声入出力制御部１１を介して音声信号が入力される。音声検出部１２は、マイク４から入力される音声信号を音声認識して、その認識結果に基づいて車載装置１の種々の機能を制御する。音声検出部１２は、端末装置２が有する音声アシスタント機能を起動するウェイクアップワード（特定の言葉）を検出する。詳細には、音声検出部１２は、マイク４から入力される音声の中に、ウェイクアップワードが含まれる場合に、当該ウェイクアップワードを検出する。

なお、音声検出部１２は、端末装置２の音声アシスタント機能を起動するウェイクアップワードのみを検出する構成でもよいが、他の言葉も検出可能な構成であってよい。例えば、端末装置２が有する音声アシスタント機能用のウェイクアップワードに加えて、端末装置２とは別の音声アシスタント機能を有する車載機器用のウェイクアップワードも検出する構成であってよい。

図２に示すように、詳細には、音声検出部１２は、第１のエコーキャンセラおよびノイズキャンセラ１２１と、自動音声認識部１２２と、音声検出部バッファ１２３と、を有する。以下、エコーキャンセラおよびノイズキャンセラのことをＥＣ／ＮＣと記載する。

第１のＥＣ／ＮＣ１２１は、マイク４からの音声信号が入力される。第１のＥＣ／ＮＣ１２１は、入力された音声信号から、反響（エコー）の除去と、ノイズの除去とを行い、処理後の音声信号を出力する。詳細には、第１のＥＣ／ＮＣ１２１には、反響の除去のために、マイク４から入力される音声信号の他に、スピーカ５に出力される音声信号も入力される。また、第１のＥＣ／ＮＣ１２１では、例えば公知のスペクトル・サブストラクト法（ＳＳ法）が利用されて、車両７の走行によって生じるロードノイズの除去が行われる。

自動音声認識部１２２は、第１のＥＣ／ＮＣ１２１を通過した音声信号が入力される。自動音声認識部１２２は、音声信号をテキスト変換して、音声に含まれる特定の言葉を認識可能に設けられる。すなわち、自動音声認識部１２２は、ウェイクアップワード（特定の言葉）を認識可能に設けられる。更に言い換えると、自動音声認識部１２２は、ウェイクアップワードを認識して検出することができる。

音声検出部バッファ１２３は、第１のＥＣ／ＮＣ１２１を通過した音声信号を一時的に保持する。音声検出部バッファ１２３で一時的に保持された音声信号は、例えば、端末装置２とは別の音声アシスタント機能を有する車載機器に音声信号を伝送するために使用されてもよい。

中継部１３は、ソフトウェアインターフェースである。中継部１３は、音声検出部１２によってウェイクアップワードが検出された場合に、そのことを通知される。また、中継部１３は、ウェイクアップワードが検出されたことを通知された場合に、そのことをインターフェース部１１１に通知する。

インターフェース部１１１は、ウェイクアップワードが検出された場合に、ウェイクアップワードの検出を通知される。また、インターフェース部１１１は、端末装置２にウェイクアップワードの検出を通知する。換言すると、音声検出部１２は、音声信号にウェイクアップワードが含まれることを検出したときに、インターフェース部１１１を介して、端末装置２にウェイクアップワードの検出を通知する。なお、端末装置２は、ウェイクアップワードの検出を通知されると、音声アシスタント機能を起動させるために音声情報を要求する。

インターフェース部１１１は、音声検出部１２が、音声信号を音声認識した結果、音声信号にウェイクアップワードが含まれていることを検出したことを通知されたときは、音声検出部１２を介することなくマイク４から入力された音声信号を端末装置２に伝送する。詳細には、インターフェース部１１１は、ウェイクアップワードの検出を通知された端末装置２からの要求によって、音声検出部１２を介することなくマイク４から入力された音声信号を端末装置２に伝送する。なお、インターフェース部１１１は、端末装置２からの要求ではなく、車載装置１の内部処理にしたがって、音声検出部１２を介することなくマイク４から入力された音声信号を端末装置２に伝送する構成としてもよい。また、インターフェース部１１１は、マイク４から入力された音声信号を一時的に蓄積するインターフェース部バッファ１１１１を有する。インターフェース部１１１は、ウェイクアップワードの検出の通知を受けて、インターフェース部バッファ１１１１に蓄積された音声信号を端末装置２に伝送する。

本実施形態では、音声入出力制御部１１は、音声検出部１２が有する第１のＥＣ／ＮＣ１２１と異なる第２のＥＣ／ＮＣ１１２を更に備える。すなわち、車載装置１は、音声検出部１２が有する第１のＥＣ／ＮＣ１２１と異なる第２のＥＣ／ＮＣ１１２を更に備える。第２のＥＣ／ＮＣ１１２には、マイク４から音声信号が入力される。第２のＥＣ／ＮＣ１１２は、入力された音声信号から、反響（エコー）の除去と、ノイズの除去とを行い、処理後の音声信号を出力する。第２のＥＣ／ＮＣ１１２が反響およびノイズの除去を行う手法は、第１のＥＣ／ＮＣ１２１と同様である。

インターフェース部１１１には、マイク４からの音声信号が第２のＥＣ／ＮＣ１１２を介して入力される。このために、インターフェース部１１１から端末装置２に伝送される音声信号の品質を向上することができる。これにより、端末装置２において音声の検出を精度良く行うことが可能になる。

本実施形態では、音声入出力制御部１１はミキサ１１３を更に備える。ミキサ１１３は、端末装置２から複数種類の音声信号が出力されることに対応する。ミキサ１１３が設けられることにより、端末装置２から出力された複数種類の音声信号を一纏めにしてスピーカ５に出力することができる。なお、本実施形態では、第１のＥＣ／ＮＣ１２１および第２のＥＣ／ＮＣ１１２において反響の除去を行うために、ミキサ１１３から出力された音声信号は、スピーカ５の他に、第１のＥＣ／ＮＣ１２１および第２のＥＣ／ＮＣ１１２に向けて送信される。

上述の複数種類の音声信号には、メイン信号ＳＧ１と、第１の割込み信号ＳＧ２と、第２の割込み信号ＳＧ３とが含まれる。メイン信号ＳＧ１は、例えば音楽再生用の信号等である。第１の割込み信号ＳＧ２は、例えばナビゲーション用の音声信号である。第２の割込み信号ＳＧ３は、例えば音声アシスタント機能用の音声信号である。

＜３．車載装置の作用効果＞
図３は、本発明の実施形態に係る車載装置１をより端末装置２の音声アシスタント機能を利用する際の処理の流れを例示するフローチャートである。図３において、実線は車載装置１による処理を指し、破線は端末装置２による処理を指す。

ステップＳ１では、車載装置１の音声検出部１２により、ウェイクアップワードの検出が監視される。ステップＳ１の処理には、マイク４から車載装置１に入力された音声信号を、音声検出部１２とインターフェース部１１１とに向けて送信するステップが含まれる。音声検出部１２は、音声検出部１２に向けて送信された音声信号に基づき、ウェイクアップワードの検出を試みる。音声検出部１２によって、ウェイクアップワードが検出されると（ステップＳ１でＹｅｓ）、次のステップＳ２に処理が進められる。

ステップＳ２では、音声検出部１２にてウェイクアップワードが検出された場合に、インターフェース部１１１を介してウェイクアップワードの検出を端末装置２に通知する処理が行われる。詳細には、音声検出部１２でのウェイクアップワードの検出がトリガとなり、中継部１３を介してインターフェース部１１１にウェイクアップワードの検出が通知される。通知を受けたインターフェース部１１１は、ウェイクアップワードの検出を端末装置２に通知する。ウェイクアップワードの検出を通知された端末装置２は、ステップＮ１の処理を行う。

ステップＮ１では、端末装置２が車載装置１に音声信号を要求する。端末装置２は、ウェイクアップワードを含むユーザの発話内容を示す音声信号を車載装置１に要求する。詳細には、端末装置２は、ウェイクアップワードの検出の通知を受けた時点のタイムスタンプをインターフェース部１１１に送信する。タイムスタンプが送信されたインターフェース部１１１は、ステップＳ３の処理を行う。

ステップＳ３では、ウェイアップワードの検出を通知された端末装置２からの要求により、マイク４からインターフェース部１１１に向けて送信された音声信号を、インターフェース部１１１を介して端末装置２に送信する。マイク４からインターフェース部１１１に向けて送信された音声信号は、音声検出部１２を通ることなく、インターフェース部１１１に入力される。

詳細には、インターフェース部１１１は、マイク４から第２のＥＣ／ＮＣ１１２を介して音声信号が入力される。インターフェース部１１１は、第２のＥＣ／ＮＣ１１２を介して入力された音声信号をインターフェース部バッファ１１１１により一時的に保持している。インターフェース部１１１は、タイムスタンプに応じて適宜決められる時間に遡ってインターフェース部バッファ１１１１で保持された音声信号を端末装置２に適宜送信する。すなわち、インターフェース部１１１は、インターフェース部バッファ１１１１に蓄積された音声信号の、ウェイクアップワードの検出の通知（本例ではタイムスタンプ）を受けた時点から所定時間遡った時点からの音声信号を、端末装置２に伝送する。音声信号を送信された端末装置２は、ステップＮ２の処理を行う。

ステップＮ２では、音声信号を送信された端末装置２により、ウェイクアップワードが検出されて音声アシスタント機能が起動する。音声アシスタント機能が起動すると、端末装置２は、車載装置１から受け取った音声信号をサーバ装置３に送信する。サーバ装置３において、人工知能を利用して、音声の解読、および、音声内容に沿った処理が行われる。サーバ装置３は、処理結果を端末装置２に返信する。サーバ装置３から処理結果が返信されると、端末装置２は、次のステップＮ３の処理を行う。

ステップＮ３では、端末装置２は、サーバ装置３における処理結果に従った回答（音声信号）を車載装置１に送信する。回答が送信された車載装置１は、ステップＳ４の処理を行う。

ステップＳ４では、音声入出力制御部１１の制御の下、端末装置２から送信された回答がスピーカ５から出力される。以上により、車載装置１を介した端末装置２の音声アシスタント機能の利用処理が完了する。

本実施形態では、マイク４から車載装置１に入力された音声信号は、音声検出部１２とインターフェース部１１１との両方に向けて送信される。すなわち、本実施形態では、マイク４から音声検出部１２を介することなく、インターフェース部１１１のインターフェース部バッファ１１１１に音声信号を入力して保持することができる。このために、端末装置２から音声情報の要求に応じて素早く音声情報の伝送を行うことができる。

これについて、図４に示す比較例を参照しながら詳細に説明する。図４は、本実施形態の車載装置１の効果を説明するための比較例を示す図である。図４には、比較例の演算処理部１０Ａが示されている。

マイク４から音声検出部１２およびインターフェース部１１１に入力される音声信号は、ＥＣ／ＮＣを通過することが好ましい。この点を考慮すると、図４に示すように、第１のＥＣ／ＮＣ１２１を通過し、音声検出部バッファ１２３で一時的に保持された音声信号をインターフェース部１１１のインターフェース部バッファ１１１１に送信する構成とすることが考えられる。このようにすれば、第２のＥＣ／ＮＣ１１２を省略した音声入出力制御部１１Ａを得ることができる。すなわち、ＥＣ／ＮＣの数を増やすことを避けることができる。

しかし、図４に示す構成の場合には、マイク４から入力された音声信号がインターフェース部１１１に至るまでの間に音声検出部１２が有する音声検出部バッファ１２３を経由する必要がある。音声検出部バッファ１２３の通過には、例えば１０ｍｓ程度の時間が必要となるために、端末装置２からインターフェース部１１１に音声情報の送信要求があった場合に、インターフェース部バッファ１１１１に音声信号が届いていないという事態が生じることが懸念される。

この点、本実施形態の車載装置１においては、インターフェース部１１１が設けられるのと同じ音声入出力制御部１１に第２のＥＣ／ＮＣ１１２が設けられる構成となっているために、マイク４から入力された音声を途中でバッファを通過させることなく、インターフェース部１１１に入力させることができる。このために、端末装置２からインターフェース部１１１に音声情報の送信要求があった場合に、インターフェース部バッファ１１１１に音声信号が届いていないという事態の発生を起こり難くできる。すなわち、端末装置２の音声アシスタント機能の起動を短時間で行うことができる。

なお、本実施形態では、車載装置１が、端末装置２を用いたハンズフリー通話を可能とする構成になっている。この場合には、ユーザの発話音声が聞き取りやすいように、マイク４から入力される音声信号がＥＣ／ＮＣを通過した後に端末装置２に送られる構成とすることが好ましい。

そこで、本実施形態では、好ましい形態として、第２のＥＣ／ＮＣ１１２は、端末装置２を用いたハンズフリー通話時に使用されるＥＣ／ＮＣを兼ねる構成としている。このため、本実施形態では、回路規模やソフトウェア規模を必要以上に増加させることなく、複数の機能を実現することが可能になっている。なお、本実施形態では、ハンズフリー通話が使用される場合には、音声アシスタント機能は利用できない構成としている。

＜４．留意事項等＞
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。

１・・・車載装置
２・・・端末装置
４・・・マイク
１２・・・音声検出部
１１１・・・インターフェース部
１１２・・・第２のＥＣ／ＮＣ
１２１・・・第１のＥＣ／ＮＣ
１２２・・・自動音声認識部
１２３・・・音声検出部バッファ
１１１１・・・インターフェース部バッファ

Claims

音声アシスタント機能を有する端末装置と接続可能な車載装置であって、
マイクから入力される音声信号を音声認識して、その認識結果に基づいて前記車載装置の種々の機能を制御する音声検出部と、
前記端末装置と通信するインターフェース部と、
を備え、
前記音声検出部は、前記音声信号を音声認識した結果、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したときに、前記インターフェース部を介して、前記端末装置に前記特定の言葉の検出を通知し、
前記インターフェース部は、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記マイクから入力された音声信号を前記端末装置に伝送する、車載装置。
音声アシスタント機能を有する端末装置と接続可能な車載装置であって、
マイクから入力される音声信号を音声認識して、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したときに、前記端末装置に前記特定の言葉の検出を通知し、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記マイクから入力された音声信号を前記端末装置に伝送する、演算処理部を備える、車載装置。
前記インターフェース部は、前記マイクから入力された音声信号を一時的に蓄積するインターフェース部バッファを有し、
前記インターフェース部は、前記特定の言葉の検出の通知を受けて、前記インターフェース部バッファに蓄積された音声信号を、前記端末装置に伝送する、請求項１に記載の車載装置。
前記インターフェース部は、前記インターフェース部バッファに蓄積された音声信号の、前記通知を受けた時点から所定時間遡った時点からの音声信号を、前記端末装置に伝送する、請求項３に記載の車載装置。
前記音声検出部が有する第１のエコーキャンセラおよびノイズキャンセラと異なる第２のエコーキャンセラおよびノイズキャンセラを更に備え、
前記インターフェース部には、前記マイクからの音声信号が前記第２のエコーキャンセラおよびノイズキャンセラを介して入力される、請求項１、３、４のいずれか１項に記載の車載装置。
前記第２のエコーキャンセラおよびノイズキャンセラは、前記端末装置を用いたハンズフリー通話時に使用されるエコーキャンセラおよびノイズキャンセラを兼ねる、請求項５に記載の車載装置。
前記音声検出部は、
前記マイクからの音声信号が入力される第１のエコーキャンセラおよびノイズキャンセラと、
前記第１のエコーキャンセラおよびノイズキャンセラを通過した音声信号が入力され、前記特定の言葉を認識可能に設けられる自動音声認識部と、
前記第１のエコーキャンセラおよびノイズキャンセラを通過した音声信号を一時的に保持する音声検出部バッファと、
を有する、請求項１、３から６のいずれか１項に記載の車載装置。
音声アシスタント機能を有する端末装置と接続可能な車載装置が備える演算処理部によって実行される音声処理方法であって、
マイクから入力される音声信号を音声認識して、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したときに、前記端末装置に前記特定の言葉の検出を通知し、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記マイクから入力された音声信号を前記端末装置に伝送する、音声処理方法。