JP2019139146A

JP2019139146A - 音声認識システム、及び、音声認識方法

Info

Publication number: JP2019139146A
Application number: JP2018024132A
Authority: JP
Inventors: 近藤　裕介; Yusuke Kondo; 裕介近藤
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2018-02-14
Filing date: 2018-02-14
Publication date: 2019-08-22

Abstract

【課題】ユーザーが、トリガーワードと音声コマンドとを連続して発話可能とすること。【解決手段】音声認識システム１は、音声信号が録音される録音モジュールを備える。録音モジュールに録音された音声信号からトリガーワードの検出が行われ、録音モジュールに録音された音声信号に基づいて、自然言語理解が行われる。少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。好ましくは、音声認識システム１の起動後、常に、音声信号が録音される。【選択図】図２

Description

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。

音声認識を行う音声認識システムは、例えば、スピーカー装置等の電子機器と、クラウドサーバーと、から構成される。電子機器は、マイクとスピーカーとを備える。音声認識システムは、マイクから入力される音声を認識し、認識した音声に基づいて、処理を実行し、実行結果をスピーカーから出力する。例えば、ユーザーが、音声コマンド「天気教えて」と発話した場合、音声認識システムに含まれる電子機器から、「今日の天気は晴れです。」という音声が出力される。特許文献１には、音声認識の結果で、通信レートを変更する発明が開示されている。

音声認識を行う音声認識システムの中には、音声認識を有効とするためのトリガーワード（例えば、「ハロー、オンキヨー」）を検出した場合に、その後の音声認識処理（自然言語理解：ＮＬＵ（Natural language understanding））を行うものがある。図３は、従来の音声認識システムの構成を示す図である。電子機器は、例えば、エコーキャンセル、ノイズキャンセル、トリガーワード検出（ＶＴ）を行うＤＳＰ（Digital Signal Processor）、ＳｏＣ（System on Chip）、マイク等を備える。ＤＳＰは、マイクにより集音された音声信号に、エコーキャンセル、ノイズキャンセルを行い、エコーキャンセル等を行った音声信号から、トリガーワードを検出する。ＤＳＰは、トリガーワードを検出した場合、その旨をＳｏＣに通知する。ＳｏＣは、マイクにより集音された音声信号をクラウドサーバーに送信する。

クラウドサーバーは、電子機器から送信される音声信号を受信する。クラウドサーバーは、受信した音声信号から、トリガーワードを検出（ＶＴ）する。このように、従来の音声認識システムでは、電子機器と、クラウドサーバーとで、二段階のトリガーワード認証が行われる。

図４は、従来の音声認識システムの処理動作を示すシーケンス図である。ＨｏｓｔＡｐｐ（ＳｏＣ）は、トリガーワードの検出開始をＶＴエンジン（ＤＳＰ）に通知する（１）。なお、ＨｏｓｔＡｐｐは、ＳｏＣにより実行されるアプリケーションであり、ＶＴエンジンは、ＤＳＰにより実行されるアプリケーションである。ＶＴエンジンは、録音モジュールに録音開始要求を行う（２）。これにより、録音モジュールによる、マイクにより集音された音声信号の録音が開始される（録音状態）。ＶＴエンジンは、トリガーワードを検出した場合、トリガーワードを検出したことをＨｏｓｔＡｐｐに通知する（３）。また、ＶＴエンジンは、録音モジュールに録音停止要求を行う（４）。これにより、録音モジュールによる音声信号の録音が停止される（録音停止）。

ＨｏｓｔＡｐｐは、トリガーワード検出終了をＶＴエンジンに通知する（５）。次に、ＨｏｓｔＡｐｐは、自然言語理解開始をＮＬＵエンジン（クラウドサーバー）に通知する（６）。ＮＬＵエンジンは、録音モジュールに録音開始要求を行う（７）。これにより、録音モジュールによる音声信号の録音が開始される（録音状態）。次に、ＮＬＵエンジンは、録音モジュールに録音停止要求を行う（８）。これにより、録音モジュールによる音声信号の録音が停止される。次に、ＮＬＵエンジンは、自然言語理解終了をＨｏｓｔＡｐｐに通知する（９）。

米国公開特許２００８／０３０００２５

従来の音声認識システムでは、トリガーワード検出後、録音停止に時間がかかり、録音モジュールに録音開始が要求されるまで、ユーザーの発話は、録音されない。このため、トリガーワード検出後の録音停止区間で、ユーザーが発話した場合、自然言語理解が行われる音声信号の頭欠けが発生し、正常に自然言語理解が行われないという問題がある。従って、ユーザーは、トリガーワードを発話した後、間隔をあけて、音声コマンドを発話する必要がある。言い換えれば、ユーザーは、トリガーワードと音声コマンドとを連続して発話できない。

本発明の目的は、ユーザーが、トリガーワードと音声コマンドとを連続して発話可能とすることである。

第１の発明の音声認識システムは、音声信号が録音される録音モジュールを備え、前記録音モジュールに録音された音声信号からトリガーワードの検出が行われ、前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われ、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続けることを特徴とする。

本発明では、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。従って、トリガーワード検出後から自然言語理解までの間に、音声信号の録音が停止されないため、自然言語理解が行われる音声信号の頭欠けが発生することがなく、正常に自然言語理解が行われる。このため、ユーザーは、トリガーワードと音声コマンドとの間隔をあけることなく、トリガーワードと音声コマンドとを連続して発話することができる。

第２の発明の音声認識システムは、第１の発明の音声認識システムにおいて、トリガーワード検出後に前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われることを特徴とする。

第３の発明の音声認識システムは、第１又は第２の発明の音声認識システムにおいて、起動後、常に音声信号が録音されることを特徴とする。

第４の発明の音声認識システムは、電子機器とサーバーとを備え、前記電子機器の制御部は、トリガーワードの検出を行い、前記サーバーは、自然言語理解を行うことを特徴とする。

第５の発明の音声認識方法は、音声信号を録音し、録音した音声信号からトリガーワードの検出を行い、録音した音声信号から自然言語理解を行い、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号を録音し続けることを特徴とする。

本発明によれば、ユーザーは、トリガーワードと音声コマンドとを連続して発話することができる。

本発明の実施形態に係る音声認識システムの構成を示す図である。本発明の実施形態に係る音声認識システムの処理動作を示すシーケンス図である。従来の音声認識システムの構成を示す図である。従来の音声認識システムの処理動作を示すシーケンス図である。

以下、本発明の実施形態について説明する。図１は、本発明の実施形態係る音声認識システムの構成を示すブロック図である。音声認識システム１は、電子機器と、クラウドサーバーと、を備える。電子機器は、ＳｏＣと、ＤＳＰと、マイクと、スピーカーと、録音モジュールと、等を備える。ＳｏＣ（制御部）は、電子機器を構成する各部を制御する。本実施形態では、音声認識システム１は、電子機器と、クラウドサーバーと、によって、構成され、電子機器とクラウドサーバーとが協働して、音声認識を行う。

マイクは、音声を集音する。マイクにより集音された音声は、録音ジュールにより、録音される。ＤＳＰ（信号処理部）は、録音モジュールにより録音された音声信号に、ノイズキャンセル、エコーキャンセルを行う。ＳｏＣは、ノイズキャンセル、エコーキャンセルが行われた音声信号から、トリガーワードの検出（ＶＴ）を行う。すなわち、録音モジュールにより録音された音声信号から、トリガーワードの検出が行われる。トリガーワードは、例えば、「ハロー、オンキヨー」である。本実施形態では、ＳｏＣがトリガーワードの検出を行うが、トリガーワードの検出は、クラウドサーバーで行われてもよい。なお、本明細書、及び、特許請求の範囲において、音声認識を有効とするための文言を、「トリガーワード」と言うが、「ホットワード」、「ウェイクワード」等、他の文言を排除するものではなく、音声認識を有効とするための文言であれば、種々の文言を含む概念を意図する。

ＳｏＣは、トリガーワードを検出した後、自然言語理解のため、録音モジュールに録音された音声信号を、クラウドサーバーに送信する。

図２は、本発明の実施形態に係る音声認識システムの処理動作を示すシーケンス図である。音声認識システム１の起動後、ＨｏｓｔＡｐｐ（ＳｏＣ）は、トリガーワードの検出開始をＶＴエンジン（ＳｏＣ）に通知する（１）。なお、ＨｏｓｔＡｐｐ、及び、ＶＴエンジンは、ＳｏＣにより実行されるアプリケーションである。ＨｏｓｔＡｐｐは、録音モジュールに録音開始要求を行う（２）。これにより、録音モジュールによる、マイクにより集音された音声信号の録音が開始される（録音状態）。従って、トリガーワード検出処理開始から、音声信号が録音される。ＶＴエンジンは、トリガーワードを検出した場合、トリガーワードを検出したことをＨｏｓｔＡｐｐに通知する（３）。

ＨｏｓｔＡｐｐは、自然言語理解開始をＮＬＵエンジン（クラウドサーバー）に通知する（４）。ＮＬＵエンジンは、録音モジュールに録音された音声信号に基づいて、自然言語理解を行う。ＮＬＵエンジンは、自然言語理解終了をＨｏｓｔＡｐｐに通知する（５）。ここで、少なくとも、トリガーワードの検出処理から自然言語理解が終了するまで、音声信号が録音され続ける。本実施形態では、音声認識システム１の起動後、常に、音声信号が録音される。また、トリガーワード検出後に録音モジュールに録音された音声信号に基づいて、ＮＬＵエンジンにより、自然言語理解が行われる。

以上説明したように、本実施形態では、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。従って、トリガーワード検出後から自然言語理解までの間に、音声信号の録音が停止されないため、自然言語理解が行われる音声信号の頭欠けが発生することがなく、正常に自然言語理解が行われる。このため、ユーザーは、トリガーワード（例えば、「ハロー、オンキヨー」）と音声コマンド（例えば、「天気を教えて」）との間隔をあけることなく、トリガーワードと音声コマンドとを連続して発話することができる。すなわち、ユーザーは、「ハロー、オンキヨー。天気を教えて」と連続して発話することができる。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。

１音声認識システム

Claims

音声信号が録音される録音モジュールを備え、
前記録音モジュールに録音された音声信号からトリガーワードの検出が行われ、
前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われ、
少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続けることを特徴とする音声認識システム。
トリガーワード検出後に前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われることを特徴とする請求項１に記載の音声認識システム。
起動後、常に音声信号が録音されることを特徴とする請求項１又は２に記載の音声認識システム。
電子機器とサーバーとを備え、
前記電子機器の制御部は、トリガーワードの検出を行い、
前記サーバーは、自然言語理解を行うことを特徴とする音声認識システム。
音声信号を録音し、
録音した音声信号からトリガーワードの検出を行い、
録音した音声信号から自然言語理解を行い、
少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号を録音し続けることを特徴とする音声認識方法。