JP2019139146A - 音声認識システム、及び、音声認識方法 - Google Patents
音声認識システム、及び、音声認識方法 Download PDFInfo
- Publication number
- JP2019139146A JP2019139146A JP2018024132A JP2018024132A JP2019139146A JP 2019139146 A JP2019139146 A JP 2019139146A JP 2018024132 A JP2018024132 A JP 2018024132A JP 2018024132 A JP2018024132 A JP 2018024132A JP 2019139146 A JP2019139146 A JP 2019139146A
- Authority
- JP
- Japan
- Prior art keywords
- trigger word
- recorded
- natural language
- recognition system
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】ユーザーが、トリガーワードと音声コマンドとを連続して発話可能とすること。【解決手段】音声認識システム1は、音声信号が録音される録音モジュールを備える。録音モジュールに録音された音声信号からトリガーワードの検出が行われ、録音モジュールに録音された音声信号に基づいて、自然言語理解が行われる。少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。好ましくは、音声認識システム1の起動後、常に、音声信号が録音される。【選択図】図2
Description
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
音声認識を行う音声認識システムは、例えば、スピーカー装置等の電子機器と、クラウドサーバーと、から構成される。電子機器は、マイクとスピーカーとを備える。音声認識システムは、マイクから入力される音声を認識し、認識した音声に基づいて、処理を実行し、実行結果をスピーカーから出力する。例えば、ユーザーが、音声コマンド「天気教えて」と発話した場合、音声認識システムに含まれる電子機器から、「今日の天気は晴れです。」という音声が出力される。特許文献1には、音声認識の結果で、通信レートを変更する発明が開示されている。
音声認識を行う音声認識システムの中には、音声認識を有効とするためのトリガーワード(例えば、「ハロー、オンキヨー」)を検出した場合に、その後の音声認識処理(自然言語理解:NLU(Natural language understanding))を行うものがある。図3は、従来の音声認識システムの構成を示す図である。電子機器は、例えば、エコーキャンセル、ノイズキャンセル、トリガーワード検出(VT)を行うDSP(Digital Signal Processor)、SoC(System on Chip)、マイク等を備える。DSPは、マイクにより集音された音声信号に、エコーキャンセル、ノイズキャンセルを行い、エコーキャンセル等を行った音声信号から、トリガーワードを検出する。DSPは、トリガーワードを検出した場合、その旨をSoCに通知する。SoCは、マイクにより集音された音声信号をクラウドサーバーに送信する。
クラウドサーバーは、電子機器から送信される音声信号を受信する。クラウドサーバーは、受信した音声信号から、トリガーワードを検出(VT)する。このように、従来の音声認識システムでは、電子機器と、クラウドサーバーとで、二段階のトリガーワード認証が行われる。
図4は、従来の音声認識システムの処理動作を示すシーケンス図である。Host App(SoC)は、トリガーワードの検出開始をVTエンジン(DSP)に通知する(1)。なお、Host Appは、SoCにより実行されるアプリケーションであり、VTエンジンは、DSPにより実行されるアプリケーションである。VTエンジンは、録音モジュールに録音開始要求を行う(2)。これにより、録音モジュールによる、マイクにより集音された音声信号の録音が開始される(録音状態)。VTエンジンは、トリガーワードを検出した場合、トリガーワードを検出したことをHost Appに通知する(3)。また、VTエンジンは、録音モジュールに録音停止要求を行う(4)。これにより、録音モジュールによる音声信号の録音が停止される(録音停止)。
Host Appは、トリガーワード検出終了をVTエンジンに通知する(5)。次に、Host Appは、自然言語理解開始をNLUエンジン(クラウドサーバー)に通知する(6)。NLUエンジンは、録音モジュールに録音開始要求を行う(7)。これにより、録音モジュールによる音声信号の録音が開始される(録音状態)。次に、NLUエンジンは、録音モジュールに録音停止要求を行う(8)。これにより、録音モジュールによる音声信号の録音が停止される。次に、NLUエンジンは、自然言語理解終了をHost Appに通知する(9)。
従来の音声認識システムでは、トリガーワード検出後、録音停止に時間がかかり、録音モジュールに録音開始が要求されるまで、ユーザーの発話は、録音されない。このため、トリガーワード検出後の録音停止区間で、ユーザーが発話した場合、自然言語理解が行われる音声信号の頭欠けが発生し、正常に自然言語理解が行われないという問題がある。従って、ユーザーは、トリガーワードを発話した後、間隔をあけて、音声コマンドを発話する必要がある。言い換えれば、ユーザーは、トリガーワードと音声コマンドとを連続して発話できない。
本発明の目的は、ユーザーが、トリガーワードと音声コマンドとを連続して発話可能とすることである。
第1の発明の音声認識システムは、音声信号が録音される録音モジュールを備え、前記録音モジュールに録音された音声信号からトリガーワードの検出が行われ、前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われ、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続けることを特徴とする。
本発明では、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。従って、トリガーワード検出後から自然言語理解までの間に、音声信号の録音が停止されないため、自然言語理解が行われる音声信号の頭欠けが発生することがなく、正常に自然言語理解が行われる。このため、ユーザーは、トリガーワードと音声コマンドとの間隔をあけることなく、トリガーワードと音声コマンドとを連続して発話することができる。
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、トリガーワード検出後に前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われることを特徴とする。
第3の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、起動後、常に音声信号が録音されることを特徴とする。
第4の発明の音声認識システムは、電子機器とサーバーとを備え、前記電子機器の制御部は、トリガーワードの検出を行い、前記サーバーは、自然言語理解を行うことを特徴とする。
第5の発明の音声認識方法は、音声信号を録音し、録音した音声信号からトリガーワードの検出を行い、録音した音声信号から自然言語理解を行い、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号を録音し続けることを特徴とする。
本発明によれば、ユーザーは、トリガーワードと音声コマンドとを連続して発話することができる。
以下、本発明の実施形態について説明する。図1は、本発明の実施形態係る音声認識システムの構成を示すブロック図である。音声認識システム1は、電子機器と、クラウドサーバーと、を備える。電子機器は、SoCと、DSPと、マイクと、スピーカーと、録音モジュールと、等を備える。SoC(制御部)は、電子機器を構成する各部を制御する。本実施形態では、音声認識システム1は、電子機器と、クラウドサーバーと、によって、構成され、電子機器とクラウドサーバーとが協働して、音声認識を行う。
マイクは、音声を集音する。マイクにより集音された音声は、録音ジュールにより、録音される。DSP(信号処理部)は、録音モジュールにより録音された音声信号に、ノイズキャンセル、エコーキャンセルを行う。SoCは、ノイズキャンセル、エコーキャンセルが行われた音声信号から、トリガーワードの検出(VT)を行う。すなわち、録音モジュールにより録音された音声信号から、トリガーワードの検出が行われる。トリガーワードは、例えば、「ハロー、オンキヨー」である。本実施形態では、SoCがトリガーワードの検出を行うが、トリガーワードの検出は、クラウドサーバーで行われてもよい。なお、本明細書、及び、特許請求の範囲において、音声認識を有効とするための文言を、「トリガーワード」と言うが、「ホットワード」、「ウェイクワード」等、他の文言を排除するものではなく、音声認識を有効とするための文言であれば、種々の文言を含む概念を意図する。
SoCは、トリガーワードを検出した後、自然言語理解のため、録音モジュールに録音された音声信号を、クラウドサーバーに送信する。
図2は、本発明の実施形態に係る音声認識システムの処理動作を示すシーケンス図である。音声認識システム1の起動後、Host App(SoC)は、トリガーワードの検出開始をVTエンジン(SoC)に通知する(1)。なお、Host App、及び、VTエンジンは、SoCにより実行されるアプリケーションである。Host Appは、録音モジュールに録音開始要求を行う(2)。これにより、録音モジュールによる、マイクにより集音された音声信号の録音が開始される(録音状態)。従って、トリガーワード検出処理開始から、音声信号が録音される。VTエンジンは、トリガーワードを検出した場合、トリガーワードを検出したことをHost Appに通知する(3)。
Host Appは、自然言語理解開始をNLUエンジン(クラウドサーバー)に通知する(4)。NLUエンジンは、録音モジュールに録音された音声信号に基づいて、自然言語理解を行う。NLUエンジンは、自然言語理解終了をHost Appに通知する(5)。ここで、少なくとも、トリガーワードの検出処理から自然言語理解が終了するまで、音声信号が録音され続ける。本実施形態では、音声認識システム1の起動後、常に、音声信号が録音される。また、トリガーワード検出後に録音モジュールに録音された音声信号に基づいて、NLUエンジンにより、自然言語理解が行われる。
以上説明したように、本実施形態では、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。従って、トリガーワード検出後から自然言語理解までの間に、音声信号の録音が停止されないため、自然言語理解が行われる音声信号の頭欠けが発生することがなく、正常に自然言語理解が行われる。このため、ユーザーは、トリガーワード(例えば、「ハロー、オンキヨー」)と音声コマンド(例えば、「天気を教えて」)との間隔をあけることなく、トリガーワードと音声コマンドとを連続して発話することができる。すなわち、ユーザーは、「ハロー、オンキヨー。天気を教えて」と連続して発話することができる。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
1 音声認識システム
Claims (5)
- 音声信号が録音される録音モジュールを備え、
前記録音モジュールに録音された音声信号からトリガーワードの検出が行われ、
前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われ、
少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続けることを特徴とする音声認識システム。 - トリガーワード検出後に前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われることを特徴とする請求項1に記載の音声認識システム。
- 起動後、常に音声信号が録音されることを特徴とする請求項1又は2に記載の音声認識システム。
- 電子機器とサーバーとを備え、
前記電子機器の制御部は、トリガーワードの検出を行い、
前記サーバーは、自然言語理解を行うことを特徴とする音声認識システム。 - 音声信号を録音し、
録音した音声信号からトリガーワードの検出を行い、
録音した音声信号から自然言語理解を行い、
少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号を録音し続けることを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018024132A JP2019139146A (ja) | 2018-02-14 | 2018-02-14 | 音声認識システム、及び、音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018024132A JP2019139146A (ja) | 2018-02-14 | 2018-02-14 | 音声認識システム、及び、音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019139146A true JP2019139146A (ja) | 2019-08-22 |
Family
ID=67693881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018024132A Pending JP2019139146A (ja) | 2018-02-14 | 2018-02-14 | 音声認識システム、及び、音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019139146A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021056485A (ja) * | 2019-09-29 | 2021-04-08 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 |
JP2021056483A (ja) * | 2019-09-29 | 2021-04-08 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 |
-
2018
- 2018-02-14 JP JP2018024132A patent/JP2019139146A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021056485A (ja) * | 2019-09-29 | 2021-04-08 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 |
JP2021056483A (ja) * | 2019-09-29 | 2021-04-08 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 |
JP7051799B2 (ja) | 2019-09-29 | 2022-04-11 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11502859B2 (en) | Method and apparatus for waking up via speech | |
US20170330566A1 (en) | Distributed Volume Control for Speech Recognition | |
EP3002754B1 (en) | System and method for processing an audio signal captured from a microphone | |
US20190207777A1 (en) | Voice command processing in low power devices | |
US9293134B1 (en) | Source-specific speech interactions | |
US20150221307A1 (en) | Transition from low power always listening mode to high power speech recognition mode | |
US11004453B2 (en) | Avoiding wake word self-triggering | |
JP7202075B2 (ja) | 複数の音声認識装置間の調整 | |
JP2016505897A5 (ja) | ||
US10529331B2 (en) | Suppressing key phrase detection in generated audio using self-trigger detector | |
US11763819B1 (en) | Audio encryption | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
JP2006251545A (ja) | 音声対話システム及びコンピュータプログラム | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
US20200202843A1 (en) | Unwanted keyword detection abatement systems and methods | |
KR102493866B1 (ko) | 디지털 마이크로폰을 가진 오디오 시스템 | |
KR20230116908A (ko) | 프리즈 워드 | |
JP2019113636A (ja) | 音声認識システム | |
JP2011039222A (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
US11699438B2 (en) | Open smart speaker | |
JP2019110447A (ja) | 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム | |
JP6539940B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2020177060A (ja) | 音声認識システム、及び、音声認識方法 | |
JP2016061890A (ja) | 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム | |
WO2018227560A1 (zh) | 耳机控制方法及系统 |