JP2019139146A - 音声認識システム、及び、音声認識方法 - Google Patents

音声認識システム、及び、音声認識方法 Download PDF

Info

Publication number
JP2019139146A
JP2019139146A JP2018024132A JP2018024132A JP2019139146A JP 2019139146 A JP2019139146 A JP 2019139146A JP 2018024132 A JP2018024132 A JP 2018024132A JP 2018024132 A JP2018024132 A JP 2018024132A JP 2019139146 A JP2019139146 A JP 2019139146A
Authority
JP
Japan
Prior art keywords
trigger word
recorded
natural language
recognition system
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018024132A
Other languages
English (en)
Inventor
近藤 裕介
Yusuke Kondo
裕介 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Onkyo Corp
Original Assignee
Onkyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Onkyo Corp filed Critical Onkyo Corp
Priority to JP2018024132A priority Critical patent/JP2019139146A/ja
Publication of JP2019139146A publication Critical patent/JP2019139146A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】ユーザーが、トリガーワードと音声コマンドとを連続して発話可能とすること。【解決手段】音声認識システム1は、音声信号が録音される録音モジュールを備える。録音モジュールに録音された音声信号からトリガーワードの検出が行われ、録音モジュールに録音された音声信号に基づいて、自然言語理解が行われる。少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。好ましくは、音声認識システム1の起動後、常に、音声信号が録音される。【選択図】図2

Description

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
音声認識を行う音声認識システムは、例えば、スピーカー装置等の電子機器と、クラウドサーバーと、から構成される。電子機器は、マイクとスピーカーとを備える。音声認識システムは、マイクから入力される音声を認識し、認識した音声に基づいて、処理を実行し、実行結果をスピーカーから出力する。例えば、ユーザーが、音声コマンド「天気教えて」と発話した場合、音声認識システムに含まれる電子機器から、「今日の天気は晴れです。」という音声が出力される。特許文献1には、音声認識の結果で、通信レートを変更する発明が開示されている。
音声認識を行う音声認識システムの中には、音声認識を有効とするためのトリガーワード(例えば、「ハロー、オンキヨー」)を検出した場合に、その後の音声認識処理(自然言語理解:NLU(Natural language understanding))を行うものがある。図3は、従来の音声認識システムの構成を示す図である。電子機器は、例えば、エコーキャンセル、ノイズキャンセル、トリガーワード検出(VT)を行うDSP(Digital Signal Processor)、SoC(System on Chip)、マイク等を備える。DSPは、マイクにより集音された音声信号に、エコーキャンセル、ノイズキャンセルを行い、エコーキャンセル等を行った音声信号から、トリガーワードを検出する。DSPは、トリガーワードを検出した場合、その旨をSoCに通知する。SoCは、マイクにより集音された音声信号をクラウドサーバーに送信する。
クラウドサーバーは、電子機器から送信される音声信号を受信する。クラウドサーバーは、受信した音声信号から、トリガーワードを検出(VT)する。このように、従来の音声認識システムでは、電子機器と、クラウドサーバーとで、二段階のトリガーワード認証が行われる。
図4は、従来の音声認識システムの処理動作を示すシーケンス図である。Host App(SoC)は、トリガーワードの検出開始をVTエンジン(DSP)に通知する(1)。なお、Host Appは、SoCにより実行されるアプリケーションであり、VTエンジンは、DSPにより実行されるアプリケーションである。VTエンジンは、録音モジュールに録音開始要求を行う(2)。これにより、録音モジュールによる、マイクにより集音された音声信号の録音が開始される(録音状態)。VTエンジンは、トリガーワードを検出した場合、トリガーワードを検出したことをHost Appに通知する(3)。また、VTエンジンは、録音モジュールに録音停止要求を行う(4)。これにより、録音モジュールによる音声信号の録音が停止される(録音停止)。
Host Appは、トリガーワード検出終了をVTエンジンに通知する(5)。次に、Host Appは、自然言語理解開始をNLUエンジン(クラウドサーバー)に通知する(6)。NLUエンジンは、録音モジュールに録音開始要求を行う(7)。これにより、録音モジュールによる音声信号の録音が開始される(録音状態)。次に、NLUエンジンは、録音モジュールに録音停止要求を行う(8)。これにより、録音モジュールによる音声信号の録音が停止される。次に、NLUエンジンは、自然言語理解終了をHost Appに通知する(9)。
米国公開特許2008/0300025
従来の音声認識システムでは、トリガーワード検出後、録音停止に時間がかかり、録音モジュールに録音開始が要求されるまで、ユーザーの発話は、録音されない。このため、トリガーワード検出後の録音停止区間で、ユーザーが発話した場合、自然言語理解が行われる音声信号の頭欠けが発生し、正常に自然言語理解が行われないという問題がある。従って、ユーザーは、トリガーワードを発話した後、間隔をあけて、音声コマンドを発話する必要がある。言い換えれば、ユーザーは、トリガーワードと音声コマンドとを連続して発話できない。
本発明の目的は、ユーザーが、トリガーワードと音声コマンドとを連続して発話可能とすることである。
第1の発明の音声認識システムは、音声信号が録音される録音モジュールを備え、前記録音モジュールに録音された音声信号からトリガーワードの検出が行われ、前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われ、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続けることを特徴とする。
本発明では、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。従って、トリガーワード検出後から自然言語理解までの間に、音声信号の録音が停止されないため、自然言語理解が行われる音声信号の頭欠けが発生することがなく、正常に自然言語理解が行われる。このため、ユーザーは、トリガーワードと音声コマンドとの間隔をあけることなく、トリガーワードと音声コマンドとを連続して発話することができる。
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、トリガーワード検出後に前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われることを特徴とする。
第3の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、起動後、常に音声信号が録音されることを特徴とする。
第4の発明の音声認識システムは、電子機器とサーバーとを備え、前記電子機器の制御部は、トリガーワードの検出を行い、前記サーバーは、自然言語理解を行うことを特徴とする。
第5の発明の音声認識方法は、音声信号を録音し、録音した音声信号からトリガーワードの検出を行い、録音した音声信号から自然言語理解を行い、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号を録音し続けることを特徴とする。
本発明によれば、ユーザーは、トリガーワードと音声コマンドとを連続して発話することができる。
本発明の実施形態に係る音声認識システムの構成を示す図である。 本発明の実施形態に係る音声認識システムの処理動作を示すシーケンス図である。 従来の音声認識システムの構成を示す図である。 従来の音声認識システムの処理動作を示すシーケンス図である。
以下、本発明の実施形態について説明する。図1は、本発明の実施形態係る音声認識システムの構成を示すブロック図である。音声認識システム1は、電子機器と、クラウドサーバーと、を備える。電子機器は、SoCと、DSPと、マイクと、スピーカーと、録音モジュールと、等を備える。SoC(制御部)は、電子機器を構成する各部を制御する。本実施形態では、音声認識システム1は、電子機器と、クラウドサーバーと、によって、構成され、電子機器とクラウドサーバーとが協働して、音声認識を行う。
マイクは、音声を集音する。マイクにより集音された音声は、録音ジュールにより、録音される。DSP(信号処理部)は、録音モジュールにより録音された音声信号に、ノイズキャンセル、エコーキャンセルを行う。SoCは、ノイズキャンセル、エコーキャンセルが行われた音声信号から、トリガーワードの検出(VT)を行う。すなわち、録音モジュールにより録音された音声信号から、トリガーワードの検出が行われる。トリガーワードは、例えば、「ハロー、オンキヨー」である。本実施形態では、SoCがトリガーワードの検出を行うが、トリガーワードの検出は、クラウドサーバーで行われてもよい。なお、本明細書、及び、特許請求の範囲において、音声認識を有効とするための文言を、「トリガーワード」と言うが、「ホットワード」、「ウェイクワード」等、他の文言を排除するものではなく、音声認識を有効とするための文言であれば、種々の文言を含む概念を意図する。
SoCは、トリガーワードを検出した後、自然言語理解のため、録音モジュールに録音された音声信号を、クラウドサーバーに送信する。
図2は、本発明の実施形態に係る音声認識システムの処理動作を示すシーケンス図である。音声認識システム1の起動後、Host App(SoC)は、トリガーワードの検出開始をVTエンジン(SoC)に通知する(1)。なお、Host App、及び、VTエンジンは、SoCにより実行されるアプリケーションである。Host Appは、録音モジュールに録音開始要求を行う(2)。これにより、録音モジュールによる、マイクにより集音された音声信号の録音が開始される(録音状態)。従って、トリガーワード検出処理開始から、音声信号が録音される。VTエンジンは、トリガーワードを検出した場合、トリガーワードを検出したことをHost Appに通知する(3)。
Host Appは、自然言語理解開始をNLUエンジン(クラウドサーバー)に通知する(4)。NLUエンジンは、録音モジュールに録音された音声信号に基づいて、自然言語理解を行う。NLUエンジンは、自然言語理解終了をHost Appに通知する(5)。ここで、少なくとも、トリガーワードの検出処理から自然言語理解が終了するまで、音声信号が録音され続ける。本実施形態では、音声認識システム1の起動後、常に、音声信号が録音される。また、トリガーワード検出後に録音モジュールに録音された音声信号に基づいて、NLUエンジンにより、自然言語理解が行われる。
以上説明したように、本実施形態では、少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続ける。従って、トリガーワード検出後から自然言語理解までの間に、音声信号の録音が停止されないため、自然言語理解が行われる音声信号の頭欠けが発生することがなく、正常に自然言語理解が行われる。このため、ユーザーは、トリガーワード(例えば、「ハロー、オンキヨー」)と音声コマンド(例えば、「天気を教えて」)との間隔をあけることなく、トリガーワードと音声コマンドとを連続して発話することができる。すなわち、ユーザーは、「ハロー、オンキヨー。天気を教えて」と連続して発話することができる。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
1 音声認識システム

Claims (5)

  1. 音声信号が録音される録音モジュールを備え、
    前記録音モジュールに録音された音声信号からトリガーワードの検出が行われ、
    前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われ、
    少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号が録音され続けることを特徴とする音声認識システム。
  2. トリガーワード検出後に前記録音モジュールに録音された音声信号に基づいて、自然言語理解が行われることを特徴とする請求項1に記載の音声認識システム。
  3. 起動後、常に音声信号が録音されることを特徴とする請求項1又は2に記載の音声認識システム。
  4. 電子機器とサーバーとを備え、
    前記電子機器の制御部は、トリガーワードの検出を行い、
    前記サーバーは、自然言語理解を行うことを特徴とする音声認識システム。
  5. 音声信号を録音し、
    録音した音声信号からトリガーワードの検出を行い、
    録音した音声信号から自然言語理解を行い、
    少なくとも、トリガーワードの検出処理開始から自然言語理解が終了するまで、音声信号を録音し続けることを特徴とする音声認識方法。
JP2018024132A 2018-02-14 2018-02-14 音声認識システム、及び、音声認識方法 Pending JP2019139146A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018024132A JP2019139146A (ja) 2018-02-14 2018-02-14 音声認識システム、及び、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018024132A JP2019139146A (ja) 2018-02-14 2018-02-14 音声認識システム、及び、音声認識方法

Publications (1)

Publication Number Publication Date
JP2019139146A true JP2019139146A (ja) 2019-08-22

Family

ID=67693881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018024132A Pending JP2019139146A (ja) 2018-02-14 2018-02-14 音声認識システム、及び、音声認識方法

Country Status (1)

Country Link
JP (1) JP2019139146A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056485A (ja) * 2019-09-29 2021-04-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
JP2021056483A (ja) * 2019-09-29 2021-04-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056485A (ja) * 2019-09-29 2021-04-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
JP2021056483A (ja) * 2019-09-29 2021-04-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体
JP7051799B2 (ja) 2019-09-29 2022-04-11 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体

Similar Documents

Publication Publication Date Title
US11502859B2 (en) Method and apparatus for waking up via speech
US20170330566A1 (en) Distributed Volume Control for Speech Recognition
EP3002754B1 (en) System and method for processing an audio signal captured from a microphone
US20190207777A1 (en) Voice command processing in low power devices
US9293134B1 (en) Source-specific speech interactions
US20150221307A1 (en) Transition from low power always listening mode to high power speech recognition mode
US11004453B2 (en) Avoiding wake word self-triggering
JP7202075B2 (ja) 複数の音声認識装置間の調整
JP2016505897A5 (ja)
US10529331B2 (en) Suppressing key phrase detection in generated audio using self-trigger detector
US11763819B1 (en) Audio encryption
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
US20200202843A1 (en) Unwanted keyword detection abatement systems and methods
KR102493866B1 (ko) 디지털 마이크로폰을 가진 오디오 시스템
KR20230116908A (ko) 프리즈 워드
JP2019113636A (ja) 音声認識システム
JP2011039222A (ja) 音声認識システム、音声認識方法および音声認識プログラム
US11699438B2 (en) Open smart speaker
JP2019110447A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
JP6539940B2 (ja) 音声認識装置及び音声認識プログラム
JP2020177060A (ja) 音声認識システム、及び、音声認識方法
JP2016061890A (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
WO2018227560A1 (zh) 耳机控制方法及系统