JP2020148805A - 音声認識システム、及び、音声認識方法 - Google Patents
音声認識システム、及び、音声認識方法 Download PDFInfo
- Publication number
- JP2020148805A JP2020148805A JP2019043545A JP2019043545A JP2020148805A JP 2020148805 A JP2020148805 A JP 2020148805A JP 2019043545 A JP2019043545 A JP 2019043545A JP 2019043545 A JP2019043545 A JP 2019043545A JP 2020148805 A JP2020148805 A JP 2020148805A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- voice
- recognition system
- trigger word
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】音声認識を有効とするためのトリガーワードを省略可能とすること。【解決手段】音声認識システム1は、音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う。音声認識システム1は、音声に基づいて、周囲の人数を検出する。音声認識システム1は、検出した周囲の人数が、1人であり、且つ、発話内容が、質問形式である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。【選択図】図1
Description
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
ASR(Auto Speech Recognition)は、音声認識端末等において、端末を駆動させるためのトリガとして幅広く活用されている技術である。特許文献1には、トリガーワード(ホットワード)として、「オーケーコンピュータ」が記載されている。
以下、ASRが使用される理由について、説明する。音声認識端末(音声認識システム)は、図4に示す構成で実現されている。ここで、VADは、Voice Activate Detectionの略であり、音声(声や物音を含む)を検知する処理である。STTは、Speech to Textの略であり、音声をテキストに変換する処理である。NLUは、Natural Language Understandingの略であり、テキストをコマンド化し、対応したコマンドの応答をテキストで返却する処理である。TTSは、Text to Speechの略であり、テキストを音声に変換する処理である。ASRが、明示的なトリガーワードにより行われる理由は、主に2点ある。
1.音声端末への入力音声以外の音声を除くことができ、STT、NLUに係るコストを削減することができる。
2.ユーザーが音声録音の許可をしたと扱う。
1.音声端末への入力音声以外の音声を除くことができ、STT、NLUに係るコストを削減することができる。
2.ユーザーが音声録音の許可をしたと扱う。
ASRのデメリットは、以下のとおりである。昨今では、会話形式を実現することもできるが、基本的には、ユーザーは、コマンドを要求するたびに、トリガーワードを発話する必要がある。ユーザーにとって、毎回トリガーワードを発しなければならないということが非常に煩わしい。
本発明の目的は、音声認識を有効とするためのトリガーワードを省略可能とすることである。
第1の発明の音声認識システムは、音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識システムであって、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、1人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする。
本発明では、音声認識システムは、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、1人である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。従って、ユーザーは、音声認識システムの周囲に1人であれば、トリガーワードを省略することができる。
なお、ここでは、音声認識を有効とするためのワード(例えば、「オーケーコンピュータ」等)を、トリガーワードを呼ぶが、ボイストリガー、ホットワード等と呼ばれる場合があり、これらの文言を含む概念である。
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、検出した周囲の人数が、1人であり、且つ、発話内容が、質問形式である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする。
第3の発明の音声認識システムは、第2の発明の音声認識システムにおいて、発話内容の文末及び語尾の分析を行い、発話内容が質問形式であるか否かを判断することを特徴とする。
第4の発明の音声認識システムは、第1〜第3のいずれかの発明の音声認識システムにおいて、音声を検出し、所定の閾値以上の音声を検出した場合に、音声に基づいて、周囲の人数を検出することを特徴とする。
第5の発明の音声認識システムは、第1〜第4のいずれかの発明の音声認識システムにおいて、前記その後の音声認識処理は、音声をテキストに変換する処理、テキストをコマンド化し、対応したコマンドの応答をテキストで応答する処理、テキストを音声に変換する処理を含むことを特徴とする。
第6の発明の音声認識方法は、音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識方法であって、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、1人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする。
本発明によれば、トリガーワードを省略することができる。
以下、本発明の実施形態について説明する。図1は、本発明の実施形態に係る音声認識システム1により行われる処理を示すブロック図である。本実施形態に係る音声認識システム1は、例えば、CPU(Central Processing Unit)、DSP(Digital Signal Processing Unit)、マイク、スピーカー等を備えるスピーカー装置と、スピーカー装置と通信するクラウドサーバーと、から構成される。これに限らず、音声認識システム1は、スピーカー装置のみによって構成されていてもよい。この場合、VAD等の処理は、例えば、DSPによって行われる。音声認識システム1が、スピーカー装置とクラウドサーバーとから構成される場合、全ての処理が、クラウドサーバーにより行われてもよいし、例えば、ASRまでの処理が、スピーカー装置により行われ、STT+QD以降の処理がクラウドサーバーにより行われてもよい。
以下、各処理について説明する。図4に示す従来の音声認識システムで行われる処理に比べて、CPが、増加している。また、STTは、STT+QDに置き換わっている。VADは、Voice Active Detectionの略であり、音声(声や物音を含む)を検出する処理である。CPは、Count Personの略であり、周辺の人数を検出する処理である。詳細については、後述する。STTは、Speech to Textの略であり、音声をテキストに変換する処理である。QDは、Question Detectionの略であり、発話内容が質問形式であるか否かを判断する処理である。NLUは、Natural Language Understandingの略であり、テキストをコマンド化し、対応したコマンドの応答をテキストで応答(返却)する処理である。TTSは、Text to Speechの略であり、テキストを音声に変換する処理である。
上述のように、CPは、周辺の人数を検出する処理である。人数の判断において、一定時間内に話した人数をカウントする。例えば、無音が10分続くと、周辺の人数は、0人と判断する。10分以内に、Aの音声を検出すると、周辺の人数は、1人と判断する。加えて、10分以内にBを検出すると、周辺の人数は、2人と判断する。
また、QDは、上述のように、発話内容が質問形式であるか否かを判断する処理である。例えば、音声認識システム1が、スピーカー装置単体から構成される場合、発話内容を毎回STTするには、処理不可がかかるので、本実施形態では、例えば、スピーカー装置のDSP(ローカル)で駆動できる低負荷な簡易エンジンである。QDは、文章全体の解析ではなく、発話内容の文末及び語尾の分析を行い、発話内容が質問形式であるか否かを判断する。
以下、図1に基づいて、処理の流れを説明する。物音が発生すると、VADにより、物音が検出される。VADによる物音の検出により、CPにより、周辺に人が何人いるかが判定される。CPにより、1人であると判定された場合、QDが駆動され、発話内容が常時バッファリングされる。QDにより、ユーザーが発話した内容が質問形式であると判定されると、質問内容がSTTされ、以降は、従来と同じ処理がなされる。
音声認識システム1は、通常、音声認識を有効とするためのトリガーワードを認識(ASR)した場合に、その後の音声認識処理(STT等)を行う。一方、音声認識システム1は、音声に基づいて、周囲の人数を検出し(CP)、検出した周囲の人数が、1人である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。本実施形態では、音声認識システム1は、検出した周囲の人数が、1人であり、且つ、発話内容が、質問形式である(QD)場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。
以下、CPを行う場合の音声認識システム1の処理動作を、図2に示すフローチャートに基づいて、説明する。音声認識システム1は、CPを行うための人数カウンターを備えており、所定時間に、人が検出されれば、カウンターが「+1」され、例えば、所定時間内に、2人検出されれば、人数カウンターは、「2」となる。人数カウンターには、ユーザーの声の情報も登録される。音声認識システム1は、人数カウンターが、1人以上であるか否かを判断する(S1)。音声認識システム1は、人数カウンターが、1人以上でないと判断している間は(S1:No)、S1の処理を実行する。音声認識システム1は、人数カウンターの10分タイマーを開始する(S2)。音声認識システム1は、人数カウンターが一定時間終了すると、人数カウンターを0人とする(S3)。
以下、音声認識システム1の処理動作を、図3に示すフローチャートに基づいて、説明する。音声認識システム1は、一定の閾値を超えた音(物音、音声)が入力されると(S11)、入力された音が、人の声であるか否かを判断する(S12)。音声認識システム1は、入力された音が、人の声でないと判断した場合(S12:No)、S11の処理に戻る。音声認識システム1は、入力された音が、人の声であると判断した場合(S12:Yes)、声が、既に人数カウンターに登録されているか否かを判断する(S13)。音声認識システム1は、声が、既に人数カウンターに登録されていないと判断した場合(S13:No)、声の特徴を保存し、人数カウンターを1増加させる(+1人)(S14)。
音声認識システム1は、声が、既に人数カウンターに登録されていると判断した場合(S13:Yes)、又は、S14の処理の後、人数カウンターが1人であるか否かを判断する(S15)。音声認識システム1は、人数カウンターが1人であると判断した場合(S15:Yes)、発話内容が、質問形式であるか否かを判断する(S16)。音声認識システム1は、発話内容が、質問形式であると判断した場合(S16:Yes)、STT/NLU/TTSを行う(S17)。従って、この場合、トリガーワードの認識(ASR)は、省略される。
一方、音声認識システム1は、人数カウンターが1人でないと判断した場合(S15:No)、又は、発話内容が、質問形式ではないと判断した場合(S16:No)、発話内容が、トリガーワードであるか否かを判断する(S18)。従って、この場合、トリガーワードの認識(ASR)は、省略されない。音声認識システム1は、発話内容が、トリガーワードであると判断した場合(S18:Yes)、S17の処理を行う。音声認識システム1は、発話内容が、トリガーワードでないと判断した場合(S18:No)、処理を終了する。音声認識システム1は、S17の処理の後、人数カウンタータイマーをリセットし(S19)、処理を終了する。
先行技術との相違点を説明する。特許第6227209号公報では、自動車等において、車内の人数をカウントすることを前提としており、人数をカウントする手段として、カメラ、圧力センサーが用いられている。本実施形態では、例えば、車内を含む車外においても、人数を検出可能とするため、音声(マイク)を用いて人数をカウントすることで、トリガーワードの省略を可能としている。
以上説明したように、本実施形態では、音声認識システム1は、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、1人である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。従って、ユーザーは、音声認識システムの周囲に1人であれば、トリガーワードを省略することができる。また、音声認識システム1は、カメラや圧力センサー等を用いることなく、人数を検出することが可能である。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
1 音声認識システム
Claims (6)
- 音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識システムであって、
音声に基づいて、周囲の人数を検出し、
検出した周囲の人数が、1人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする音声認識システム。 - 検出した周囲の人数が、1人であり、且つ、発話内容が、質問形式である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする請求項1に記載の音声認識システム。
- 発話内容の文末及び語尾の分析を行い、発話内容が質問形式であるか否かを判断することを特徴とする請求項2に記載の音声認識システム。
- 音声を検出し、
所定の閾値以上の音声を検出した場合に、音声に基づいて、周囲の人数を検出することを特徴とする請求項1〜3のいずれか1項に記載の音声認識システム。 - 前記その後の音声認識処理は、
音声をテキストに変換する処理、
テキストをコマンド化し、対応したコマンドの応答をテキストで応答する処理、
テキストを音声に変換する処理を含むことを特徴とする請求項1〜4のいずれか1項に記載の音声認識システム。 - 音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識方法であって、
音声に基づいて、周囲の人数を検出し、
検出した周囲の人数が、1人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019043545A JP2020148805A (ja) | 2019-03-11 | 2019-03-11 | 音声認識システム、及び、音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019043545A JP2020148805A (ja) | 2019-03-11 | 2019-03-11 | 音声認識システム、及び、音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020148805A true JP2020148805A (ja) | 2020-09-17 |
Family
ID=72429606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019043545A Pending JP2020148805A (ja) | 2019-03-11 | 2019-03-11 | 音声認識システム、及び、音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020148805A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023062817A1 (ja) * | 2021-10-15 | 2023-04-20 | パイオニア株式会社 | 音声認識装置、制御方法、プログラム及び記憶媒体 |
WO2024070080A1 (ja) * | 2022-09-30 | 2024-04-04 | パイオニア株式会社 | 情報処理装置、情報処理方法、及びプログラム |
-
2019
- 2019-03-11 JP JP2019043545A patent/JP2020148805A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023062817A1 (ja) * | 2021-10-15 | 2023-04-20 | パイオニア株式会社 | 音声認識装置、制御方法、プログラム及び記憶媒体 |
WO2024070080A1 (ja) * | 2022-09-30 | 2024-04-04 | パイオニア株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
US6651043B2 (en) | User barge-in enablement in large vocabulary speech recognition systems | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US12033641B2 (en) | Voice shortcut detection with speaker verification | |
JP4246703B2 (ja) | 自動音声認識の方法 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2020148805A (ja) | 音声認識システム、及び、音声認識方法 | |
JP2008033198A (ja) | 音声対話システム、音声対話方法、音声入力装置、プログラム | |
JP6827536B2 (ja) | 音声認識装置および音声認識方法 | |
JP6673243B2 (ja) | 音声認識装置 | |
CN113241059A (zh) | 语音唤醒方法、装置、设备及存储介质 | |
JP2006251061A (ja) | 音声対話装置および音声対話方法 | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
CN113096651A (zh) | 语音信号处理方法、装置、可读存储介质及电子设备 | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
EP4244852A1 (en) | Adapting automated speech recognition parameters based on hotword properties | |
JP4178931B2 (ja) | 音声認識装置 | |
WO2017085815A1 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
JP2005024869A (ja) | 音声応答装置 | |
JP4507996B2 (ja) | 運転者負荷推定装置 | |
JP6759370B2 (ja) | 呼出音認識装置および呼出音認識方法 | |
JPH0481898A (ja) | 音声認識装置 | |
KR20240028298A (ko) | 다수의 소스로부터 가상 개인 비서 디바이스를 향해 지향된 명령을 승인하고 우선순위화하기 위한 기술 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210928 |