JP2021032912A - 音声認識システム、及び、音声認識方法 - Google Patents
音声認識システム、及び、音声認識方法 Download PDFInfo
- Publication number
- JP2021032912A JP2021032912A JP2019148697A JP2019148697A JP2021032912A JP 2021032912 A JP2021032912 A JP 2021032912A JP 2019148697 A JP2019148697 A JP 2019148697A JP 2019148697 A JP2019148697 A JP 2019148697A JP 2021032912 A JP2021032912 A JP 2021032912A
- Authority
- JP
- Japan
- Prior art keywords
- command
- voice recognition
- answer
- recognition system
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】ユーザーが、発話のタイミングを極力意識する必要がない手段を提供すること。【解決手段】音声認識システムは、音声認識を行い、音声認識の結果に基づいた回答を行う。音声認識システムは、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、雑談型のコマンドである場合、雑談対話形式の回答を行い、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。【選択図】図1
Description
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
音声認識を行う音声認識システムは、ユーザーからの発話を音声認識し、例えば、ユーザーからの発話(質問)に対して、回答を行う。例えば、ユーザーが、「今日の天気は」と発話した場合、音声認識システムは、この発話を音声認識し、「今日の天気は晴れです」という発話をする。従来の音声認識システムにおいては、ユーザーからの発話と、音声認識システムからの発話と、のタイミングが区切られている(例えば、特許文献1参照。)。ユーザーが区切りを判断するために、音声認識システムは、効果音、LED等で、ユーザーに発話タイミングを促しており、ユーザーは、発話するために、このタイミングを意識しなくてはならない。
従来の音声認識システムにおいては、上述したように、ユーザーは、発話のタイミングを意識する必要があるという問題がある。
本発明の目的は、ユーザーが、発話のタイミングを極力意識する必要がない手段を提供することである。
第1の発明の音声認識システムは、音声認識を行い、音声認識の結果に基づいた回答を行う音声認識システムであって、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、雑談型のコマンドである場合、雑談対話形式の回答を行い、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする。
本発明では、音声認識システムは、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。従って、ユーザーは、音声認識システムが回答中であっても、コマンドの発話を行うことが可能であるため、発話のタイミングを意識する必要がない。また、コマンドの待受状態を従来よりも長くすることで、自然な会話に近づけることができる。また、音声認識システムが、雑談対話形式の回答中であれば、ユーザーは、その回答を最後まで聞くよりも、コマンドに対して、音声認識システムが応答することを望むと想定される。このため、音声認識システムが、雑談対話形式の回答を行っている場合に、回答を終了しても、ユーザーにとって不都合となりにくい。
「タスク指向型」のコマンドとは、コマンドに対する音声認識システムの応答が画一的なコマンドである。例えば、「音楽を再生」というコマンドに対して、音声認識システムは、音楽を再生し、「音楽を再生しました」という回答をする、という応答を行う。また、「今日の天気は?」というコマンドに対して、音声認識システムは、天気の回答をする(「今日の天気は晴れです。」を回答する)、という応答を行う。
また、「タスク指向型」のコマンドは、ユーザーの意図がはっきりしているコマンドともいえる。
「雑談型」のコマンドとは、コマンドに対する音声認識システムの応答が画一的ではないコマンドである。例えば、「元気ですか?」というコマンドに対して、音声認識システムは、「元気です」という回答をする場合もあれば、「元気ではないです」という回答をする場合もある。
また、「雑談型」のコマンドは、ユーザーの意図がはっきしりしていないコマンドともいえる。
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、タスク指向型である場合、回答を継続し、コマンドを受け付けることを特徴とする。
第3の発明の音声認識システムは、第2の発明の音声認識システムにおいて、タスク指向対話形式の回答終了後に、受け付けたタスク指向型コマンドに対する回答を行うことを特徴とする。
第4の発明の音声認識システムは、第1の発明の音声認識システムにおいて、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、雑談対話型である場合、コマンドを受け付けないことを特徴とする。
第5の発明の音声認識システムは、第1の発明の音声認識システムにおいて、音声認識を有効とするためのトリガーワードを認識した後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする。
ここでは、音声認識を有効とするためのワード(例えば、「オーケーコンピュータ」等(特開2017−076117号公報参照。))を、ボイストリガーを呼ぶが、トリガーワード、ホットワード等と呼ばれる場合があり、これらの概念も含む文言である。
第6の発明の音声認識システムは、第1の発明の音声認識システムにおいて、回答終了後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする。
第7の発明の音声認識システムは、第1の発明の音声認識システムにおいて、回答終了後、所定時間経過した場合に、音声認識を有効とするためのトリガーワードの待受状態となることを特徴とする。
第8の発明の音声認識方法は、音声認識を行い、音声認識の結果に基づいた回答を行う音声認識方法であって、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、雑談型のコマンドである場合、雑談対話形式の回答を行い、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする。
本発明によれば、ユーザーは、発話のタイミングを意識する必要がない。
まず、従来の音声認識を行う音声認識システムについて説明する。従来の音声認識システムの中には、音声認識機能を有効とするためのボイストリガー(「トリガーワード」等とも呼ばれる。)を音声認識した後、ユーザーからのコマンド(質問など)を受け付けるものがある。この場合、図2に示すように、ユーザーは、まず、ボイストリガーを発話し、音声認識システムを、コマンド(命令、質問など)の待受状態とする。ユーザーは、音声認識システムが、コマンドの待受状態となった後、コマンドを発話する。すなわち、ユーザーがコマンドを発話するタイミングは、ボイストリガーの直後である。ユーザーが発話するコマンドとしては、例えば、「今日の天気は?」などである。ユーザーが、タイミングを意識しなければならないのは、音声認識システムが、コマンドの待受状態かどうかを意識しなくてはならないためである。
図2に示すように、従来の音声認識システムでは、常時、ボイストリガーの待受状態であるが、コマンド待受状態となるのは、ボイストリガーがあった直後である。
また、音声認識システムが、コマンドの待受状態となるのは、図3に示すような、ユーザーと、音声認識システムと、の対話形式の場合でも想定される。対話形式の場合、ユーザーのコマンド要求によって、コマンド待受状態となる場合がある。ユーザーは、音声認識システムがコマンドの待受状態であるかどうかを、LEDの点灯、コマンド待受状態開始音等で確認する必要があるため、使い方が煩雑となる。
ユーザーと音声認識システムとの自然な対話を実現するには、ユーザーに、音声認識システムのコマンド待受状態をできるだけ意識させないことが重要である。図4に示すように、音声認識システムのコマンド待受状態を広げることで、ユーザーと音声認識システムとの対話が、自然な会話に近づく。
図4に示すように、単純に、音声認識システムのコマンド待受状態を広げた場合、図4の(2)の区間で、ユーザーが、適当な相槌、独り言を発話すると、音声認識システムが、すべてを拾い上げしまい、会話が成立しなくなることがあるため、対策が必要である。音声認識システムが、独り言などを拾い上げないようにするためには、ユーザーからのリクエスト要求度を判断する処理が必要である。例えば、会話には、大きく2パターン存在し、タスク指向対話と、雑談対話と、に分けられる。
「タスク指向対話」には、「音楽プレーヤーを起動」、「音楽をかけて」、「天気を教えて」など、ユーザーの意図がはっきりしているものがある。一方で、「雑談対話」には、「元気ですか?」、「今日は疲れた」などのユーザーの意図(目的)がはっきりしていないものがある。
また、「タスク指向型」のコマンドは、コマンドに対する音声認識システムの応答が画一的なコマンドであるともいえる。例えば、「音楽を再生」というコマンドに対して、音声認識システムは、音楽を再生し、「音楽を再生しました」という回答をする、という応答を行う。また、「今日の天気は?」というコマンドに対して、音声認識システムは、天気の回答をする(「今日の天気は晴れです。」を回答する)、という応答を行う。
また、「雑談型」のコマンドとは、コマンドに対する音声認識システムの応答が画一的ではないコマンドである。例えば、「元気ですか?」というコマンドに対して、音声認識システムは、「元気です」という回答をする場合もあれば、「元気ではないです」という回答をする場合もある。
以下、本発明の実施形態について説明する。本実施形態に係る音声認識システムは、例えば、CPU(Central Processing Unit)、DSP(Digital Signal Processing Unit)、マイク、スピーカー等を備えるスピーカー装置と、スピーカー装置と通信するクラウドサーバーと、から構成される。これに限らず、音声認識システムは、スピーカー装置のみによって構成されていてもよい。
音声認識システムは、タスク指向対話と、雑談対話と、を区別可能なエンジンを搭載している。また、音声認識システムは、音声認識システムは、音声認識を行い、音声認識の結果に基づいた回答を行う。なお、音声認識システムは、ボイストリガーを音声認識した場合、回答を行わない。本実施形態では、音声認識を有効とするためのワード(例えば、「オーケーコンピュータ」等(特開2017−076117号公報参照。))を、ボイストリガーを呼ぶが、トリガーワード、ホットワード等と呼ばれる場合があり、これらの概念も含む文言である。
また、音声認識システムは、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断する。音声認識システムは、雑談型のコマンドである場合、雑談対話形式の回答を行う。音声認識システムは、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行う。
コマンドの待受状態は、3つの状態が存在する。図4において、(1)は、ボイストリガー後である。(2)は、質問等に対する回答中である。(3)は、質問などに対する回答後である。(1)のボイストリガー後は、ユーザーからの要求が明確であり、音声認識システムは、タスク指向対話も、雑談対話も、従来通り、受け付ける。(2)の回答中の場合、音声認識システムの動作は、雑談形式の回答中か、タスク指向対話の回答中か、で変わる。雑談形式の回答中に、タスク指向対話のコマンド要求があった場合、音声認識システムは、回答を直ちに停止し、タスク指向対話を回答する。すなわち、音声認識システムは、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。
一方で、音声認識システムは、タスク指向対話の回答中、雑談対話のコマンドを受け付けない。すなわち、音声認識システムは、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、雑談対話型である場合、コマンドを受け付けない。
また、音声認識システムは、タスク指向対話の回答中に、タスク指向対話のコマンドがあった場合、回答終了後に、速やかに、次のタスクを実施する。すなわち、音声認識システムは、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、タスク指向型である場合、回答を継続し、コマンドを受け付ける。そして、音声認識システムは、タスク指向対話形式の回答終了後に、受け付けたタスク指向型コマンドに対する回答を行う。
(3)の会話終了後においては、会話終了後であるため、音声認識システムは、タスク指向対話も、雑談対話も、受け付ける。すなわち、音声認識システムは、回答終了後に、コマンドを音声認識した場合、コマンドを受け付ける。ただし、一定数秒(例:5秒程度)経過(所定時間経過)すると、音声認識システムは、コマンド待受状態を終了し、ボイストリガーの待受状態のみとなる。
図1は、音声認識システムの処理動作を示すフローチャートである。音声認識システムは、ユーザーからコマンドが発生すると(コマンドを音声認識すると)、待受状態の(1)又は(3)(所定の待受状態)であるか否かを判断する(S1)。音声認識システムは、待受状態の(1)又は(3)であると判断した場合(S1:Yes)、コマンド(要求)を受け付ける(S2)。音声認識システムは、待受状態の(1)又は(3)でないと判断した場合(S1:No)、すなわち、待受状態の(2)であり、何らかの回答中である場合、タスク指向対話か、雑談対話か、を判断する(S3)。
次に、音声認識システムは、S3の判断に基づいて、タスク指向対話の回答中であるか否かを判断する(S4)。音声認識システムは、タスク指向対話の回答中でない、すなわち、雑談対話の回答中であると判断した場合(S4:No)、回答を終了し(S5)、コマンド(要求)を受け付ける(S2)。一方で、音声認識システムは、タスク指向対話の回答中であると判断した場合(S4:Yes)、コマンドが、タスク指向型であるか否かを判断する(S6)。音声認識システムは、コマンドが、タスク指向型でないと判断した場合(S6:No)、コマンド(要求)を受け付けない(S7)。
音声認識システムは、コマンドが、タスク指向型であると判断した場合(S6:Yes)、回答を継続し、コマンド(要求)を受け付ける。そして、音声認識システムは、回答終了後に、コマンドの回答を行う(S8)。
以上説明したように、本実施形態では、音声認識システムは、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。従って、ユーザーは、音声認識システムが回答中であっても、コマンドの発話を行うことが可能であるため、発話のタイミングを意識する必要がない。また、コマンドの待受状態を従来よりも長くすることで、自然な会話に近づけることができる。また、音声認識システムが、雑談対話形式の回答中であれば、ユーザーは、その回答を最後まで聞くよりも、コマンドに対して、音声認識システムが応答することを望むと想定される。このため、音声認識システムが、雑談対話形式の回答を行っている場合に、回答を終了しても、ユーザーにとって不都合となりにくい。
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
Claims (8)
- 音声認識を行い、音声認識の結果に基づいた回答を行う音声認識システムであって、
音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、
雑談型のコマンドである場合、雑談対話形式の回答を行い、
タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、
コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする音声認識システム。 - コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、タスク指向型である場合、回答を継続し、コマンドを受け付けることを特徴とする請求項1に記載の音声認識システム。
- タスク指向対話形式の回答終了後に、受け付けたタスク指向型コマンドに対する回答を行うことを特徴とする請求項2に記載の音声認識システム。
- コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、雑談対話型である場合、コマンドを受け付けないことを特徴とする請求項1に記載の音声認識システム。
- 音声認識を有効とするためのトリガーワードを認識した後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする請求項1に記載の音声認識システム。
- 回答終了後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする請求項1に記載の音声認識システム。
- 回答終了後、所定時間経過した場合に、音声認識を有効とするためのトリガーワードの待受状態となることを特徴とする請求項1に記載の音声認識システム。
- 音声認識を行い、音声認識の結果に基づいた回答を行う音声認識方法であって、
音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、
雑談型のコマンドである場合、雑談対話形式の回答を行い、
タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、
コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148697A JP2021032912A (ja) | 2019-08-14 | 2019-08-14 | 音声認識システム、及び、音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148697A JP2021032912A (ja) | 2019-08-14 | 2019-08-14 | 音声認識システム、及び、音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021032912A true JP2021032912A (ja) | 2021-03-01 |
Family
ID=74677423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019148697A Pending JP2021032912A (ja) | 2019-08-14 | 2019-08-14 | 音声認識システム、及び、音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021032912A (ja) |
-
2019
- 2019-08-14 JP JP2019148697A patent/JP2021032912A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9293134B1 (en) | Source-specific speech interactions | |
US7392188B2 (en) | System and method enabling acoustic barge-in | |
US8117036B2 (en) | Non-disruptive side conversation information retrieval | |
US9792901B1 (en) | Multiple-source speech dialog input | |
US9015048B2 (en) | Incremental speech recognition for dialog systems | |
WO2010013371A1 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 | |
US8731925B2 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
JPH096390A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US9911411B2 (en) | Rapid speech recognition adaptation using acoustic input | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
JP2012073364A (ja) | 音声対話装置、方法、プログラム | |
JP4491438B2 (ja) | 音声対話装置、音声対話方法、およびプログラム | |
Nakadai et al. | A robot referee for rock-paper-scissors sound games | |
WO2021077528A1 (zh) | 人机对话打断方法 | |
JP2021032912A (ja) | 音声認識システム、及び、音声認識方法 | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
WO2018173295A1 (ja) | ユーザインタフェース装置及び方法、並びに音操作システム | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
Goto et al. | Speech Spotter: On-demand speech recognition in human-human conversation on the telephone or in face-to-face situations | |
JP2003330487A (ja) | 対話エージェント | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
US20190189119A1 (en) | Electronic device | |
JP7007616B2 (ja) | 学習データ生成装置、学習データ生成方法およびプログラム | |
KR102170155B1 (ko) | 발화 정지 시점을 고려한 발화 제어 방법 및 이를 위한 장치 | |
JP2017201348A (ja) | 音声対話装置、音声対話装置の制御方法、および制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210928 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220701 |