JP2021032912A

JP2021032912A - 音声認識システム、及び、音声認識方法

Info

Publication number: JP2021032912A
Application number: JP2019148697A
Authority: JP
Inventors: 近藤　裕介; Yusuke Kondo; 裕介近藤
Original assignee: Onkyo Home Entertainment Corp
Current assignee: Onkyo Home Entertainment Corp
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2021-03-01

Abstract

【課題】ユーザーが、発話のタイミングを極力意識する必要がない手段を提供すること。【解決手段】音声認識システムは、音声認識を行い、音声認識の結果に基づいた回答を行う。音声認識システムは、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、雑談型のコマンドである場合、雑談対話形式の回答を行い、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。【選択図】図１

Description

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。

音声認識を行う音声認識システムは、ユーザーからの発話を音声認識し、例えば、ユーザーからの発話（質問）に対して、回答を行う。例えば、ユーザーが、「今日の天気は」と発話した場合、音声認識システムは、この発話を音声認識し、「今日の天気は晴れです」という発話をする。従来の音声認識システムにおいては、ユーザーからの発話と、音声認識システムからの発話と、のタイミングが区切られている（例えば、特許文献１参照。）。ユーザーが区切りを判断するために、音声認識システムは、効果音、ＬＥＤ等で、ユーザーに発話タイミングを促しており、ユーザーは、発話するために、このタイミングを意識しなくてはならない。

特開２００３−２４１７９７号公報

従来の音声認識システムにおいては、上述したように、ユーザーは、発話のタイミングを意識する必要があるという問題がある。

本発明の目的は、ユーザーが、発話のタイミングを極力意識する必要がない手段を提供することである。

第１の発明の音声認識システムは、音声認識を行い、音声認識の結果に基づいた回答を行う音声認識システムであって、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、雑談型のコマンドである場合、雑談対話形式の回答を行い、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする。

本発明では、音声認識システムは、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。従って、ユーザーは、音声認識システムが回答中であっても、コマンドの発話を行うことが可能であるため、発話のタイミングを意識する必要がない。また、コマンドの待受状態を従来よりも長くすることで、自然な会話に近づけることができる。また、音声認識システムが、雑談対話形式の回答中であれば、ユーザーは、その回答を最後まで聞くよりも、コマンドに対して、音声認識システムが応答することを望むと想定される。このため、音声認識システムが、雑談対話形式の回答を行っている場合に、回答を終了しても、ユーザーにとって不都合となりにくい。

「タスク指向型」のコマンドとは、コマンドに対する音声認識システムの応答が画一的なコマンドである。例えば、「音楽を再生」というコマンドに対して、音声認識システムは、音楽を再生し、「音楽を再生しました」という回答をする、という応答を行う。また、「今日の天気は？」というコマンドに対して、音声認識システムは、天気の回答をする（「今日の天気は晴れです。」を回答する）、という応答を行う。

また、「タスク指向型」のコマンドは、ユーザーの意図がはっきりしているコマンドともいえる。

「雑談型」のコマンドとは、コマンドに対する音声認識システムの応答が画一的ではないコマンドである。例えば、「元気ですか？」というコマンドに対して、音声認識システムは、「元気です」という回答をする場合もあれば、「元気ではないです」という回答をする場合もある。

また、「雑談型」のコマンドは、ユーザーの意図がはっきしりしていないコマンドともいえる。

第２の発明の音声認識システムは、第１の発明の音声認識システムにおいて、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、タスク指向型である場合、回答を継続し、コマンドを受け付けることを特徴とする。

第３の発明の音声認識システムは、第２の発明の音声認識システムにおいて、タスク指向対話形式の回答終了後に、受け付けたタスク指向型コマンドに対する回答を行うことを特徴とする。

第４の発明の音声認識システムは、第１の発明の音声認識システムにおいて、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、雑談対話型である場合、コマンドを受け付けないことを特徴とする。

第５の発明の音声認識システムは、第１の発明の音声認識システムにおいて、音声認識を有効とするためのトリガーワードを認識した後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする。

ここでは、音声認識を有効とするためのワード（例えば、「オーケーコンピュータ」等（特開２０１７−０７６１１７号公報参照。））を、ボイストリガーを呼ぶが、トリガーワード、ホットワード等と呼ばれる場合があり、これらの概念も含む文言である。

第６の発明の音声認識システムは、第１の発明の音声認識システムにおいて、回答終了後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする。

第７の発明の音声認識システムは、第１の発明の音声認識システムにおいて、回答終了後、所定時間経過した場合に、音声認識を有効とするためのトリガーワードの待受状態となることを特徴とする。

第８の発明の音声認識方法は、音声認識を行い、音声認識の結果に基づいた回答を行う音声認識方法であって、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、雑談型のコマンドである場合、雑談対話形式の回答を行い、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする。

本発明によれば、ユーザーは、発話のタイミングを意識する必要がない。

音声認識システムの処理動作を示すフローチャートである。従来の音声認識システムのダイアログシーケンスを示す図である。従来の音声認識システムのダイアログシーケンス（対話形式）を示す図である。従来の音声認識システムのコマンド待受状態を広げたダイアログシーケンス（対話形式）を示す図である。

まず、従来の音声認識を行う音声認識システムについて説明する。従来の音声認識システムの中には、音声認識機能を有効とするためのボイストリガー（「トリガーワード」等とも呼ばれる。）を音声認識した後、ユーザーからのコマンド（質問など）を受け付けるものがある。この場合、図２に示すように、ユーザーは、まず、ボイストリガーを発話し、音声認識システムを、コマンド（命令、質問など）の待受状態とする。ユーザーは、音声認識システムが、コマンドの待受状態となった後、コマンドを発話する。すなわち、ユーザーがコマンドを発話するタイミングは、ボイストリガーの直後である。ユーザーが発話するコマンドとしては、例えば、「今日の天気は？」などである。ユーザーが、タイミングを意識しなければならないのは、音声認識システムが、コマンドの待受状態かどうかを意識しなくてはならないためである。

図２に示すように、従来の音声認識システムでは、常時、ボイストリガーの待受状態であるが、コマンド待受状態となるのは、ボイストリガーがあった直後である。

また、音声認識システムが、コマンドの待受状態となるのは、図３に示すような、ユーザーと、音声認識システムと、の対話形式の場合でも想定される。対話形式の場合、ユーザーのコマンド要求によって、コマンド待受状態となる場合がある。ユーザーは、音声認識システムがコマンドの待受状態であるかどうかを、ＬＥＤの点灯、コマンド待受状態開始音等で確認する必要があるため、使い方が煩雑となる。

ユーザーと音声認識システムとの自然な対話を実現するには、ユーザーに、音声認識システムのコマンド待受状態をできるだけ意識させないことが重要である。図４に示すように、音声認識システムのコマンド待受状態を広げることで、ユーザーと音声認識システムとの対話が、自然な会話に近づく。

図４に示すように、単純に、音声認識システムのコマンド待受状態を広げた場合、図４の（２）の区間で、ユーザーが、適当な相槌、独り言を発話すると、音声認識システムが、すべてを拾い上げしまい、会話が成立しなくなることがあるため、対策が必要である。音声認識システムが、独り言などを拾い上げないようにするためには、ユーザーからのリクエスト要求度を判断する処理が必要である。例えば、会話には、大きく２パターン存在し、タスク指向対話と、雑談対話と、に分けられる。

「タスク指向対話」には、「音楽プレーヤーを起動」、「音楽をかけて」、「天気を教えて」など、ユーザーの意図がはっきりしているものがある。一方で、「雑談対話」には、「元気ですか？」、「今日は疲れた」などのユーザーの意図（目的）がはっきりしていないものがある。

また、「タスク指向型」のコマンドは、コマンドに対する音声認識システムの応答が画一的なコマンドであるともいえる。例えば、「音楽を再生」というコマンドに対して、音声認識システムは、音楽を再生し、「音楽を再生しました」という回答をする、という応答を行う。また、「今日の天気は？」というコマンドに対して、音声認識システムは、天気の回答をする（「今日の天気は晴れです。」を回答する）、という応答を行う。

また、「雑談型」のコマンドとは、コマンドに対する音声認識システムの応答が画一的ではないコマンドである。例えば、「元気ですか？」というコマンドに対して、音声認識システムは、「元気です」という回答をする場合もあれば、「元気ではないです」という回答をする場合もある。

以下、本発明の実施形態について説明する。本実施形態に係る音声認識システムは、例えば、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processing Unit）、マイク、スピーカー等を備えるスピーカー装置と、スピーカー装置と通信するクラウドサーバーと、から構成される。これに限らず、音声認識システムは、スピーカー装置のみによって構成されていてもよい。

音声認識システムは、タスク指向対話と、雑談対話と、を区別可能なエンジンを搭載している。また、音声認識システムは、音声認識システムは、音声認識を行い、音声認識の結果に基づいた回答を行う。なお、音声認識システムは、ボイストリガーを音声認識した場合、回答を行わない。本実施形態では、音声認識を有効とするためのワード（例えば、「オーケーコンピュータ」等（特開２０１７−０７６１１７号公報参照。））を、ボイストリガーを呼ぶが、トリガーワード、ホットワード等と呼ばれる場合があり、これらの概念も含む文言である。

また、音声認識システムは、音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断する。音声認識システムは、雑談型のコマンドである場合、雑談対話形式の回答を行う。音声認識システムは、タスク指向型のコマンドである場合、タスク指向対話形式の回答を行う。

コマンドの待受状態は、３つの状態が存在する。図４において、（１）は、ボイストリガー後である。（２）は、質問等に対する回答中である。（３）は、質問などに対する回答後である。（１）のボイストリガー後は、ユーザーからの要求が明確であり、音声認識システムは、タスク指向対話も、雑談対話も、従来通り、受け付ける。（２）の回答中の場合、音声認識システムの動作は、雑談形式の回答中か、タスク指向対話の回答中か、で変わる。雑談形式の回答中に、タスク指向対話のコマンド要求があった場合、音声認識システムは、回答を直ちに停止し、タスク指向対話を回答する。すなわち、音声認識システムは、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。

一方で、音声認識システムは、タスク指向対話の回答中、雑談対話のコマンドを受け付けない。すなわち、音声認識システムは、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、雑談対話型である場合、コマンドを受け付けない。

また、音声認識システムは、タスク指向対話の回答中に、タスク指向対話のコマンドがあった場合、回答終了後に、速やかに、次のタスクを実施する。すなわち、音声認識システムは、コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、タスク指向型である場合、回答を継続し、コマンドを受け付ける。そして、音声認識システムは、タスク指向対話形式の回答終了後に、受け付けたタスク指向型コマンドに対する回答を行う。

（３）の会話終了後においては、会話終了後であるため、音声認識システムは、タスク指向対話も、雑談対話も、受け付ける。すなわち、音声認識システムは、回答終了後に、コマンドを音声認識した場合、コマンドを受け付ける。ただし、一定数秒（例：５秒程度）経過（所定時間経過）すると、音声認識システムは、コマンド待受状態を終了し、ボイストリガーの待受状態のみとなる。

図１は、音声認識システムの処理動作を示すフローチャートである。音声認識システムは、ユーザーからコマンドが発生すると（コマンドを音声認識すると）、待受状態の（１）又は（３）（所定の待受状態）であるか否かを判断する（Ｓ１）。音声認識システムは、待受状態の（１）又は（３）であると判断した場合（Ｓ１：Ｙｅｓ）、コマンド（要求）を受け付ける（Ｓ２）。音声認識システムは、待受状態の（１）又は（３）でないと判断した場合（Ｓ１：Ｎｏ）、すなわち、待受状態の（２）であり、何らかの回答中である場合、タスク指向対話か、雑談対話か、を判断する（Ｓ３）。

次に、音声認識システムは、Ｓ３の判断に基づいて、タスク指向対話の回答中であるか否かを判断する（Ｓ４）。音声認識システムは、タスク指向対話の回答中でない、すなわち、雑談対話の回答中であると判断した場合（Ｓ４：Ｎｏ）、回答を終了し（Ｓ５）、コマンド（要求）を受け付ける（Ｓ２）。一方で、音声認識システムは、タスク指向対話の回答中であると判断した場合（Ｓ４：Ｙｅｓ）、コマンドが、タスク指向型であるか否かを判断する（Ｓ６）。音声認識システムは、コマンドが、タスク指向型でないと判断した場合（Ｓ６：Ｎｏ）、コマンド（要求）を受け付けない（Ｓ７）。

音声認識システムは、コマンドが、タスク指向型であると判断した場合（Ｓ６：Ｙｅｓ）、回答を継続し、コマンド（要求）を受け付ける。そして、音声認識システムは、回答終了後に、コマンドの回答を行う（Ｓ８）。

以上説明したように、本実施形態では、音声認識システムは、コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行う。従って、ユーザーは、音声認識システムが回答中であっても、コマンドの発話を行うことが可能であるため、発話のタイミングを意識する必要がない。また、コマンドの待受状態を従来よりも長くすることで、自然な会話に近づけることができる。また、音声認識システムが、雑談対話形式の回答中であれば、ユーザーは、その回答を最後まで聞くよりも、コマンドに対して、音声認識システムが応答することを望むと想定される。このため、音声認識システムが、雑談対話形式の回答を行っている場合に、回答を終了しても、ユーザーにとって不都合となりにくい。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。

Claims

音声認識を行い、音声認識の結果に基づいた回答を行う音声認識システムであって、
音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、
雑談型のコマンドである場合、雑談対話形式の回答を行い、
タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、
コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする音声認識システム。
コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、タスク指向型である場合、回答を継続し、コマンドを受け付けることを特徴とする請求項１に記載の音声認識システム。
タスク指向対話形式の回答終了後に、受け付けたタスク指向型コマンドに対する回答を行うことを特徴とする請求項２に記載の音声認識システム。
コマンドを音声認識したときに、タスク指向対話形式の回答を行っており、音声認識を行ったコマンドが、雑談対話型である場合、コマンドを受け付けないことを特徴とする請求項１に記載の音声認識システム。
音声認識を有効とするためのトリガーワードを認識した後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする請求項１に記載の音声認識システム。
回答終了後に、コマンドを音声認識した場合、コマンドを受け付けることを特徴とする請求項１に記載の音声認識システム。
回答終了後、所定時間経過した場合に、音声認識を有効とするためのトリガーワードの待受状態となることを特徴とする請求項１に記載の音声認識システム。
音声認識を行い、音声認識の結果に基づいた回答を行う音声認識方法であって、
音声認識を行ったコマンドが、雑談型であるか、タスク指向型であるか、を判断し、
雑談型のコマンドである場合、雑談対話形式の回答を行い、
タスク指向型のコマンドである場合、タスク指向対話形式の回答を行い、
コマンドを音声認識したときに、雑談対話形式の回答を行っている場合、回答を終了して、コマンドの受付を行うことを特徴とする音声認識方法。