JP2018124484A

JP2018124484A - 音声認識装置

Info

Publication number: JP2018124484A
Application number: JP2017017749A
Authority: JP
Inventors: 知宏松浦; Tomohiro Matsuura; 武志春山; Takeshi Haruyama; 慧悟堀; Keigo Hori
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-02-02
Filing date: 2017-02-02
Publication date: 2018-08-09
Anticipated expiration: 2037-02-02
Also published as: JP6673243B2

Abstract

【課題】ユーザの発話の自由度を向上しつつ、発話音声の認識率の低下を抑えた音声認識装置を提供する。【解決手段】音声認識装置１０において、取得部２０は、ユーザの発話音声を取得する。認識部２２は、取得部２０で取得した発話音声を認識する。出力部２６は、発話音声の認識結果に対応した応答音声を出力する。バージイン制御部３０は、応答音声の出力中に入力される発話音声を認識部２２で認識可能とするバージイン機能を実行する。また、バージイン制御部３０は、出力部２６から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ又は発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得し、前記予測長さ又は前記バージイン適用要否情報にもとづいてバージイン機能の実行の有無を制御する。【選択図】図１

Description

本発明は、ユーザの音声を認識することが可能な音声認識装置に関する。

特許文献１には、利用者の発声内容を認識した認識結果にもとづいてガイダンスを音声信号で出力する音声応答装置が開示される。特許文献１に記載の音声応答装置は、音声認識辞書部に予め登録したどの語句がどのような順序で発声されたかを認識する音声認識部と、利用者の音声応答装置の操作の習熟度を推測する習熟度推測部と、習熟度推測部が推測した利用者の習熟度に応じて音声認識開始のタイミングを制御するバージイン制御部と、を備える。バージイン制御部は、音声応答装置の操作の習熟度が高いと推測すれば、次のガイダンスの出力を開始するタイミングで音声認識を開始させ、音声応答装置の操作の習熟度が高いと推測されなければ、ガイダンスの出力を完了したタイミングで音声認識を開始させる。

特開２００１−３３１１９６号公報

特許文献１に記載の音声応答装置では、ユーザの習熟度が高いと推測されなければバージイン機能が実行されないため、習熟度が高まるまでユーザの発話の自由度が制限される。また、ユーザの習熟度が高いと推測されればバージイン機能が常に実行されるため、音声の検知時間が長くなることでノイズを含む可能性が高まって音声の認識率が低下する可能性がある。

本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザの発話の自由度を向上しつつ、発話音声の認識率の低下を抑えた音声認識装置を提供することにある。

上記課題を解決するために、本発明のある態様の音声認識装置は、ユーザの発話音声を取得する取得部と、取得部で取得した発話音声を認識する認識部と、発話音声の認識結果に対応した応答音声を出力する出力部と、応答音声の出力中に入力される発話音声を認識部で認識可能とするバージイン機能を実行するバージイン制御部と、を備える。バージイン制御部は、出力部から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ又は発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得し、予測長さ又はバージイン適用要否情報にもとづいてバージイン機能の実行の有無を制御する。

この態様によると、ユーザの発話が予測される場面にバージイン機能を適切に実行することでユーザの発話の自由度を向上しつつ、音声の認識率の低下を抑えることができる。

本発明によれば、ユーザの発話の自由度を向上しつつ、発話音声の認識率の低下を抑えた音声認識装置を提供する。

車両に搭載される音声認識装置の機能構成について説明するための図である。バージイン機能の実行判定処理を示すフローチャートである。

図１は、車両に搭載される音声認識装置１０の機能構成について説明するための図である。音声認識装置１０は、マイクロフォン１２、スピーカ１４および処理部１６を備え、認識結果にもとづいて車載装置１８に指示信号を送る。

車載装置１８は、ナビゲーション装置、電話機、エアコンディショナーなどの車載に搭載された装置であり、音声認識装置１０の指示信号に応じて動作可能である。音声認識装置１０は、ユーザの発話音声によって、ナビゲーション装置の目的地の設定、電話機の発信の設定、エアコンディショナーの動作の設定などを可能にして、ハンズフリーで車載装置１８を動かすことができる。

マイクロフォン１２は、ユーザの発話音声を含む音を検知して処理部１６に送る。スピーカ１４は、処理部１６により生成された応答音声を出力する。

実施例の処理部１６は、ユーザに発話を促すための応答音声の出力中にユーザの発話音声の認識を始め、検知された発話音声の信号に重畳される応答音声の影響を除去して発話音声を認識するバージイン機能を実行可能である。バージイン機能によって応答音声の出力中にユーザの発話音声を認識できるが、常にバージイン機能を実行すると認識対象となる音信号の時間が長くなり、車両走行による大きなノイズが混ざる可能性が高まって、発話音声の認識率が低下する。

そこで、処理部１６は、応答音声出力中にユーザが発話する可能性が高いと予測される場合に、バージイン機能を実行し、応答音声出力中にユーザが発話する可能性が高いと予測されない場合に、バージイン機能を実行しない。これにより、ユーザの発話の自由度を高めつつ、発話音声の認識率の低下を抑えることができる。

処理部１６は、取得部２０、認識部２２、指示部２４、出力部２６、応答音声保持部２８およびバージイン制御部３０を有する。取得部２０は、マイクロフォン１２で取得した音信号からユーザの発話音声を検出する。ユーザから「目的地を設定したい」、「目的地は東京駅」、「電話を掛けたい」などの発話音声が入力される。

取得部２０は、マイクロフォン１２から受け取った音信号を取得して一時記憶する。取得部２０が取得した音信号には、ユーザの発話音声が含まれる。

認識部２２は、取得部２０が取得した音信号からユーザの発話音声を取り出して認識する。認識部２２は、音声入力処理を開始するトリガーとなる所定の発話音声、たとえば「音声入力スタート」という発話音声の入力を監視する。認識部２２が「音声入力スタート」という発話音声を認識した場合、出力部２６から「何かご用ですか」という応答音声が出力されて、音声入力処理が開始される。

認識部２２が発話音声を認識開始するタイミングは、バージイン機能がオンである場合は、応答音声の出力開始前または応答音声の出力開始時であり、バージイン機能がオフである場合は、応答音声の出力完了時である。認識部２２は、バージイン機能がオフである場合、例えば出力部２６が「目的地をどうぞ」という応答音声を出力した後からの音信号を受け取って認識処理をする。

認識部２２が発話音声を認識終了するタイミングは、認識開始から所定の時間に予め設定されるが、発話音声を認識できた場合はその時点で終了してよい。なお、認識部２２は、発話音声の予測長さにもとづいて、認識対象とする音信号の時間や、音信号を認識終了するタイミングを変更してよい。たとえば、認識部２２は、発話音声の予測長さが所定の基準値より短い場合に、発話音声の予測長さが所定の基準値より長い場合と比べて、認識対象とする音信号の時間を短くする。これにより、認識対象となる音信号の時間を短くして、認識率の低下を抑えることができる。

認識部２２は、取得部２０に記憶された音信号から、所定長さ以上の無音区間を検出することで、ユーザの発話音声の始点および終点を検出し、ユーザの発話音声を取り出す。認識部２２は、バージイン機能がオンである場合、取得部２０が取得した音信号から応答音声を除く処理をした後、ユーザの発話音声を取り出す。次に、認識部２２は、ユーザの発話音声の特徴と、辞書部とのマッチング処理などを実行して、発話音声に応じた語彙を辞書部から抽出してユーザの発話音声を認識する。辞書部には、車載装置１８から取得したナビゲーション装置の目的地情報や電話機の発信先情報などが含まれてよい。認識部２２は、発話音声の認識結果を出力部２６や指示部２４に送る。

出力部２６は、システム側からユーザに応答音声を出力するものであり、認識部２２が認識した発話音声に応じて、応答音声保持部２８に保持されるシステム音声から応答音声を生成して出力する。応答音声保持部２８は、出力部２６から出力される複数の応答音声を保持する。応答音声保持部２８に保持されるシステム音声のそれぞれに、後述するバージイン適用要否情報が付加されている。

出力部２６は、例えばナビゲーション装置の動作設定において、「目的地をどうぞ」という応答音声を生成し、これに対するユーザの返答を認識部２２が認識できた場合は「目的地は東京駅でよろしいですか」という応答音声を生成する。「目的地をどうぞ」という応答音声は、具体的な目的地の発話を要求するもので、「目的地は東京駅でよろしいですか」という応答音声は「はい／いいえ」という定型の発話を要求するものである。

バージイン制御部３０は、バージイン機能の実行を制御する。バージイン制御部３０は、バージイン機能の実行の有無を判定するためのバージイン適用要否情報を取得する要否情報取得部３１と、バージイン機能の実行の有無を判定する実行判定部３２と、実行判定部３２の判定結果にもとづいてバージイン機能のオン／オフを認識部２２に指示する実行部３４とを有する。

要否情報取得部３１は、出力部２６から出力予定の応答音声によってユーザに返答を要求する際に、返答として要求するユーザの発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得する。

返答として要求する発話音声の長さは、出力される応答音声によって予測可能である。たとえば、「目的地は東京駅でよろしいですか」、「電話の発信先は山田太郎でよろしいですか」という応答音声は、「はい／いいえ」という短い発話音声を返答として要求するため、発話音声の長さが短いことが予測される。一方で、「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声に対しては、ユーザが複数の単語を発話することが予測されるため、発話音声の長さが短くないことが予測される。

バージイン適用要否情報は、バージイン機能の実行の有無を判定するための情報であって、発話音声の予測長さにもとづいて事前に設定されており、応答音声保持部２８に保持されるシステム音声に付加されている。「はい／いいえ」という定型の短い発話音声を要求する応答音声に対して、バージイン機能をオンにするためのバージイン適用要否情報が付加されている。「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声に対して、ユーザの発話が長い場合が予想されるため、バージイン機能をオフにするためのバージイン適用要否情報が付加されている。要否情報取得部３１は出力予定の応答音声に付加されたバージイン適用要否情報を出力部２６から取得する。

実行判定部３２は、バージイン適用要否情報にもとづいてバージイン機能の実行の有無を判定する。実行判定部３２は、応答音声の出力中にユーザが発話する可能性が高いと予測される場合に、バージイン機能を実行すること（オンにすること）を決定し、応答音声の出力中にユーザが発話する可能性が高いと予測されない場合に、バージイン機能を実行することを決定しない。

「はい／いいえ」などの定型の短い返答を要求する場合、ユーザが応答音声の出力中に発話する傾向があるため、バージイン機能をオンにすることで、ユーザの発話の自由度を向上できる。また、「はい／いいえ」という定型の返答を要求する場合、認識部２２が発話音声を認識しやすいため、バージイン機能を実行しても認識率の低下を抑えることができる。

一方で、応答音声によってユーザに返答を要求する際に、ユーザに短くない発話音声を返答として要求する場合、バージイン機能が実行されない。たとえば、「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声は、定型の返答を要求するものでなく、長くなる可能性がある発話音声を返答として要求しており、この場合にはバージイン機能が実行されない。ユーザの発話が短くない場合に、バージイン機能を実行しないことで、発話音声の認識率の低下を抑えることができる。

別の例では、実行判定部３２は、バージイン適用要否情報にもとづくのではなく、発話音声の予測長さにもとづいてバージイン機能の実行の有無を判定してよい。実行判定部３２は、出力部２６から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ、にもとづいてバージイン機能の実行の有無を判定してよい。発話音声の予測長さは、予測される発話音声の時間情報として、認識部２２による発話音声の認識結果または応答音声保持部２８に保持される応答音声に予め付加されており、実行判定部３２は認識部２２または出力部２６から発話音声の予測長さを取得してバージイン機能の実行の有無を判定する。

実行部３４は、実行判定部３２によりバージイン機能をオンにすると決定された場合、応答音声の出力中に発話音声を検出するよう取得部２０および認識部２２に指示信号を送り、バージイン機能を実行させる。

指示部２４は、音声入力処理が完了した場合に、認識部２２の認識結果にもとづいて車載装置１８に指示信号を送る。指示部２４は、認識した目的地へナビゲーション装置で案内を実行させる指示信号や、認識した発信先に電話機で発信させる指示信号を送る。

図２は、バージイン機能の実行判定処理を示すフローチャートである。図２ではナビゲーション装置の目的地設定処理を例に説明する。処理部１６は、所定のトリガーを契機として、音声入力を開始する（Ｓ１０）。処理部１６は、音声入力を開始するための所定の発話音声、例えば「音声入力スタート」という発話音声を認識したことをトリガーとして音声入力処理を開始する。認識部２２が「音声入力スタート」という発話音声を認識した場合に、出力部２６は「何かご用ですか」という応答音声を出力する。ユーザは「何かご用ですか」という応答音声を聞いて、「目的地を設定したい」と発話する。

取得部２０は、マイクロフォン１２で取得した音信号を取得し、記憶する（Ｓ１２）。出力部２６が「何かご用ですか」という応答音声を出力した後、認識部２２は、取得部２０が記憶する音信号から「目的地を設定したい」という発話音声を取り出して認識する（Ｓ１４）。出力部２６は、認識部２２の認識結果にもとづいて応答音声を決定し、「目的地をどうぞ」という応答音声を生成する（Ｓ１６）。

「目的地をどうぞ」という応答音声はユーザに返答を要求するものであり（Ｓ１８のＹ）、バージイン制御部３０の実行判定部３２は「目的地をどうぞ」という応答音声に付加されたバージイン適用要否情報にもとづいて、ユーザに短い予測長さの返答を要求するか判定する（Ｓ２０）。なお、応答音声がユーザに返答を要求しない場合（Ｓ１８のＮ）、バージイン機能は実行されず、出力部２６は応答音声を出力する（Ｓ２４）。

「目的地をどうぞ」という応答音声は長い発話が返される可能性があり、ユーザに要求する返答が短い予測長さでなく（Ｓ２０のＮ）、バージイン機能は実行されず、出力部２６は「目的地をどうぞ」という応答音声を出力する（Ｓ２４）。

「目的地をどうぞ」という応答音声を出力した後、ステップ１２に戻って取得部２０はマイクロフォン１２で取得した音信号を取得し、「目的地は東京駅です」という発話音声を記憶する（Ｓ１２）。

認識部２２は、応答音声出力完了後からの音信号から「目的地は東京駅です」という発話音声を取り出して認識し（Ｓ１４）、出力部２６は、認識部２２の認識結果にもとづいて「目的地は東京駅でよろしいですか」という応答音声を生成する（Ｓ１６）。

「目的地は東京駅でよろしいですか」という応答音声はユーザに返答を要求するものであり（Ｓ１８のＹ）、バージイン制御部３０の実行判定部３２は、「目的地は東京駅でよろしいですか」という応答音声に付加されたバージイン適用要否情報にもとづいて、ユーザに短い予測長さの返答を要求するか判定する（Ｓ２０）。

「目的地は東京駅でよろしいですか」という応答音声は、「はい／いいえ」などの定型の返答を要求するもので、ユーザに要求する返答が短い予測長さであり（Ｓ２０のＹ）、実行判定部３２はバージイン機能をオンにすると判定し、実行部３４は取得部２０および認識部２２にバージイン機能を実行させる（Ｓ２２）。このようにバージイン機能をオンにすることで、ユーザが「目的地は東京駅でよろしいですか」の応答音声の出力後まで待たずに発話しても、その発話を認識部２２が認識するため、ユーザの発話の自由度を向上できる。

なお実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

たとえば、実施例では、応答音声出力中にユーザが発話する可能性が高いと予測される場合として、ユーザに「はい／いいえ」などの短い予測長さの返答を要求する場合を示したが、この態様に限られない。たとえば、応答音声出力中にユーザが発話する可能性が高いと予測される場合として、認識部２２がユーザの発話音声を認識できなかった場合にバージイン機能を実行してもよい。

１０音声認識装置、１２マイクロフォン、１４スピーカ、１６処理部、１８車載装置、２０取得部、２２認識部、２４指示部、２６出力部、３０バージイン制御部、３１要否情報取得部、３２実行判定部、３４実行部。

Claims

ユーザの発話音声を取得する取得部と、
前記取得部で取得した発話音声を認識する認識部と、
発話音声の認識結果に対応した応答音声を出力する出力部と、
応答音声の出力中に入力される発話音声を前記認識部で認識可能とするバージイン機能を実行するバージイン制御部と、を備え、
前記バージイン制御部は、前記出力部から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ又は発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得し、前記予測長さ又は前記バージイン適用要否情報にもとづいて前記バージイン機能の実行の有無を制御する、ことを特徴とする音声認識装置。