JP2018124484A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2018124484A
JP2018124484A JP2017017749A JP2017017749A JP2018124484A JP 2018124484 A JP2018124484 A JP 2018124484A JP 2017017749 A JP2017017749 A JP 2017017749A JP 2017017749 A JP2017017749 A JP 2017017749A JP 2018124484 A JP2018124484 A JP 2018124484A
Authority
JP
Japan
Prior art keywords
voice
barge
unit
response
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017017749A
Other languages
English (en)
Other versions
JP6673243B2 (ja
Inventor
知宏 松浦
Tomohiro Matsuura
知宏 松浦
武志 春山
Takeshi Haruyama
武志 春山
慧悟 堀
Keigo Hori
慧悟 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017017749A priority Critical patent/JP6673243B2/ja
Publication of JP2018124484A publication Critical patent/JP2018124484A/ja
Application granted granted Critical
Publication of JP6673243B2 publication Critical patent/JP6673243B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Telephone Function (AREA)

Abstract

【課題】ユーザの発話の自由度を向上しつつ、発話音声の認識率の低下を抑えた音声認識装置を提供する。【解決手段】音声認識装置10において、取得部20は、ユーザの発話音声を取得する。認識部22は、取得部20で取得した発話音声を認識する。出力部26は、発話音声の認識結果に対応した応答音声を出力する。バージイン制御部30は、応答音声の出力中に入力される発話音声を認識部22で認識可能とするバージイン機能を実行する。また、バージイン制御部30は、出力部26から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ又は発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得し、前記予測長さ又は前記バージイン適用要否情報にもとづいてバージイン機能の実行の有無を制御する。【選択図】図1

Description

本発明は、ユーザの音声を認識することが可能な音声認識装置に関する。
特許文献1には、利用者の発声内容を認識した認識結果にもとづいてガイダンスを音声信号で出力する音声応答装置が開示される。特許文献1に記載の音声応答装置は、音声認識辞書部に予め登録したどの語句がどのような順序で発声されたかを認識する音声認識部と、利用者の音声応答装置の操作の習熟度を推測する習熟度推測部と、習熟度推測部が推測した利用者の習熟度に応じて音声認識開始のタイミングを制御するバージイン制御部と、を備える。バージイン制御部は、音声応答装置の操作の習熟度が高いと推測すれば、次のガイダンスの出力を開始するタイミングで音声認識を開始させ、音声応答装置の操作の習熟度が高いと推測されなければ、ガイダンスの出力を完了したタイミングで音声認識を開始させる。
特開2001−331196号公報
特許文献1に記載の音声応答装置では、ユーザの習熟度が高いと推測されなければバージイン機能が実行されないため、習熟度が高まるまでユーザの発話の自由度が制限される。また、ユーザの習熟度が高いと推測されればバージイン機能が常に実行されるため、音声の検知時間が長くなることでノイズを含む可能性が高まって音声の認識率が低下する可能性がある。
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザの発話の自由度を向上しつつ、発話音声の認識率の低下を抑えた音声認識装置を提供することにある。
上記課題を解決するために、本発明のある態様の音声認識装置は、ユーザの発話音声を取得する取得部と、取得部で取得した発話音声を認識する認識部と、発話音声の認識結果に対応した応答音声を出力する出力部と、応答音声の出力中に入力される発話音声を認識部で認識可能とするバージイン機能を実行するバージイン制御部と、を備える。バージイン制御部は、出力部から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ又は発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得し、予測長さ又はバージイン適用要否情報にもとづいてバージイン機能の実行の有無を制御する。
この態様によると、ユーザの発話が予測される場面にバージイン機能を適切に実行することでユーザの発話の自由度を向上しつつ、音声の認識率の低下を抑えることができる。
本発明によれば、ユーザの発話の自由度を向上しつつ、発話音声の認識率の低下を抑えた音声認識装置を提供する。
車両に搭載される音声認識装置の機能構成について説明するための図である。 バージイン機能の実行判定処理を示すフローチャートである。
図1は、車両に搭載される音声認識装置10の機能構成について説明するための図である。音声認識装置10は、マイクロフォン12、スピーカ14および処理部16を備え、認識結果にもとづいて車載装置18に指示信号を送る。
車載装置18は、ナビゲーション装置、電話機、エアコンディショナーなどの車載に搭載された装置であり、音声認識装置10の指示信号に応じて動作可能である。音声認識装置10は、ユーザの発話音声によって、ナビゲーション装置の目的地の設定、電話機の発信の設定、エアコンディショナーの動作の設定などを可能にして、ハンズフリーで車載装置18を動かすことができる。
マイクロフォン12は、ユーザの発話音声を含む音を検知して処理部16に送る。スピーカ14は、処理部16により生成された応答音声を出力する。
実施例の処理部16は、ユーザに発話を促すための応答音声の出力中にユーザの発話音声の認識を始め、検知された発話音声の信号に重畳される応答音声の影響を除去して発話音声を認識するバージイン機能を実行可能である。バージイン機能によって応答音声の出力中にユーザの発話音声を認識できるが、常にバージイン機能を実行すると認識対象となる音信号の時間が長くなり、車両走行による大きなノイズが混ざる可能性が高まって、発話音声の認識率が低下する。
そこで、処理部16は、応答音声出力中にユーザが発話する可能性が高いと予測される場合に、バージイン機能を実行し、応答音声出力中にユーザが発話する可能性が高いと予測されない場合に、バージイン機能を実行しない。これにより、ユーザの発話の自由度を高めつつ、発話音声の認識率の低下を抑えることができる。
処理部16は、取得部20、認識部22、指示部24、出力部26、応答音声保持部28およびバージイン制御部30を有する。取得部20は、マイクロフォン12で取得した音信号からユーザの発話音声を検出する。ユーザから「目的地を設定したい」、「目的地は東京駅」、「電話を掛けたい」などの発話音声が入力される。
取得部20は、マイクロフォン12から受け取った音信号を取得して一時記憶する。取得部20が取得した音信号には、ユーザの発話音声が含まれる。
認識部22は、取得部20が取得した音信号からユーザの発話音声を取り出して認識する。認識部22は、音声入力処理を開始するトリガーとなる所定の発話音声、たとえば「音声入力スタート」という発話音声の入力を監視する。認識部22が「音声入力スタート」という発話音声を認識した場合、出力部26から「何かご用ですか」という応答音声が出力されて、音声入力処理が開始される。
認識部22が発話音声を認識開始するタイミングは、バージイン機能がオンである場合は、応答音声の出力開始前または応答音声の出力開始時であり、バージイン機能がオフである場合は、応答音声の出力完了時である。認識部22は、バージイン機能がオフである場合、例えば出力部26が「目的地をどうぞ」という応答音声を出力した後からの音信号を受け取って認識処理をする。
認識部22が発話音声を認識終了するタイミングは、認識開始から所定の時間に予め設定されるが、発話音声を認識できた場合はその時点で終了してよい。なお、認識部22は、発話音声の予測長さにもとづいて、認識対象とする音信号の時間や、音信号を認識終了するタイミングを変更してよい。たとえば、認識部22は、発話音声の予測長さが所定の基準値より短い場合に、発話音声の予測長さが所定の基準値より長い場合と比べて、認識対象とする音信号の時間を短くする。これにより、認識対象となる音信号の時間を短くして、認識率の低下を抑えることができる。
認識部22は、取得部20に記憶された音信号から、所定長さ以上の無音区間を検出することで、ユーザの発話音声の始点および終点を検出し、ユーザの発話音声を取り出す。認識部22は、バージイン機能がオンである場合、取得部20が取得した音信号から応答音声を除く処理をした後、ユーザの発話音声を取り出す。次に、認識部22は、ユーザの発話音声の特徴と、辞書部とのマッチング処理などを実行して、発話音声に応じた語彙を辞書部から抽出してユーザの発話音声を認識する。辞書部には、車載装置18から取得したナビゲーション装置の目的地情報や電話機の発信先情報などが含まれてよい。認識部22は、発話音声の認識結果を出力部26や指示部24に送る。
出力部26は、システム側からユーザに応答音声を出力するものであり、認識部22が認識した発話音声に応じて、応答音声保持部28に保持されるシステム音声から応答音声を生成して出力する。応答音声保持部28は、出力部26から出力される複数の応答音声を保持する。応答音声保持部28に保持されるシステム音声のそれぞれに、後述するバージイン適用要否情報が付加されている。
出力部26は、例えばナビゲーション装置の動作設定において、「目的地をどうぞ」という応答音声を生成し、これに対するユーザの返答を認識部22が認識できた場合は「目的地は東京駅でよろしいですか」という応答音声を生成する。「目的地をどうぞ」という応答音声は、具体的な目的地の発話を要求するもので、「目的地は東京駅でよろしいですか」という応答音声は「はい/いいえ」という定型の発話を要求するものである。
バージイン制御部30は、バージイン機能の実行を制御する。バージイン制御部30は、バージイン機能の実行の有無を判定するためのバージイン適用要否情報を取得する要否情報取得部31と、バージイン機能の実行の有無を判定する実行判定部32と、実行判定部32の判定結果にもとづいてバージイン機能のオン/オフを認識部22に指示する実行部34とを有する。
要否情報取得部31は、出力部26から出力予定の応答音声によってユーザに返答を要求する際に、返答として要求するユーザの発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得する。
返答として要求する発話音声の長さは、出力される応答音声によって予測可能である。たとえば、「目的地は東京駅でよろしいですか」、「電話の発信先は山田太郎でよろしいですか」という応答音声は、「はい/いいえ」という短い発話音声を返答として要求するため、発話音声の長さが短いことが予測される。一方で、「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声に対しては、ユーザが複数の単語を発話することが予測されるため、発話音声の長さが短くないことが予測される。
バージイン適用要否情報は、バージイン機能の実行の有無を判定するための情報であって、発話音声の予測長さにもとづいて事前に設定されており、応答音声保持部28に保持されるシステム音声に付加されている。「はい/いいえ」という定型の短い発話音声を要求する応答音声に対して、バージイン機能をオンにするためのバージイン適用要否情報が付加されている。「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声に対して、ユーザの発話が長い場合が予想されるため、バージイン機能をオフにするためのバージイン適用要否情報が付加されている。要否情報取得部31は出力予定の応答音声に付加されたバージイン適用要否情報を出力部26から取得する。
実行判定部32は、バージイン適用要否情報にもとづいてバージイン機能の実行の有無を判定する。実行判定部32は、応答音声の出力中にユーザが発話する可能性が高いと予測される場合に、バージイン機能を実行すること(オンにすること)を決定し、応答音声の出力中にユーザが発話する可能性が高いと予測されない場合に、バージイン機能を実行することを決定しない。
「はい/いいえ」などの定型の短い返答を要求する場合、ユーザが応答音声の出力中に発話する傾向があるため、バージイン機能をオンにすることで、ユーザの発話の自由度を向上できる。また、「はい/いいえ」という定型の返答を要求する場合、認識部22が発話音声を認識しやすいため、バージイン機能を実行しても認識率の低下を抑えることができる。
一方で、応答音声によってユーザに返答を要求する際に、ユーザに短くない発話音声を返答として要求する場合、バージイン機能が実行されない。たとえば、「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声は、定型の返答を要求するものでなく、長くなる可能性がある発話音声を返答として要求しており、この場合にはバージイン機能が実行されない。ユーザの発話が短くない場合に、バージイン機能を実行しないことで、発話音声の認識率の低下を抑えることができる。
別の例では、実行判定部32は、バージイン適用要否情報にもとづくのではなく、発話音声の予測長さにもとづいてバージイン機能の実行の有無を判定してよい。実行判定部32は、出力部26から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ、にもとづいてバージイン機能の実行の有無を判定してよい。発話音声の予測長さは、予測される発話音声の時間情報として、認識部22による発話音声の認識結果または応答音声保持部28に保持される応答音声に予め付加されており、実行判定部32は認識部22または出力部26から発話音声の予測長さを取得してバージイン機能の実行の有無を判定する。
実行部34は、実行判定部32によりバージイン機能をオンにすると決定された場合、応答音声の出力中に発話音声を検出するよう取得部20および認識部22に指示信号を送り、バージイン機能を実行させる。
指示部24は、音声入力処理が完了した場合に、認識部22の認識結果にもとづいて車載装置18に指示信号を送る。指示部24は、認識した目的地へナビゲーション装置で案内を実行させる指示信号や、認識した発信先に電話機で発信させる指示信号を送る。
図2は、バージイン機能の実行判定処理を示すフローチャートである。図2ではナビゲーション装置の目的地設定処理を例に説明する。処理部16は、所定のトリガーを契機として、音声入力を開始する(S10)。処理部16は、音声入力を開始するための所定の発話音声、例えば「音声入力スタート」という発話音声を認識したことをトリガーとして音声入力処理を開始する。認識部22が「音声入力スタート」という発話音声を認識した場合に、出力部26は「何かご用ですか」という応答音声を出力する。ユーザは「何かご用ですか」という応答音声を聞いて、「目的地を設定したい」と発話する。
取得部20は、マイクロフォン12で取得した音信号を取得し、記憶する(S12)。出力部26が「何かご用ですか」という応答音声を出力した後、認識部22は、取得部20が記憶する音信号から「目的地を設定したい」という発話音声を取り出して認識する(S14)。出力部26は、認識部22の認識結果にもとづいて応答音声を決定し、「目的地をどうぞ」という応答音声を生成する(S16)。
「目的地をどうぞ」という応答音声はユーザに返答を要求するものであり(S18のY)、バージイン制御部30の実行判定部32は「目的地をどうぞ」という応答音声に付加されたバージイン適用要否情報にもとづいて、ユーザに短い予測長さの返答を要求するか判定する(S20)。なお、応答音声がユーザに返答を要求しない場合(S18のN)、バージイン機能は実行されず、出力部26は応答音声を出力する(S24)。
「目的地をどうぞ」という応答音声は長い発話が返される可能性があり、ユーザに要求する返答が短い予測長さでなく(S20のN)、バージイン機能は実行されず、出力部26は「目的地をどうぞ」という応答音声を出力する(S24)。
「目的地をどうぞ」という応答音声を出力した後、ステップ12に戻って取得部20はマイクロフォン12で取得した音信号を取得し、「目的地は東京駅です」という発話音声を記憶する(S12)。
認識部22は、応答音声出力完了後からの音信号から「目的地は東京駅です」という発話音声を取り出して認識し(S14)、出力部26は、認識部22の認識結果にもとづいて「目的地は東京駅でよろしいですか」という応答音声を生成する(S16)。
「目的地は東京駅でよろしいですか」という応答音声はユーザに返答を要求するものであり(S18のY)、バージイン制御部30の実行判定部32は、「目的地は東京駅でよろしいですか」という応答音声に付加されたバージイン適用要否情報にもとづいて、ユーザに短い予測長さの返答を要求するか判定する(S20)。
「目的地は東京駅でよろしいですか」という応答音声は、「はい/いいえ」などの定型の返答を要求するもので、ユーザに要求する返答が短い予測長さであり(S20のY)、実行判定部32はバージイン機能をオンにすると判定し、実行部34は取得部20および認識部22にバージイン機能を実行させる(S22)。このようにバージイン機能をオンにすることで、ユーザが「目的地は東京駅でよろしいですか」の応答音声の出力後まで待たずに発話しても、その発話を認識部22が認識するため、ユーザの発話の自由度を向上できる。
なお実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
たとえば、実施例では、応答音声出力中にユーザが発話する可能性が高いと予測される場合として、ユーザに「はい/いいえ」などの短い予測長さの返答を要求する場合を示したが、この態様に限られない。たとえば、応答音声出力中にユーザが発話する可能性が高いと予測される場合として、認識部22がユーザの発話音声を認識できなかった場合にバージイン機能を実行してもよい。
10 音声認識装置、 12 マイクロフォン、 14 スピーカ、 16 処理部、 18 車載装置、 20 取得部、 22 認識部、 24 指示部、 26 出力部、 30 バージイン制御部、 31 要否情報取得部、 32 実行判定部、 34 実行部。

Claims (1)

  1. ユーザの発話音声を取得する取得部と、
    前記取得部で取得した発話音声を認識する認識部と、
    発話音声の認識結果に対応した応答音声を出力する出力部と、
    応答音声の出力中に入力される発話音声を前記認識部で認識可能とするバージイン機能を実行するバージイン制御部と、を備え、
    前記バージイン制御部は、前記出力部から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ又は発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得し、前記予測長さ又は前記バージイン適用要否情報にもとづいて前記バージイン機能の実行の有無を制御する、ことを特徴とする音声認識装置。
JP2017017749A 2017-02-02 2017-02-02 音声認識装置 Active JP6673243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017017749A JP6673243B2 (ja) 2017-02-02 2017-02-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017017749A JP6673243B2 (ja) 2017-02-02 2017-02-02 音声認識装置

Publications (2)

Publication Number Publication Date
JP2018124484A true JP2018124484A (ja) 2018-08-09
JP6673243B2 JP6673243B2 (ja) 2020-03-25

Family

ID=63109518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017017749A Active JP6673243B2 (ja) 2017-02-02 2017-02-02 音声認識装置

Country Status (1)

Country Link
JP (1) JP6673243B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187211A (ja) * 2019-05-13 2020-11-19 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム
US11211067B2 (en) 2018-09-20 2021-12-28 Dynabook Inc. Electronic device and control method
US11862167B2 (en) 2019-03-26 2024-01-02 Ntt Docomo, Inc. Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337942A (ja) * 2005-06-06 2006-12-14 Nissan Motor Co Ltd 音声対話装置及び割り込み発話制御方法
JP2009025579A (ja) * 2007-07-20 2009-02-05 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2016061888A (ja) * 2014-09-17 2016-04-25 株式会社デンソー 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337942A (ja) * 2005-06-06 2006-12-14 Nissan Motor Co Ltd 音声対話装置及び割り込み発話制御方法
JP2009025579A (ja) * 2007-07-20 2009-02-05 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2016061888A (ja) * 2014-09-17 2016-04-25 株式会社デンソー 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11211067B2 (en) 2018-09-20 2021-12-28 Dynabook Inc. Electronic device and control method
US11862167B2 (en) 2019-03-26 2024-01-02 Ntt Docomo, Inc. Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program
JP2020187211A (ja) * 2019-05-13 2020-11-19 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム
JP7229847B2 (ja) 2019-05-13 2023-02-28 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム

Also Published As

Publication number Publication date
JP6673243B2 (ja) 2020-03-25

Similar Documents

Publication Publication Date Title
US20200312329A1 (en) Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words
KR102357247B1 (ko) 강화된 스피치 엔드포인팅
US9293134B1 (en) Source-specific speech interactions
US9015048B2 (en) Incremental speech recognition for dialog systems
US9792901B1 (en) Multiple-source speech dialog input
US9224404B2 (en) Dynamic audio processing parameters with automatic speech recognition
WO2017090115A1 (ja) 音声対話装置および音声対話方法
CN107808665B (zh) 用于处理口头话语流的方法、系统和存储介质
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP6673243B2 (ja) 音声認識装置
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US20170169821A1 (en) Motor vehicle device operation with operating correction
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2020060730A (ja) 音声認識装置
JP2006337942A (ja) 音声対話装置及び割り込み発話制御方法
JP2010206365A (ja) 対話装置
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP2010210756A (ja) 音声認識装置
EP2760019B1 (en) Dynamic audio processing parameters with automatic speech recognition
JP2019002997A (ja) 音声認識装置および音声認識方法
JP2015118307A (ja) 音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200217

R151 Written notification of patent or utility model registration

Ref document number: 6673243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151