図1は、車両に搭載される音声認識装置10の機能構成について説明するための図である。音声認識装置10は、マイクロフォン12、スピーカ14および処理部16を備え、認識結果にもとづいて車載装置18に指示信号を送る。
車載装置18は、ナビゲーション装置、電話機、エアコンディショナーなどの車載に搭載された装置であり、音声認識装置10の指示信号に応じて動作可能である。音声認識装置10は、ユーザの発話音声によって、ナビゲーション装置の目的地の設定、電話機の発信の設定、エアコンディショナーの動作の設定などを可能にして、ハンズフリーで車載装置18を動かすことができる。
マイクロフォン12は、ユーザの発話音声を含む音を検知して処理部16に送る。スピーカ14は、処理部16により生成された応答音声を出力する。
実施例の処理部16は、ユーザに発話を促すための応答音声の出力中にユーザの発話音声の認識を始め、検知された発話音声の信号に重畳される応答音声の影響を除去して発話音声を認識するバージイン機能を実行可能である。バージイン機能によって応答音声の出力中にユーザの発話音声を認識できるが、常にバージイン機能を実行すると認識対象となる音信号の時間が長くなり、車両走行による大きなノイズが混ざる可能性が高まって、発話音声の認識率が低下する。
そこで、処理部16は、応答音声出力中にユーザが発話する可能性が高いと予測される場合に、バージイン機能を実行し、応答音声出力中にユーザが発話する可能性が高いと予測されない場合に、バージイン機能を実行しない。これにより、ユーザの発話の自由度を高めつつ、発話音声の認識率の低下を抑えることができる。
処理部16は、取得部20、認識部22、指示部24、出力部26、応答音声保持部28およびバージイン制御部30を有する。取得部20は、マイクロフォン12で取得した音信号からユーザの発話音声を検出する。ユーザから「目的地を設定したい」、「目的地は東京駅」、「電話を掛けたい」などの発話音声が入力される。
取得部20は、マイクロフォン12から受け取った音信号を取得して一時記憶する。取得部20が取得した音信号には、ユーザの発話音声が含まれる。
認識部22は、取得部20が取得した音信号からユーザの発話音声を取り出して認識する。認識部22は、音声入力処理を開始するトリガーとなる所定の発話音声、たとえば「音声入力スタート」という発話音声の入力を監視する。認識部22が「音声入力スタート」という発話音声を認識した場合、出力部26から「何かご用ですか」という応答音声が出力されて、音声入力処理が開始される。
認識部22が発話音声を認識開始するタイミングは、バージイン機能がオンである場合は、応答音声の出力開始前または応答音声の出力開始時であり、バージイン機能がオフである場合は、応答音声の出力完了時である。認識部22は、バージイン機能がオフである場合、例えば出力部26が「目的地をどうぞ」という応答音声を出力した後からの音信号を受け取って認識処理をする。
認識部22が発話音声を認識終了するタイミングは、認識開始から所定の時間に予め設定されるが、発話音声を認識できた場合はその時点で終了してよい。なお、認識部22は、発話音声の予測長さにもとづいて、認識対象とする音信号の時間や、音信号を認識終了するタイミングを変更してよい。たとえば、認識部22は、発話音声の予測長さが所定の基準値より短い場合に、発話音声の予測長さが所定の基準値より長い場合と比べて、認識対象とする音信号の時間を短くする。これにより、認識対象となる音信号の時間を短くして、認識率の低下を抑えることができる。
認識部22は、取得部20に記憶された音信号から、所定長さ以上の無音区間を検出することで、ユーザの発話音声の始点および終点を検出し、ユーザの発話音声を取り出す。認識部22は、バージイン機能がオンである場合、取得部20が取得した音信号から応答音声を除く処理をした後、ユーザの発話音声を取り出す。次に、認識部22は、ユーザの発話音声の特徴と、辞書部とのマッチング処理などを実行して、発話音声に応じた語彙を辞書部から抽出してユーザの発話音声を認識する。辞書部には、車載装置18から取得したナビゲーション装置の目的地情報や電話機の発信先情報などが含まれてよい。認識部22は、発話音声の認識結果を出力部26や指示部24に送る。
出力部26は、システム側からユーザに応答音声を出力するものであり、認識部22が認識した発話音声に応じて、応答音声保持部28に保持されるシステム音声から応答音声を生成して出力する。応答音声保持部28は、出力部26から出力される複数の応答音声を保持する。応答音声保持部28に保持されるシステム音声のそれぞれに、後述するバージイン適用要否情報が付加されている。
出力部26は、例えばナビゲーション装置の動作設定において、「目的地をどうぞ」という応答音声を生成し、これに対するユーザの返答を認識部22が認識できた場合は「目的地は東京駅でよろしいですか」という応答音声を生成する。「目的地をどうぞ」という応答音声は、具体的な目的地の発話を要求するもので、「目的地は東京駅でよろしいですか」という応答音声は「はい/いいえ」という定型の発話を要求するものである。
バージイン制御部30は、バージイン機能の実行を制御する。バージイン制御部30は、バージイン機能の実行の有無を判定するためのバージイン適用要否情報を取得する要否情報取得部31と、バージイン機能の実行の有無を判定する実行判定部32と、実行判定部32の判定結果にもとづいてバージイン機能のオン/オフを認識部22に指示する実行部34とを有する。
要否情報取得部31は、出力部26から出力予定の応答音声によってユーザに返答を要求する際に、返答として要求するユーザの発話音声の予測長さにもとづいて設定されたバージイン適用要否情報を取得する。
返答として要求する発話音声の長さは、出力される応答音声によって予測可能である。たとえば、「目的地は東京駅でよろしいですか」、「電話の発信先は山田太郎でよろしいですか」という応答音声は、「はい/いいえ」という短い発話音声を返答として要求するため、発話音声の長さが短いことが予測される。一方で、「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声に対しては、ユーザが複数の単語を発話することが予測されるため、発話音声の長さが短くないことが予測される。
バージイン適用要否情報は、バージイン機能の実行の有無を判定するための情報であって、発話音声の予測長さにもとづいて事前に設定されており、応答音声保持部28に保持されるシステム音声に付加されている。「はい/いいえ」という定型の短い発話音声を要求する応答音声に対して、バージイン機能をオンにするためのバージイン適用要否情報が付加されている。「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声に対して、ユーザの発話が長い場合が予想されるため、バージイン機能をオフにするためのバージイン適用要否情報が付加されている。要否情報取得部31は出力予定の応答音声に付加されたバージイン適用要否情報を出力部26から取得する。
実行判定部32は、バージイン適用要否情報にもとづいてバージイン機能の実行の有無を判定する。実行判定部32は、応答音声の出力中にユーザが発話する可能性が高いと予測される場合に、バージイン機能を実行すること(オンにすること)を決定し、応答音声の出力中にユーザが発話する可能性が高いと予測されない場合に、バージイン機能を実行することを決定しない。
「はい/いいえ」などの定型の短い返答を要求する場合、ユーザが応答音声の出力中に発話する傾向があるため、バージイン機能をオンにすることで、ユーザの発話の自由度を向上できる。また、「はい/いいえ」という定型の返答を要求する場合、認識部22が発話音声を認識しやすいため、バージイン機能を実行しても認識率の低下を抑えることができる。
一方で、応答音声によってユーザに返答を要求する際に、ユーザに短くない発話音声を返答として要求する場合、バージイン機能が実行されない。たとえば、「目的地をどうぞ」、「電話の発信先をどうぞ」という応答音声は、定型の返答を要求するものでなく、長くなる可能性がある発話音声を返答として要求しており、この場合にはバージイン機能が実行されない。ユーザの発話が短くない場合に、バージイン機能を実行しないことで、発話音声の認識率の低下を抑えることができる。
別の例では、実行判定部32は、バージイン適用要否情報にもとづくのではなく、発話音声の予測長さにもとづいてバージイン機能の実行の有無を判定してよい。実行判定部32は、出力部26から出力される応答音声によってユーザに返答を要求する際に、返答として要求する発話音声の予測長さ、にもとづいてバージイン機能の実行の有無を判定してよい。発話音声の予測長さは、予測される発話音声の時間情報として、認識部22による発話音声の認識結果または応答音声保持部28に保持される応答音声に予め付加されており、実行判定部32は認識部22または出力部26から発話音声の予測長さを取得してバージイン機能の実行の有無を判定する。
実行部34は、実行判定部32によりバージイン機能をオンにすると決定された場合、応答音声の出力中に発話音声を検出するよう取得部20および認識部22に指示信号を送り、バージイン機能を実行させる。
指示部24は、音声入力処理が完了した場合に、認識部22の認識結果にもとづいて車載装置18に指示信号を送る。指示部24は、認識した目的地へナビゲーション装置で案内を実行させる指示信号や、認識した発信先に電話機で発信させる指示信号を送る。
図2は、バージイン機能の実行判定処理を示すフローチャートである。図2ではナビゲーション装置の目的地設定処理を例に説明する。処理部16は、所定のトリガーを契機として、音声入力を開始する(S10)。処理部16は、音声入力を開始するための所定の発話音声、例えば「音声入力スタート」という発話音声を認識したことをトリガーとして音声入力処理を開始する。認識部22が「音声入力スタート」という発話音声を認識した場合に、出力部26は「何かご用ですか」という応答音声を出力する。ユーザは「何かご用ですか」という応答音声を聞いて、「目的地を設定したい」と発話する。
取得部20は、マイクロフォン12で取得した音信号を取得し、記憶する(S12)。出力部26が「何かご用ですか」という応答音声を出力した後、認識部22は、取得部20が記憶する音信号から「目的地を設定したい」という発話音声を取り出して認識する(S14)。出力部26は、認識部22の認識結果にもとづいて応答音声を決定し、「目的地をどうぞ」という応答音声を生成する(S16)。
「目的地をどうぞ」という応答音声はユーザに返答を要求するものであり(S18のY)、バージイン制御部30の実行判定部32は「目的地をどうぞ」という応答音声に付加されたバージイン適用要否情報にもとづいて、ユーザに短い予測長さの返答を要求するか判定する(S20)。なお、応答音声がユーザに返答を要求しない場合(S18のN)、バージイン機能は実行されず、出力部26は応答音声を出力する(S24)。
「目的地をどうぞ」という応答音声は長い発話が返される可能性があり、ユーザに要求する返答が短い予測長さでなく(S20のN)、バージイン機能は実行されず、出力部26は「目的地をどうぞ」という応答音声を出力する(S24)。
「目的地をどうぞ」という応答音声を出力した後、ステップ12に戻って取得部20はマイクロフォン12で取得した音信号を取得し、「目的地は東京駅です」という発話音声を記憶する(S12)。
認識部22は、応答音声出力完了後からの音信号から「目的地は東京駅です」という発話音声を取り出して認識し(S14)、出力部26は、認識部22の認識結果にもとづいて「目的地は東京駅でよろしいですか」という応答音声を生成する(S16)。
「目的地は東京駅でよろしいですか」という応答音声はユーザに返答を要求するものであり(S18のY)、バージイン制御部30の実行判定部32は、「目的地は東京駅でよろしいですか」という応答音声に付加されたバージイン適用要否情報にもとづいて、ユーザに短い予測長さの返答を要求するか判定する(S20)。
「目的地は東京駅でよろしいですか」という応答音声は、「はい/いいえ」などの定型の返答を要求するもので、ユーザに要求する返答が短い予測長さであり(S20のY)、実行判定部32はバージイン機能をオンにすると判定し、実行部34は取得部20および認識部22にバージイン機能を実行させる(S22)。このようにバージイン機能をオンにすることで、ユーザが「目的地は東京駅でよろしいですか」の応答音声の出力後まで待たずに発話しても、その発話を認識部22が認識するため、ユーザの発話の自由度を向上できる。
なお実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
たとえば、実施例では、応答音声出力中にユーザが発話する可能性が高いと予測される場合として、ユーザに「はい/いいえ」などの短い予測長さの返答を要求する場合を示したが、この態様に限られない。たとえば、応答音声出力中にユーザが発話する可能性が高いと予測される場合として、認識部22がユーザの発話音声を認識できなかった場合にバージイン機能を実行してもよい。