JP2019124881A

JP2019124881A - 音声認識装置および音声認識方法

Info

Publication number: JP2019124881A
Application number: JP2018007064A
Authority: JP
Inventors: 大樹山下; Daiki Yamashita
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2019-07-25
Also published as: US20190228776A1; CN110060660A

Abstract

【課題】簡素な構成で、車室内での音声認識の精度を向上できる音声認識装置を提供する。
【解決手段】音声認識装置１０において、通信部２２は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第１音声認識結果および第１音声認識結果の信頼度を導出するサーバ装置１２に送信し、サーバ装置１２から第１音声認識結果および第１音声認識結果の信頼度を受信する。音声認識部２４は、音声を音声認識して第２音声認識結果および第２音声認識結果の信頼度を出力する。選択部３０は、予め定められた車両の車速と補正値との対応関係に基づいて、検出された車両の車速に対応する補正値で第１音声認識結果の信頼度または第２音声認識結果の信頼度を補正し、第１音声認識結果と第２音声認識結果のうち信頼度が高いものを選択する。
【選択図】図１

Description

本発明は、ユーザの発話を音声認識する音声認識装置および音声認識方法に関する。

様々に変化するノイズが音声に重畳されても、正しく音声認識を実行できる車両用音声認識装置が知られている（例えば、特許文献１参照）。この装置は、音声認識部において、複数の音響モデルを記憶し、入力される車速信号とエアコン風量信号に基づいて、記憶した音響モデルのいずれかを選択する。そして、マイクより入力された音声信号の音声信号パターンと、選択した音響モデルにおける音素ごとの信号パターンの特徴とを比較することにより音声認識を実行して、操作コマンドをナビゲーション部に対して出力する。

また、車載の音声認識装置において、マイクで取り込んだ音声信号からノイズを除去して、ノイズが除去された音声信号を音声認識する技術が知られている（例えば、特許文献２参照）。

特開２００５−０１７７０９号公報特開２００８−２２４９６０号公報

特許文献１の技術では、音声認識部の音声認識処理を変更する必要があるため、特に複数の音声認識部を含む構成では、構成が複雑化する。また、特許文献２の技術では、ノイズを除去するためにフィルタ、増幅器、それらを調整する構成が必要なため、構成が複雑化する。

本発明はこうした状況に鑑みてなされたものであり、その目的は、簡素な構成で、車室内での音声認識の精度を向上できる音声認識装置を提供することにある。

上記課題を解決するために、本発明のある態様の音声認識装置は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第１音声認識結果および第１音声認識結果の信頼度を導出するサーバ装置に送信し、前記サーバ装置から前記第１音声認識結果および前記第１音声認識結果の信頼度を受信する通信部と、前記音声を音声認識して第２音声認識結果および第２音声認識結果の信頼度を出力する音声認識部と、予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第１音声認識結果の信頼度または前記第２音声認識結果の信頼度を補正し、前記第１音声認識結果と前記第２音声認識結果のうち信頼度が高いものを選択する選択部と、を備える。

この態様によると、検出された車速に対応する補正値で第１音声認識結果の信頼度または第２音声認識結果の信頼度を補正するので、車速が比較的大きい場合、すなわちノイズが比較的大きい場合に、車載の音声認識部の第２音声認識結果を選択する可能性を高めることができる。音声認識部の音声認識可能な語彙数が、サーバ装置の音声認識可能な語彙数より少なく、ノイズが比較的大きい場合、音声認識部の音声認識可能な語彙であれば、音声認識部はサーバ装置よりも誤認識しにくい。そのため、ノイズが比較的大きい場合に、誤認識の可能性を低減できる。また、音声認識部の音声認識処理を変更する必要がなく、ノイズを除去する構成を設ける必要もない。よって、簡素な構成で、車室内での音声認識の精度を向上できる。

前記音声認識部の音声認識可能な語彙数は、前記サーバ装置の音声認識可能な語彙数より少なくてもよい。

前記対応関係において、前記車両の車速が増加するほど、補正値は増加し、前記選択部は、検出された前記車両の車速に対応する補正値を、前記第２音声認識結果の信頼度に加算してもよい。

本発明の別の態様は、音声認識方法である。この方法は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第１音声認識結果および第１音声認識結果の信頼度を出力するサーバ装置に送信し、前記サーバ装置から前記第１音声認識結果および前記第１音声認識結果の信頼度を受信するステップと、前記音声を音声認識して第２音声認識結果および第２音声認識結果の信頼度を出力するステップと、予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第１音声認識結果の信頼度または前記第２音声認識結果の信頼度を補正し、前記第１音声認識結果と前記第２音声認識結果のうち信頼度が高いものを選択するステップと、を備える。

本発明によれば、簡素な構成で、車室内での音声認識の精度を向上できる。

実施の形態に係る音声認識システムの構成を示すブロック図である。図１の音声認識部による、車両が停車した状態における第２音声認識結果の信頼度の度数分布を示す図である。図１の音声認識部による、車両が走行した状態における第２音声認識結果の信頼度の度数分布を示す図である。図１の音声認識システムの処理を示すフローチャートである。

図１は、実施の形態に係る音声認識システム１の構成を示すブロック図である。音声認識システム１は、音声認識装置１０と、サーバ装置１２とを備える。音声認識装置１０は、車両に搭載される。音声認識装置１０は、マイク２０と、通信部２２と、音声認識部２４と、取得部２６と、記憶部２８と、選択部３０とを備える。

マイク２０は、車両の乗員により発話された音声を取得し、その音声の音声データを通信部２２と音声認識部２４に出力する。マイク２０は、車両のエンジン音、ロードノイズ等のノイズも取得する。車両の車速が高いほど、マイク２０で取得されるノイズは大きくなる。

通信部２２は、サーバ装置１２と無線通信を行う。この無線通信の規格は特に限定されないが、例えば、３Ｇ（第３世代移動通信システム）、４Ｇ（第４世代移動通信システム）または５Ｇ（第５世代移動通信システム）を含む。通信部２２は、図示しない基地局を介してサーバ装置１２と無線通信を行ってもよい。通信部２２は、マイク２０から出力された音声データをサーバ装置１２に送信する。

サーバ装置１２は、通信部２２から送信された音声データに基づいて、乗員により発話された音声を音声認識して第１音声認識結果および第１音声認識結果の信頼度を導出する。サーバ装置１２は、音声認識可能な複数の所定の単語を記憶しており、記憶している単語のなかから、認識された文字列に最も近いものを選択して第１音声認識結果として出力する。信頼度は、音声データから単語が正しく認識された可能性の度合いを示す。信頼度が高いほど、単語が正しく認識された可能性が高いことを示す。マイク２０で取得されたノイズが大きいほど、第１音声認識結果の信頼度は低下しやすい。第１音声認識結果の信頼度は、周知の技術を用いて導出できる。サーバ装置１２は、第１音声認識結果および第１音声認識結果の信頼度を音声認識装置１０に送信する。サーバ装置１２は、例えば、データセンターなどに設置される。

音声認識装置１０の通信部２２は、サーバ装置１２から第１音声認識結果および第１音声認識結果の信頼度を受信する。通信部２２は、受信した情報を選択部３０に出力する。

音声認識部２４は、マイク２０から出力された音声データに基づいて、音声を音声認識して第２音声認識結果および第２音声認識結果の信頼度を選択部３０に出力する。音声認識部２４は、音声認識可能な複数の所定の単語を記憶しており、記憶している単語のなかから、認識された文字列に最も近いものを選択して第２音声認識結果として出力する。音声認識部２４が音声認識可能な所定の単語は、所定のコマンドであるということもできる。音声認識部２４の音声認識可能な語彙数は、サーバ装置１２の音声認識可能な語彙数より少ない。マイク２０で取得されたノイズが大きいほど、第２音声認識結果の信頼度は低下しやすい。第２音声認識結果の信頼度は、周知の技術を用いて導出できる。

マイク２０が音声を取得してから、音声認識部２４が第２音声認識結果および第２音声認識結果の信頼度を出力するまでの時間は、マイク２０が音声を取得してから、通信部２２がサーバ装置１２から第１音声認識結果および第１音声認識結果の信頼度を受信するまでの時間より短い。

取得部２６は、図示しない車速センサで検出された車両の車速の情報を取得する。取得部２６は、車速の情報を選択部３０に出力する。

記憶部２８は、予め定められたしきい値、および、予め定められた車両の車速と補正値との対応関係を記憶している。例えば、車速と補正値との対応関係において、車両の車速が増加するほど、補正値は増加する。しきい値、および、車速と補正値との対応関係は、実験により適宜設定することができる。

選択部３０は、第２音声認識結果の信頼度と、記憶部２８に記憶されたしきい値とを比較する。選択部３０は、第２音声認識結果の信頼度がしきい値以上である場合、第２音声認識結果を選択する。即ち、選択部３０は、第２音声認識結果の信頼度がしきい値以上である場合、サーバ装置１２から出力される第１音声認識結果を待たない。

選択部３０は、第２音声認識結果の信頼度がしきい値未満である場合、記憶部２８に記憶された対応関係に基づいて、取得部２６から出力された車両の車速に対応する補正値で第１音声認識結果の信頼度または第２音声認識結果の信頼度を補正する。ここでは、選択部３０は、検出された車両の車速に対応する補正値を、第２音声認識結果の信頼度に加算する。つまり、選択部３０は、第２音声認識結果の信頼度を補正する。選択部３０は、第１音声認識結果と第２音声認識結果のうち信頼度が高いものを選択する。

選択部３０は、選択した第１音声認識結果または第２音声認識結果を、図示しないカーナビゲーション装置などの車載装置に出力する。例えば、カーナビゲーション装置は、選択部３０から出力された第１音声認識結果または第２音声認識結果に基づいて、目的地の設定や電話番号の検索などの各種機能を実行する。

ここで、しきい値の設定方法の一例について説明する。まず、複数の評価用音源を用意する。評価用音源は、車載の音声認識部２４で認識させたいコマンドフレーズ群と、サーバ装置１２で認識させたい自然発話フレーズ群とを含む。例えば、コマンドフレーズ群と自然発話フレーズ群とを、それぞれ１０００個程度用意してもよい。

次に、車両が停車した状態、すなわち車速がゼロの状態で、コマンドフレーズ群と自然発話フレーズ群とを音声認識部２４で音声認識し、第２音声認識結果が正解である場合と不正解である場合のそれぞれの第２音声認識結果の信頼度の度数分布を導出する。

図２は、図１の音声認識部２４による、車両が停車した状態における第２音声認識結果の信頼度の度数分布を示す図である。正解の場合の第２音声認識結果の信頼度の度数分布１００は、主にコマンドフレーズ群により得られる。不正解の場合の第２音声認識結果の信頼度の度数分布１０２は、主に自然発話フレーズ群により得られる。

次に、図２の度数分布から、車速がゼロの場合の信頼度のしきい値を定める。しきい値の定め方は特に限定されないが、例えば、図２に示されるように、正解で選択されない数と、不正解で選択される数との和が最小になる信頼度Ｃ１を、しきい値として定める。このしきい値が、記憶部２８に記憶される。

次に、車速と補正値との対応関係の設定方法の一例について説明する。以上と同様に、車両が走行した状態、例えば車速が約１００ｋｍ／ｈの状態で、コマンドフレーズ群と自然発話フレーズ群とを音声認識部２４で音声認識し、第２音声認識結果が正解である場合と不正解である場合のそれぞれの第２音声認識結果の信頼度の度数分布を導出する。

図３は、図１の音声認識部２４による、車両が走行した状態における第２音声認識結果の信頼度の度数分布を示す図である。図２と比較して、度数分布１１０と度数分布１１２は、ノイズの影響により、信頼度が低い側に偏っている。

次に、図３の度数分布から、図２の場合と同様に、車速が１００ｋｍ／ｈの場合の正解で選択されない数と不正解で選択される数との和が最小になる信頼度Ｃ２を定める。そして、図３で定められた信頼度Ｃ２と図２のしきい値との差を導出する。このような処理を他の車速についても行い、各車速で定められた正解で選択されない数と不正解で選択される数との和が最小になる信頼度と、図２のしきい値との差を導出する。

次に、車速がゼロの場合の補正値を実験により設定し、上述の各車速について導出された差を、車速がゼロの場合の補正値に加算して、加算結果を各車速での補正値とする。

なお、車速と補正値との対応関係は、任意の様々な設定方法で定めることができる。例えば、補正値は、複数の車速のそれぞれにおいて、実験により設定してもよい。

この構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

次に、以上の構成による音声認識システム１の全体的な動作を説明する。図４は、図１の音声認識システム１の処理を示すフローチャートである。図４の処理は、マイク２０が音声の音声データを出力すると実行される。

通信部２２は、音声データをサーバ装置１２に送信する（Ｓ１０）。音声認識部２４は、音声データに基づいて音声認識を行う（Ｓ１２）。第２音声認識結果の信頼度がしきい値以上である場合（Ｓ１４のＹ）、選択部３０は、第２音声認識結果を選択し（Ｓ１６）、処理を終了する。

第２音声認識結果の信頼度がしきい値未満である場合（Ｓ１４のＮ）、選択部３０は、車速に対応する補正値で第２音声認識結果の信頼度を補正する（Ｓ１８）。通信部２２は、サーバ装置１２から第１音声認識結果および第１音声認識結果の信頼度を受信する（Ｓ２０）。ステップＳ２０の処理は、ステップＳ１２とステップＳ１４の間に行われてもよいし、ステップＳ１４とステップＳ１８の間に行われてもよい。

第２音声認識結果の信頼度が第１音声認識結果の信頼度以上である場合（Ｓ２２のＹ）、ステップＳ１６に移行する。第２音声認識結果の信頼度が第１音声認識結果の信頼度未満である場合（Ｓ２２のＮ）、選択部３０は、第１音声認識結果を選択し（Ｓ２４）、処理を終了する。

次に、音声認識システム１の動作の具体的な例について説明する。
（第１の例）
発話された音声が、音声認識部２４の音声認識可能な語彙からなる「電話をかける山田」である例について説明する。また、車速が比較的大きく、例えば１００ｋｍ／ｈであり、第１音声認識結果の信頼度は７０００であり、第２音声認識結果の信頼度は５５００であり、しきい値未満であることを想定する。

選択部３０は、第２音声認識結果の信頼度がしきい値未満であるため、第２音声認識結果の信頼度を補正する。この車速での補正値が、例えば２０００である場合、補正された第２音声認識結果の信頼度は７５００であり、第１音声認識結果の信頼度より高い。そのため、選択部３０は、第２音声認識結果を選択する。

車速が比較的大きい場合、すなわちノイズが比較的大きい場合、音声認識部２４の音声認識可能な語彙であれば、音声認識部２４はサーバ装置１２よりも誤認識しにくい傾向がある。音声認識部２４では、サーバ装置１２と比較して、音声認識可能な語彙数が少ないため、ノイズの影響によってある音声を正しい単語に類似した別の単語として誤認識しにくいためである。そのため、この例のように第２音声認識結果の信頼度が比較的高い場合には、第２音声認識結果を選択することで、音声認識の精度を向上できる。

なお、この第１の例において、車速がより小さい場合には、第２音声認識結果の信頼度は、より高くなり、しきい値以上となる可能性がある。その場合、選択部３０は、第１音声認識結果の信頼度とは無関係に、第２音声認識結果を選択する。

（第２の例）
発話された音声が、音声認識部２４の音声認識不可能な語彙を含む「どこかおいしいそば屋はありますか」である例について説明する。また、車速が第１の例の車速と同じであり、第１音声認識結果の信頼度は７０００であり、第２音声認識結果の信頼度は２０００であり、しきい値未満であることを想定する。音声認識部２４は、この音声を正しく音声認識できないため、第２音声認識結果の信頼度は第１の例より低い。

この車速での補正値が２０００である場合、補正された第２音声認識結果の信頼度は４０００であり、第１音声認識結果の信頼度より低い。そのため、選択部３０は、第１音声認識結果を選択する。

音声認識部２４の音声認識不可能な語彙であれば、ノイズの大きさによらず音声認識部２４は誤認識している。そのため、この例のように第２音声認識結果の信頼度が比較的低い場合には、第１音声認識結果を選択することで、音声認識の精度を向上できる。

このように本実施の形態によれば、検出された車速に対応する補正値で第２音声認識結果の信頼度を補正するので、車速が比較的大きい場合、すなわちノイズが比較的大きい場合に、車載の音声認識部２４の第２音声認識結果を選択する可能性を高めることができる。音声認識部２４の音声認識可能な語彙数が、サーバ装置１２の音声認識可能な語彙数より少なく、ノイズが比較的大きい場合、音声認識部２４の音声認識可能な語彙であれば、音声認識部２４はサーバ装置１２よりも誤認識しにくい。そのため、ノイズが比較的大きい場合に、誤認識の可能性を低減できる。

また、音声認識部２４の音声認識処理を変更する必要がなく、ノイズを除去する構成を設ける必要もない。よって、簡素な構成で、車室内での音声認識の精度を向上できる。

これに対して、第２音声認識結果の信頼度を補正しない比較例では、車速が比較的大きい場合、正しく音声認識された第２音声認識結果を選択する可能性が低くなる。

以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば、信頼度のしきい値は、車両の車速に応じて変化してもよい。この場合、記憶部２８は、車両の車速と、信頼度のしきい値との対応関係を記憶している。このような対応関係は、図３を参照して説明した各車速における正解で選択されない数と不正解で選択される数との和が最小になる信頼度を、各車速でのしきい値とすることで、設定できる。車速が大きくなるほど、しきい値は小さくなる。選択部３０は、記憶部２８に記憶された車速としきい値との対応関係に基づいて、取得部２６から出力された車両の車速に対応するしきい値を特定し、特定したしきい値と第２音声認識結果の信頼度とを比較してもよい。この変形例では、車速が比較的大きい場合に、サーバ装置１２による第１音声認識結果を待たずに、車載の音声認識部２４の第２音声認識結果を選択する可能性を高めることができる。なお、信頼度のしきい値が車両の車速に応じて変化する場合、選択部３０は、補正値で第１音声認識結果の信頼度または第２音声認識結果の信頼度を補正しなくてもよい。

また、音声認識システム１は、それぞれ異なる音声認識性能を有する複数のサーバ装置を備えてもよい。選択部３０は、音声認識部２４の第２音声認識結果の信頼度がしきい値未満である場合、車速に対応する補正値で複数のサーバ装置の複数の第１音声認識結果の信頼度または第２音声認識結果の信頼度を補正し、複数の第１音声認識結果と第２音声認識結果のうち信頼度が高いものを選択する。この変形例では、音声認識システム１の音声認識性能をより詳細に調整できる。

また、選択部３０は、検出された車両の車速に対応する補正値を第１音声認識結果の信頼度から減算して、第１音声認識結果の信頼度を補正してもよい。この変形例では、音声認識システム１の構成の自由度を高めることができる。

１…音声認識システム、１０…音声認識装置、１２…サーバ装置、２０…マイク、２２…通信部、２４…音声認識部、２６…取得部、２８…記憶部、３０…選択部。

Claims

車両の乗員により発話された音声のデータを、当該音声を音声認識して第１音声認識結果および第１音声認識結果の信頼度を導出するサーバ装置に送信し、前記サーバ装置から前記第１音声認識結果および前記第１音声認識結果の信頼度を受信する通信部と、
前記音声を音声認識して第２音声認識結果および第２音声認識結果の信頼度を出力する音声認識部と、
予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第１音声認識結果の信頼度または前記第２音声認識結果の信頼度を補正し、前記第１音声認識結果と前記第２音声認識結果のうち信頼度が高いものを選択する選択部と、
を備えることを特徴とする音声認識装置。
前記音声認識部の音声認識可能な語彙数は、前記サーバ装置の音声認識可能な語彙数より少ないことを特徴とする請求項１に記載の音声認識装置。
前記対応関係において、前記車両の車速が増加するほど、補正値は増加し、
前記選択部は、検出された前記車両の車速に対応する補正値を、前記第２音声認識結果の信頼度に加算することを特徴とする請求項１または２に記載の音声認識装置。
車両の乗員により発話された音声のデータを、当該音声を音声認識して第１音声認識結果および第１音声認識結果の信頼度を出力するサーバ装置に送信し、前記サーバ装置から前記第１音声認識結果および前記第１音声認識結果の信頼度を受信するステップと、
前記音声を音声認識して第２音声認識結果および第２音声認識結果の信頼度を出力するステップと、
予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第１音声認識結果の信頼度または前記第２音声認識結果の信頼度を補正し、前記第１音声認識結果と前記第２音声認識結果のうち信頼度が高いものを選択するステップと、
を備えることを特徴とする音声認識方法。