JP2014071446A

JP2014071446A - 音声認識システム

Info

Publication number: JP2014071446A
Application number: JP2012220298A
Authority: JP
Inventors: Ryuichi Suzuki; 竜一鈴木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2012-10-02
Filing date: 2012-10-02
Publication date: 2014-04-21
Anticipated expiration: 2032-10-02
Also published as: US9293142B2; US20150221308A1; WO2014054217A1; JP6155592B2

Abstract

【課題】複数の音声認識装置を備える車両用の音声認識システムの音声認識の精度を向上させる。
【解決手段】車両に搭載された複数の音声認識装置６、７を備えた車両用の音声認識システム８は、入力された音声が前記複数の音声認識装置６、７によってそれぞれ音声認識された後、これら複数の音声認識結果の内容に基づいて前記複数の音声認識結果の中から１つの音声認識結果を選択して採用する音声認識制御手段９を備える。
【選択図】図２

Description

本発明は、複数の音声認識装置を備えた音声認識システムに関する。

複数の音声認識装置を用いて音声認識処理を行う構成として、特許文献１に記載されたシステムが知られている。このシステムでは、複数の音声認識装置を備え、音声認識を行いたい複数の音声ファイルを、上記複数の音声認識装置によってパラレルに音声認識処理を実行するようにしている。

特開２００９−１９８５６０号公報

上記従来構成の場合、複数の音声ファイルについて並列して音声認識処理を実行するので、大量の音声ファイルを短時間で音声認識処理することには適している。しかし、複数の音声認識装置を備えていても、音声認識の精度を向上させる点については、効果が得られることがなかった。

そこで、本発明の目的は、複数の音声認識装置を備えるものにおいて、音声認識の精度を向上させることができる音声認識システムを提供することにある。

請求項１の発明によれば、車両に搭載された複数の音声認識装置を備え、入力された音声が前記複数の音声認識装置によってそれぞれ音声認識された後、これら複数の音声認識結果の内容に基づいて前記複数の音声認識結果の中から１つの音声認識結果を選択して採用する音声認識制御手段を備えたので、音声認識の精度を向上させることができる。

請求項２の発明によれば、車両に搭載され音声認識装置を備えたディスプレイコントロールユニットと、車両に搭載され前記ディスプレイコントロールユニットに接続され音声認識装置を備えたナビゲーションユニットと、入力された音声が前記２つの音声認識装置によってそれぞれ音声認識された後、これら２つの音声認識結果の内容に基づいて前記２つの音声認識結果のうちの１つの音声認識結果を選択して採用する音声認識制御手段とを備えたので、音声認識の精度を向上させることができる。

本発明の第１実施形態を示す車載システムのブロック図ディスプレイコントロールユニット及びナビゲーションユニットのブロック図音声認識制御のフローチャート音声認識制御の内容を表にして示す図

以下、本発明を車両に搭載した車載システムに適用した第１実施形態について、図１ないし図４を参照して説明する。図１は、本実施形態の車載システム１の電気的構成を概略的に示すブロック図である。この図１に示すように、車載システム１は、ディスプレイコントロールユニット（以下、ＤＣＵと称す）２と、ナビゲーションユニット３と、オーディオユニット４と、電話通信ユニット５とを備えている。ＤＣＵ２とナビゲーションユニット３がそれぞれ音声認識装置６、７（図２参照）を内蔵しており、これらＤＣＵ２とナビゲーションユニット３とから音声認識システム８が構成されている。

ＤＣＵ２は、図２に示すように、制御部（音声認識制御手段）９と、ヒューマンマシンインターフェイス部（以下、ＨＭＩ部と称す）１０と、音声合成装置（ＴＴＳ部）１１と、音声認識装置（ＶＲ部）６と、認識辞書部１２と、ＤＣＵ／ナビＩ／Ｆ部１３とを備えている。制御部９は、ＤＣＵ２の各部を制御する機能を有する。ＨＭＩ部１０は、ディスプレイと、ディスプレイの画面表面に設けられたタッチパネルと、ディスプレイの画面の周囲部に設けられた複数の操作スイッチから構成された操作部と、リモコン等とを備えている。

音声合成装置１１は、制御部９から与えられたテキストを音声（音声信号）に変換（合成）する機能を有し、変換された音声は制御部９へ与えられる。尚、ここで変換された音声は、制御部９によって、前記オーディオユニット４へ送信され、該オーディオユニット４のスピーカを介して音声出力される。

音声認識装置６は、マイク１４を介して入力された音声（アナログ音声信号）について、認識辞書部１２の各辞書を使用して音声認識を行う機能を有し、認識結果は制御部９へ与えられる。認識辞書部１２は、コマンド対応辞書１５と、楽曲対応辞書１６と、電話帳対応辞書１７とを備えている。これらコマンド対応辞書１５、楽曲対応辞書１６及び電話帳対応辞書１７は、コマンド（ＤＣＵ２、ナビゲーションユニット３、オーディオユニット４及び電話通信ユニット５用の各種のコマンド）、楽曲及び電話という３つのデータ分野にそれぞれ対応する音声認識用辞書である。尚、認識辞書部１２内に、上記３つのデータ分野以外の１つ以上のデータ分野に対応する１つ以上の音声認識用辞書を備えるように構成しても良い。

制御部９は、ＤＣＵ／ナビＩ／Ｆ部１３と、ナビゲーションユニット３内のＤＣＵ／ナビＩ／Ｆ部１８とを介して、ナビゲーションユニット３との間でデータ通信を行うように構成されている。尚、ＤＣＵ２内には、ＤＣＵ２と前記オーディオユニット４または前記電話通信ユニット５との各間でそれぞれデータ通信するためのＩ／Ｆ部（図示しない）が備わっている。

また、ナビゲーションユニット３は、図２に示すように、制御部１９と、音声合成装置（ＴＴＳ部）２０と、音声認識装置（ＶＲ部）７と、認識辞書部２１と、ＤＣＵ／ナビＩ／Ｆ部１８とを備えている。更に、ナビゲーションユニット３は、通常のナビゲーション装置が備えている各構成、即ち、車両の現在位置を検出する位置検出器、地図データ等を入力する地図データ入力器、現在位置から目的地までの経路を算出する経路算出部、経路に沿って案内する経路案内部（いずれも図示しない）等を備えている。

制御部１９は、ナビゲーションユニット３の各部を制御する機能を有する。音声合成装置２０は、制御部１９から与えられたテキストを音声（音声信号）に変換（合成）する機能を有し、変換された音声は制御部１９へ与えられる。尚、ここで変換された音声は、制御部１９によって、前記ＤＣＵ２へ送信され、前記オーディオユニット４のスピーカを介して音声出力される。

音声認識装置７は、マイク１４を介して入力された音声（アナログ音声信号）をＤＣＵ２を介して入力し、この入力した音声について、認識辞書部２１の各辞書を使用して音声認識を行う機能を有し、音声認識結果は制御部１９へ与えられる。認識辞書部２１は、Ａｄｄｒｅｓｓ対応辞書２２と、ＰＯＩ（point of interest）対応辞書２３と、コマンド対応辞書２４とを備えている。これらＡｄｄｒｅｓｓ対応辞書２２、ＰＯＩ対応辞書２３及びコマンド対応辞書２４は、Ａｄｄｒｅｓｓ（住所）、ＰＯＩ（施設の名称等）及びコマンド（ナビゲーションユニット３用の各種のコマンド）という３つのデータ分野にそれぞれ対応する音声認識用辞書である。尚、認識辞書部２１内に、上記３つのデータ分野以外の１つ以上のデータ分野に対応する１つ以上の音声認識用辞書を備えるように構成しても良い。

制御部１９は、ＤＣＵ／ナビＩ／Ｆ部１８と、ＤＣＵ２内のＤＣＵ／ナビＩ／Ｆ部１３とを介して、ＤＣＵ２との間でデータ通信を行う構成となっている。
そして、本実施形態においては、ナビゲーションユニット３は、通常のナビゲーション装置から、ディスプレイ、タッチパネル、操作部及びリモコン等のいわゆるＨＭＩ部を取り除いた装置に相当する構成となっている。そして、上記ナビゲーションユニット３は、ＤＣＵ２をＨＭＩ部として使用することが可能な構成となっている。

この構成の場合、ナビゲーションユニット３がＤＣＵ２をＨＭＩ部として使用する際には、ナビゲーションユニット３側に制御（マスター制御）が移行し、ナビゲーションユニット３がＤＣＵ２（スレーブ制御側となっている）をコントロールする制御態様となる。そして、ナビゲーションユニット３側の動作（ナビゲーション処理）が終了すると、ＤＣＵ２側がマスター制御に戻り、ＤＣＵ２がナビゲーションユニット３（スレーブ制御側）をコントロールする制御態様に戻る。尚、車両の電源がオンされたときには（初期状態または通常状態では）、ＤＣＵ２側がマスター制御となっており、ＤＣＵ２がナビゲーションユニット３（スレーブ制御側）をコントロールする制御態様となっている。

また、オーディオユニット４がＤＣＵ２に接続された状態では、ＤＣＵ２がオーディオユニット４のＨＭＩ部として動作する構成となっている。即ち、ユーザーがＤＣＵ２のタッチパネル等を操作したり、ユーザーがマイク１４を介して音声を入力（ＤＣＵ２が音声認識）したりして、楽曲の名称を入力すると、ＤＣＵ２は、その楽曲の名称の楽曲を再生する指示をオーディオユニット４へ送信し、この指示を受けてオーディオユニット４は上記楽曲を再生出力する構成となっている。この場合、ＤＣＵ２側がマスター制御となっており、ＤＣＵ２がオーディオユニット４（スレーブ制御側）をコントロールする制御態様となっている。

また、電話通信ユニット５がＤＣＵ２に接続された状態では、ＤＣＵ２が電話通信ユニット５のＨＭＩ部として動作する構成となっている。即ち、ユーザーがＤＣＵ２のタッチパネル等を操作したり、ユーザーがマイク１４を介して音声を入力（ＤＣＵ２が音声認識）したりして、電話番号（または電話をかけたい相手の名前等）を入力すると、ＤＣＵ２は、その電話番号に電話をかける（発呼する）指示を電話通信ユニット５へ送信し、この指示を受けて電話通信ユニット５は上記電話番号に電話をかける構成となっている。この場合、ＤＣＵ２側がマスター制御となっており、ＤＣＵ２が電話通信ユニット５（スレーブ制御側）をコントロールする制御態様となっている。そして、電話通信ユニット５を介して電話する場合、ＤＣＵ２のマイク１４が電話のマイクとなり、オーディオユニット４のスピーカが電話のスピーカとなる。尚、電話通信ユニット５に着信があった場合、その着信信号はＤＣＵ２へ送信され、ＤＣＵ２は、その着信信号を受けてユーザー対して電話の呼び出しを行い、ユーザーが通話開始を選択すれば、ＤＣＵ２は通話開始の指示を電話通信ユニット５へ送信し、通話を開始するようになっている。

次に、上記した構成の音声認識システム８（ＤＣＵ２の音声認識装置６及び制御部９並びにナビゲーションユニット３の音声認識装置７及び制御部１９）の動作について、図３のフローチャートも参照して説明する。

音声認識処理が開始されると、まず、ステップＳ１０において、マイク１４を介してユーザーが発声した音声が入力される。続いて、ステップＳ２０及びステップＳ２１０へ進み、上記入力された音声は、ＤＣＵ２の音声認識装置６及びナビゲーションユニット３の音声認識装置７によりパラレルに（同時並行的に）音声認識処理される。

そして、ステップＳ２０の後は、ステップＳ３０へ進み、上記ＤＣＵ２の音声認識装置６による音声認識結果は、ＤＣＵ２の制御部９へ与えられる。また、ステップＳ２１０の後は、ステップＳ２２０へ進み、上記ナビゲーションユニット３の音声認識装置７による音声認識結果は、ナビゲーションユニット３の制御部１９へ与えられる。

次いで、上記ステップＳ３０の後は、ステップＳ４０へ進み、ＤＣＵ２の制御部９は、ＤＣＵ２の音声認識装置６による音声認識結果が階層コマンド（ＤＣＵ２、ナビゲーションユニット３、オーディオユニット４または電話通信ユニット５の各種のコマンド単体であってデータ部分に相当する音声がないもの）であるか否かを判断する。ここで、音声認識結果が階層コマンドあるときには、ステップＳ４０にて「ＹＥＳ」へ進み、ステップＳ６０へ進み、ＤＣＵ２の制御部９は、ＤＣＵ２の音声認識装置６による音声認識結果を採用する。続いて、ステップＳ７０へ進み、ＤＣＵ２の制御部９は、上記音声認識結果がナビゲーションユニット３のコマンドであるか否かを判断する。

ここで、音声認識結果がナビゲーションユニット３のコマンドでなければ、ステップＳ７０にて「ＮＯ」へ進み、ステップＳ８０へ進む。このステップＳ８０では、音声認識結果のコマンドの処理を実行し、その後は、ステップＳ１０へ戻り、次の音声が入力されるのを待つ。一方、音声認識結果がナビゲーションユニット３のコマンドであれば、ステップＳ７０にて「ＹＥＳ」へ進み、ステップＳ９０へ進む。このステップＳ９０では、音声認識結果のコマンドの処理を実行し、以降、ナビゲーションユニット３側で音声認識を実行する。この場合、制御（マスター制御）がＤＣＵ２からナビゲーションユニット３側に移行し、ナビゲーションユニット３において、音声認識、目的地の設定、経路探索、経路案内等の各処理が実行される。即ち、これ以後、ナビゲーションユニット３の処理が終了するまで、ナビゲーションユニット３は、ＤＣＵ２をＨＭＩ装置として使用する形態で（即ち、ナビゲーションユニット３側がマスタ制御となり、ＤＣＵ２側がスレーブ制御となる制御形態で）動作する。

また、前記ステップＳ４０において、音声認識結果が階層コマンドないときには、「ＮＯ」へ進み、ステップＳ５０へ進み、ＤＣＵ２の制御部９は、ナビゲーションユニット３の音声認識装置７による音声認識結果を受信すると共に、このナビゲーションユニット３の音声認識装置７による音声認識結果とＤＣＵ２の音声認識装置６による音声認識結果とを比較し、同一の１−ｓｈｏｔコマンド（ナビゲーションユニット３のコマンド＋データ部分（住所や施設名等のデータ）からなる音声に相当するもの）であるか否かを判断する。

ここで、音声認識結果が異なる１−ｓｈｏｔコマンドであるときには、ステップＳ５０にて「ＮＯ」へ進み、ステップＳ１００ヘ進む。このステップＳ１００では、前記ステップＳ９０と同様にして、ＤＣＵ２の音声認識装置６による音声認識結果のコマンドの処理を実行し、以降、ナビゲーションユニット３側で音声認識が実行される。そして、制御（マスター制御）がＤＣＵ２からナビゲーションユニット３側に移行し、ナビゲーションユニット３において、音声認識、目的地の設定、経路探索、経路案内等の各処理が実行される。この場合、ナビゲーションユニット３は、ＤＣＵ２をＨＭＩ装置として使用する形態で動作する。

一方、上記ステップＳ５０において、音声認識結果が同一の１−ｓｈｏｔコマンドであるときには、ステップＳ５０にて「ＹＥＳ」へ進み、ステップＳ１１０ヘ進む。このステップＳ１１０では、ナビゲーションユニット３側で音声認識された音声認識結果が採用され、更に、これ以降の音声認識は、ナビゲーションユニット３の音声認識装置７で行われる。そして、上記採用された音声認識結果に基づいて、ナビゲーションユニット３（の制御部１９）が動作し、目的地の設定、経路探索、経路案内、必要に応じて音声認識等の各処理が実行される。この場合、制御（マスター制御）がＤＣＵ２からナビゲーションユニット３側に移行し、ナビゲーションユニット３は、ＤＣＵ２をＨＭＩ装置として使用する形態で動作する。尚、図３のフローチャートにおいて、ステップＳ１０〜Ｓ１１０の処理はＤＣＵ２（制御部９）側の制御であり、ステップＳ２１０及びＳ２２０の処理はナビゲーションユニット３（制御部１９）側の制御である。

ここで、上述した音声認識システム８（ＤＣＵ２及びナビゲーションユニット３）の音声認識制御を、表にしてまとめたものを、図４に示す。
尚、本実施形態のＤＣＵ２は、上記した音声認識の機能、マスター制御の機能及びスレーブ制御の機能等の他に、次の各機能を備えている。即ち、ＤＣＵ２は、ＤＣＵ２自身の全コマンド、ナビゲーションユニット３の全コマンド、オーディオユニット４の全コマンド、及び、電話通信ユニット５の全コマンドを音声認識可能な機能を有する。そして、ＤＣＵ２は、音声認識したコマンドが、ＤＣＵ２で認識するコマンドであるか、それとも、ナビゲーションユニット３で認識するコマンドであるかの判定を行う機能を有する。また、ＤＣＵ２は、トークバック音声、音声認識ガイド音声、経路案内音声、Ｂｅｅp音等をオーディオユニット４のスピーカを介して音声出力可能な機能を有している。更に、ＤＣＵ２は、認識辞書部１２の楽曲対応辞書１６、電話帳対応辞書１７の内容を追加・更新する機能や、種々の動的辞書（例えばＶｏｉｃｅＴａｇ辞書、アーティスト辞書、アルバム辞書、プレイリスト辞書、タイトル辞書等）を作成・追加・更新する機能等を有している。

また、本実施形態のナビゲーションユニット３は、自身の全コマンドや目的地等を音声入力するために必要な音声認識機能を有する。そして、ナビゲーションユニット３は、トークバック音声、音声認識ガイド音声、経路案内音声等をオーディオユニット４のスピーカを介して音声出力するためのデータをＤＣＵ２へ送信する機能を有している。更に、ナビゲーションユニット３は、認識辞書部２１のＡｄｄｒｅｓｓ対応辞書２２及びＰＯＩ対応辞書２３の内容を追加・更新する機能や、種々の動的辞書（例えばＡｄｄｒｅｓｓｂｏｏｋ辞書等）を作成・追加・更新する機能等を有している。

上記した構成の本実施形態においては、ＤＣＵ２とナビゲーションユニット３にそれぞれに音認認識装置６、７が搭載され、ナビゲーションユニット３の音声認識装置７では、地図データに関連した住所や施設名等の音声認識を担当し、ＤＣＵ２の音声認識装置６では、車載システム１の各ユニットの各種のコマンドや、楽曲名や、電話帳などの音声認識を担当するように構成した。このため、２つの音声認識装置６、７を備える構成において、２つの音声認識装置６、７がそれぞれ音声認識の得意な分野を音声認識することができるから、音声認識の精度を高くすることができる。

尚、上記実施形態では、車載システム１内に、２つの音声認識装置６、７を備える構成に適用したが、これに限られるものではなく、３つ以上の音声認識装置を備える構成に適用しても良い。このように構成した場合、３つ以上の音声認識装置の担当分野の割り当てを適宜制御することにより、３つ以上の音声認識装置がそれぞれ音声認識の得意な分野の音声を音声認識できるように構成すれば良い。

図面中、１は車載システム、２はＤＣＵ、３はナビゲーションユニット、６は音声認識装置、７は音声認識装置、８は音声認識システム、９は制御部（音声認識制御手段）、１０はＨＭＩ部、１１は音声合成装置、１２は認識辞書部、１４はマイク、１５はコマンド対応辞書、１６は楽曲対応辞書、１７は電話帳対応辞書、１９は制御部、２０は音声合成装置、２１は認識辞書部、２２はＡｄｄｒｅｓｓ対応辞書、２３はＰＯＩ対応辞書、２４はコマンド対応辞書を示す。

Claims

車両に搭載された複数の音声認識装置（６、７）を備えた車両用の音声認識システムであって、
入力された音声が前記複数の音声認識装置（６、７）によってそれぞれ音声認識された後、これら複数の音声認識結果の内容に基づいて前記複数の音声認識結果の中から１つの音声認識結果を選択して採用する音声認識制御手段（９）を備えたことを特徴とする車両用の音声認識システム。
車両に搭載され音声認識装置（６）を備えたディスプレイコントロールユニット（２）と、
車両に搭載され前記ディスプレイコントロールユニット（２）に接続され音声認識装置（７）を備えたナビゲーションユニット（３）と、
入力された音声が前記２つの音声認識装置（６、７）によってそれぞれ音声認識された後、これら２つの音声認識結果の内容に基づいて前記２つの音声認識結果のうちの１つの音声認識結果を選択して採用する音声認識制御手段（９）とを備えたことを特徴とする車両用の音声認識システム。
前記音声認識制御手段（９）は、前記ディスプレイコントロールユニット（２）の音声認識装置（６）によって音声認識された音声認識結果がコマンド単体である場合には、前記ディスプレイコントロールユニット（２）の音声認識装置（６）の音声認識結果を採用することを特徴とする請求項２記載の車両用の音声認識システム。
前記音声認識制御手段（９）は、前記ディスプレイコントロールユニット（２）の音声認識装置（６）の音声認識結果が前記ナビゲーションユニット（３）のコマンドである場合には、以降の音声認識を前記ナビゲーションユニット（３）の音声認識装置（７）で行うようにすることを特徴とする請求項３記載の車両用の音声認識システム。
前記音声認識制御手段（９）は、前記ディスプレイコントロールユニット（２）の音声認識装置（６）によって音声認識された音声認識結果がコマンドとデータ部分とであって、前記ディスプレイコントロールユニット（２）の音声認識装置（６）の音声認識結果と前記ナビゲーションユニット（３）の音声認識装置（７）の音声認識結果とが異なる場合には、前記ディスプレイコントロールユニット（２）の音声認識装置（６）の音声認識結果を採用し、それ以降の音声認識を前記ナビゲーションユニット（３）の音声認識装置（７）で行うようにすることを特徴とする請求項２記載の車両用の音声認識システム。
前記音声認識制御手段（９）は、前記ディスプレイコントロールユニット（２）の音声認識装置（６）によって音声認識された音声認識結果がコマンドとデータ部分とであって、前記ディスプレイコントロールユニット（２）の音声認識装置（６）の音声認識結果と前記ナビゲーションユニット（３）の音声認識装置（７）の音声認識結果とが一致する場合には、前記ナビゲーションユニット（２）の音声認識装置（６）の音声認識結果を採用し、更に、以降の音声認識を前記ナビゲーションユニット（３）の音声認識装置（７）で行うようにすることを特徴とする請求項２記載の車両用の音声認識システム。