JP5376072B1

JP5376072B1 - 車載情報システムおよび音声認識適応方法

Info

Publication number: JP5376072B1
Application number: JP2013001504A
Authority: JP
Inventors: 英司高田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-01-09
Filing date: 2013-01-09
Publication date: 2013-12-25
Anticipated expiration: 2033-01-09
Also published as: JP2014134604A; WO2014108981A1

Abstract

【課題】ユーザが利用する音声認識の認識性能を向上させることができる音声認識性能向上システムを提供する。
【解決手段】車載情報システム１は、音声認識エンジンをアクセス可能な携帯型情報端末３と通信可能な車載情報端末２を含み、車載情報端末２は、音声データを記憶する記憶部２１と、所定の時期に音声データを携帯型情報端末３に送信する車載通信部２２とを有し、携帯型情報端末３は、車載情報端末２から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部３１を有する。
【選択図】図１１

Description

本発明は、車載情報システムおよび音声認識適応方法に関する。

情報通信インフラストラクチャ（以下、インフラという。）の発展およびスマートフォンの普及により、スマートフォンへの入力データおよびスマートフォンからの出力データをサーバに送り、サーバがデータ処理を行いスマートフォンに処理結果を送るというクラウドサービスが普及している。そのようなクラウドサービスの一つである、音声認識によるＷｅｂ検索システムや会話型応答システムの利用者は増加している。

自動車内において目的地を発声すると、発声された目的地がカーナビゲーションシステムに設定される機能を有する音声認識システムを搭載した自動車は増加している。車載情報端末とスマートフォンとを連携したクラウドサービスについても普及することが見込まれており、音声認識によるクラウドサービスもその一つである。

音声認識は、人の話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理である。音声認識を利用する際、話者の声の特徴に適応する話者適応技術や自動車内における騒音等の環境に適応する環境適応技術を用いて、音声認識の認識性能を高めることができる。これらの適応技術を利用して、自動車内における音声認識の認識性能を高めるにはいくつかの課題がある。

発話に対応する正しい認識結果テキストが不明確である場合でも適応度を高める処理を行うことができる、教師無し話者適応と呼ばれる技術がある（非特許文献１参照）。

教師無し話者適応機能を有する音声認識エンジンを用いる場合、音声認識エンジンに対する適応度を高めるために、ユーザには音声認識エンジンに対し数多く発声することが求められる。この場合、ユーザが乗車してからすぐに認識性能を高めることは困難である。

これに対して、発声内容の正しい認識結果テキストが明確である場合に適応度を高める処理を行うことができる、教師有り話者適応と呼ばれる技術がある（非特許文献２参照）。

教師有り話者適応機能を有する音声認識エンジンを用いる場合、教師無し話者適応機能を有する音声認識エンジンを用いた場合と比べると、適応度を高めるために必要なユーザの発声回数は比較的少なくなる。

ただし、教師有り話者適応機能を有する音声認識エンジンを利用する場合、ユーザには指定されたテキストを参照して発声することが求められる。または、発声後に音声認識結果テキストを参照して正しいか否かを判定し、正しければ話者適応を実行させるという判定処理をすることが求められる。

ユーザが指定されたテキストを参照して発声する場合、事前に指定されたテキストを複数回発声することが求められるため、ユーザはすぐに音声認識機能を利用することができない。

発声後に音声認識結果テキストを参照して正しいか否か判定する場合、判定するためのユーザ操作が求められるため、ユーザが運転中に操作すると自動車運転の安全性が低下することがある。よって、ユーザが教師有り話者適応機能を有する音声認識エンジンを運転中に利用することは困難である。

他にも、運転者の交代等によって発声するユーザが変更された場合、音声認識エンジンへの適応度を高めるためには、変更後のユーザに複数回発声することが求められる。よって、音声認識エンジンを利用するまでに発声の時間を要する。

さらに、ユーザが携帯型情報端末から複数の音声認識エンジンを利用することがある。例えば、ユーザがＡ社の音声によるＷｅｂ検索サービスとＢ社の音声対話アプリケーションを利用することが可能である携帯型情報端末を使用する場合等である。この場合、ユーザは、Ｗｅｂ検索サービスを利用する時はＡ社の音声認識エンジンを利用し、Ｂ社の音声対話アプリケーションを利用する時はＢ社の音声認識エンジンを利用する。

他にも、複数の音声認識エンジンを同時に利用する場合の具体例として、ユーザが音声を複数の音声認識エンジンに入力して認識結果を複数取得し、正しい認識結果をユーザ操作により選択する、または正しい認識結果が自動的に選択されるという場合がある。

上記のように音声認識エンジンを複数利用する場合、それぞれの音声認識エンジンの適応度を高めることで認識性能が向上する。しかし、全ての音声認識エンジンの話者適応度を高めるためには、それぞれの音声認識エンジンを利用して複数回発声することが求められる。よって、全ての音声認識エンジンを利用するまでに多大な時間を要する。

このような状況において、音声認識エンジンを複数利用する場合に、利用できる全ての音声認識エンジンに対し事前に適応処理ができる音声認識システムが望まれる。

特許文献１には、車両に搭載される車載機と、車両の外部の遠隔地に設置されたセンターとを備えた音声認識システムが記載されている。

特開２０１２−０８８３７０号公報

鹿野清宏、中村哲、伊勢史郎著「音声・音情報のディジタル信号処理」、昭晃堂、１９９７年発行、ｐ．１３２中川聖一著「確率モデルによる音声認識」、電子情報通信学会、１９８８年発行、ｐ．１５０

しかし、特許文献１に記載された音声認識システムでは、ユーザが発話するごとに適応処理をしているため、利用するまで時間がかかる。また、事前に適応処理が行われないため、音声認識が失敗する可能性もある。

そこで、本発明は、ユーザが利用する音声認識の認識性能を向上させることができる車載情報システムおよび音声認識適応方法を提供することを目的とする。

本発明による車載情報システムは、話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムであって、車載情報端末は、音声データを記憶する記憶部と、所定の時期に音声データを携帯型情報端末に送信する車載通信部と、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択する選択部とを有し、携帯型情報端末は、車載情報端末から受信した音声データを話者適応のために、選択部によって選択された音声認識エンジンに送信する携帯端末通信部を有することを特徴とする。

本発明による音声認識適応方法は、話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムで実行される音声認識適応方法であって、車載情報端末が、音声データを記憶する記憶部に記憶されている音声データを所定の時期に携帯型情報端末に送信し、車載情報端末が、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択し、携帯型情報端末が、車載情報端末から受信した音声データを話者適応のために、車載情報端末によって選択された音声認識エンジンに送信することを特徴とする。

本発明によれば、ユーザが利用する音声認識の認識性能を向上させることができる。

本発明による車載情報システムの実施形態の構成例を示すシステム構成図である。車載情報端末２００の構成例を示すブロック図である。車載端末データ記憶部２０７に保存されている音声データの情報の一例を示す説明図である。車載端末データ記憶部２０７に保存されている音声認識エンジンの情報の一例を示す説明図である。車載端末データ記憶部２０７に保存されている音声認識エンジンの情報の一例を示す説明図である。車載端末データ記憶部２０７に保存されている音声認識エンジンの情報の一例を示す説明図である。車載端末データ記憶部２０７に保存されている音声認識エンジンの情報の一例を示す説明図である。携帯型情報端末３００の構成例を示すブロック図である。車載情報システム１００の音声データの保存処理の動作を示すフローチャートである。車載情報システム１００の音声認識エンジンへの適応処理の動作を示すフローチャートである。車載情報システムの概要を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。図１は、本発明による車載情報システムの実施形態の構成例を示すシステム構成図である。図１に示す車載情報システム１００には、車載情報端末２００と、携帯型情報端末３００とが含まれる。

図１には、車載情報端末２００が、携帯型情報端末３００に、通信路４００を介して接続されている例が示されている。また、図１には、車載情報システム１００が自動車１０００に搭載されている例が示されている。

なお、図１には１台の携帯型情報端末３００が示されているが、携帯型情報端末３００の台数は２台以上であってもよい。

車載情報端末２００は、ユーザからの音声入力機能、携帯型情報端末等の機器との通信機能、音声データを保存する機能等を有する。

携帯型情報端末３００は、音声認識を利用する機能、車載情報端末等の機器との通信機能等を有する。携帯型情報端末３００は、例えば、音声認識を利用するアプリケーションを１つ以上備えていてもよい。

通信路４００は、例えば、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）または有線ケーブルである。携帯型情報端末３００は、車載情報端末２００と通信可能な状態である。

次に、車載情報システム１００の詳細な構成を図２と図８を参照して説明する。図２は、車載情報端末２００の構成例を示すブロック図である。

図２に示す車載情報端末２００は、車載端末入力部２０１と、オーディオ入力部２０２と、オーディオ出力部２０３と、車載端末制御部２０４と、車載端末通信部２０５と、車載端末表示部２０６と、車載端末データ記憶部２０７とを含む。

車載端末入力部２０１は、ユーザからの指示を入力する機能を有する。本実施形態において、車載端末入力部２０１には、音声認識エンジンの認識結果の候補が複数ある場合に候補の中からユーザが選択した正しい認識結果等が入力される。車載端末入力部２０１は、例えば、タッチパネルである。

オーディオ入力部２０２は、車載端末データ記憶部２０７に事前に保存される音声データの基となる音声を入力する機能を有する。オーディオ入力部２０２は、例えば、マイクロフォン（以下、マイクという。）である。

オーディオ出力部２０３は、音声案内やラジオ、音楽等、一般的なカーナビゲーションシステムから出力される音声を出力する機能を有する。本実施形態において、オーディオ出力部２０３からは、ユーザに通知するために音声認識結果が音声合成により出力されてもよい。オーディオ出力部２０３は、例えば、スピーカである。

車載端末制御部２０４は、ユーザの音声データおよび音声認識エンジンの認識結果を入力または出力する機能を有する。

また、車載端末制御部２０４は、音声認識エンジンから取得した認識結果が正しいか否か判定する機能を有する。認識結果が正しいか否か判定する方法は、例えば、音声認識エンジンから認識スコアと呼ばれる認識結果に対する正確さを示すパラメータを認識結果とともに取得できる場合には、認識スコアがあらかじめ定められている閾値以上であれば正しいとみなす方法である。

他にも、認識結果を車載情報端末２００の車載端末表示部２０６から参照したユーザがその後の操作で認識結果を利用したことが確認されたら正しい認識結果であったとみなし、すぐに音声入力をやり直す等、ユーザが認識結果を利用したことが確認されない場合には正しくないとみなす方法でもよい。

また、一つまたは複数の音声認識エンジンを利用し認識結果の候補が複数ある場合、候補の中からユーザが選択した認識結果を正しいとみなす方法でもよい。

また、音声認識エンジンを複数利用する場合、適応度が高い音声認識エンジン、または正しく認識した回数が多い音声認識エンジンの優先度を高くし、優先度が高い音声認識エンジンの認識結果をより正しいとみなす方法でもよい。

また、車載端末制御部２０４は、オーディオ入力部２０２より入力された音声の音声データを加工する機能を有する。車載端末制御部２０４による音声データの加工処理には、例えば、雑音除去処理、データ圧縮処理がある。

車載端末通信部２０５は、通信路４００を介して、携帯型情報端末３００等の機器と通信する機能を有する。車載端末通信部２０５は、有線または無線により通信する。

車載端末表示部２０６は、音声認識の認識結果等を表示する機能を有する。車載端末表示部２０６は、例えば、ディスプレイである。

車載端末データ記憶部２０７は、音声データを保存する機能を有する。保存される音声データは、オーディオ入力部２０２より入力された音声の音声データでもよい。

また、オーディオ入力部２０２より入力された音声の音声データを車載端末制御部２０４が加工し、加工された音声データが携帯型情報端末３００に送信される場合、保存される音声データは、加工された後の音声データでもよい。

また、保存される音声データのチャネル数は限定されない。例えば、自動車１０００内にマイクが複数存在する場合には、その全てのチャネルの音声データが保存されてもよい。

複数チャネルの音声データを保存した場合、携帯型情報端末３００に音声データを送信する時には、保存されている音声データの中から必要なチャネルの音声データを一つまたは複数個選別して送信してもよい。

また、保存されている複数チャネルの音声データを用いて、例えば、雑音除去等の加工処理を車載端末制御部２０４で行い、加工された後の音声データを携帯型情報端末３００に送信してもよい。

車載端末データ記憶部２０７に保存されている音声データの情報の一例を図３に示す。図３は、車載端末データ記憶部２０７に保存されている音声データの情報の一例を示す説明図である。車載端末データ記憶部２０７に保存されている音声データの情報は、ユーザ識別情報２１０と、保存音声データ２１１と、発話内容テキスト２１２と、保存日時２１３から構成される。

ユーザ識別情報２１０は、話者を識別する情報である。ユーザ識別情報２１０は、ユーザが車載情報端末２００を操作すると登録されるユーザＩＤやユーザアカウント等の所有者固有の情報である。

また、ユーザ識別情報２１０は、接続した携帯情報端末のＳＩＭ（ＳｕｂｓｃｒｉｂｅｒＩｄｅｎｔｉｔｙＭｏｄｕｌｅ）カードの情報、または自動車の鍵の情報と、ユーザＩＤやユーザアカウント等の所有者固有の情報が組み合わされた情報でもよい。

また、自動車１０００が生体認証機能等を有していて登録した人しかドアを開けることができない場合、ユーザ識別情報２１０は、機能を使用するためにあらかじめ登録されたユーザ情報でもよい。

他にも、車載情報端末２００の車載端末入力部２０１を介してユーザが入力した内容をユーザ識別情報２１０としてもよい。具体的には、例えば、事前に登録されたユーザ情報や利用履歴等を選択できる画面を車載端末入力部２０１に表示し、ユーザがタッチパネルにより入力した情報をユーザ識別情報２１０としてもよい。

ユーザ識別情報２１０は、上記の情報に限らず、発声するユーザごとに異なる情報であればどのような情報でもよい。

保存音声データ２１１は、例えば、オーディオ入力部２０２より入力された音声の音声データである。保存音声データ２１１には、保存された音声データのファイル名等が表示される。

発話内容テキスト２１２は、音声データに含まれる発話内容のテキストデータである。発話内容テキスト２１２は、音声認識エンジンによる認識結果から得られるデータである。

保存日時２１３は、音声データが保存された日時を示す情報である。

また、車載端末データ記憶部２０７は、音声認識エンジンの情報を保存する機能を有する。音声認識エンジンの情報は、車載情報端末２００と携帯型情報端末３００とが通信可能な状態となった際に、携帯型情報端末３００から車載情報端末２００へ送信され、車載情報端末２００の車載端末データ記憶部２０７に登録される。

図４は、車載端末データ記憶部２０７に保存されている音声認識エンジンの情報の一例を示す説明図である。車載端末データ記憶部２０７に保存されている音声認識エンジンの情報は、音声認識エンジン識別情報２２０と、話者適応機能情報２２１と、適応状態２２２と、利用可否（利用可否状態を示すデータ）２２３から構成される。

なお、図５、図６および図７は、車載端末データ記憶部２０７に保存されている音声認識エンジンの情報の他の一例を示す説明図である。

音声認識エンジン識別情報２２０は、音声認識エンジンを識別する情報である。

話者適応機能情報２２１は、音声認識エンジンが有する話者適応機能の情報である。話者適応機能情報２２１には、例えば、教師有り話者適応機能、教師無し話者適応機能等がある。

話者適応機能情報２２１には、例えば、車載情報端末２００と携帯型情報端末３００とが通信可能に接続された際に、携帯型情報端末３００から利用できる音声認識エンジンの有する話者適応機能の情報が、携帯型情報端末３００から送信されることによって登録されてもよい。

また、話者適応機能情報２２１には、携帯型情報端末３００から利用できる音声認識エンジンにおいて、一般的に広く利用されている機能が事前にユーザによって登録されてもよい。他にも、話者適応機能情報２２１には、車載情報端末２００をユーザが操作する場合に、話者適応機能の有無について選択された結果が登録されてもよい。

適応状態２２２は、これから利用する音声認識エンジンにユーザの音声データが適応されているか否かを示す情報である。音声認識エンジンに既にユーザの音声データが適応されている場合、適応状態２２２は「適応済」となる。音声認識エンジンに未だユーザの音声データが適応されていない場合、適応状態２２２は「未適応」となる。

音声認識エンジンにユーザの音声データが適応されているか否かの具体的な判定方法は、例えば、同じユーザの音声データの入力回数と適応度が比例するとして、音声データが所定回数入力されると適応が完了すると判断する方法でもよい。また、過去数回の入力に対する認識結果の正解率があらかじめ定められている率よりも高い音声認識エンジンを適応が完了していると判断する方法でもよい。

利用可否２２３は、音声認識エンジンが現在利用可能な状態にあるか否かを示す情報である。音声認識エンジンが通常通り利用できる場合、利用可否２２３は「利用可」となる。

また、例えば、周囲の電波状況によっては携帯型情報端末３００がサーバと接続できないことがあり、サーバの音声認識エンジンにアクセスできなくなることがある。他にも、音声認識エンジンの故障やサーバのメンテナンス等により音声認識エンジンが利用できない場合がある。このように何らかの事由により音声認識エンジンが現在利用できない場合、利用可否２２３は「利用不可」となる。

車載端末データ記憶部２０７の記憶容量は有限であるため、新たに発生する情報を保存するために、図３に示す音声データの情報や図４に示す音声認識エンジンの情報は逐次削除される。

車載端末データ記憶部２０７に保存されている情報を削除する方法は、例えば、音声の録音日時を参照して所定時間経過している情報を削除する方法でもよい。また、保存日時が古い情報を優先的に削除する方法でもよい。

本実施形態において、データの削除方法は上記の方法に限らず、不要なデータや録音日時の古いデータがユーザ操作により削除される方法や、条件に合致すると自動的に削除される方法であればよい。

なお、本実施形態において、車載端末制御部２０４は、例えば、プログラムに従って動作するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によって実現される。

また、車載端末通信部２０５は、プログラムに従って動作するＣＰＵと、ネットワークカード等の通信制御装置とによって実現される。

また、車載端末データ記憶部２０７は、例えば、データベースシステムといった記憶装置とその記憶装置に対してアクセス制御する制御部とによって実現される。

図８は、携帯型情報端末３００の構成例を示すブロック図である。図８に示す携帯型情報端末３００は、携帯型端末通信部３０１と、携帯型端末入力部３０２と、情報端末通信部３０３と、携帯型端末制御部３０４と、携帯型端末表示部３０５と、携帯型端末データ記憶部３０６とを含む。

携帯型端末通信部３０１は、音声認識エンジンを備えたサーバ等と無線通信する機能を有してもよい。使用される通信方式として、例えば、Ｗ−ＣＤＭＡ（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）等がある。

また、携帯型端末通信部３０１は、音声認識エンジンを搭載したサーバに音声データを送信し、サーバから認識結果を受信してもよい。

携帯型端末入力部３０２は、ユーザからの指示を入力する機能を有する。携帯型端末入力部３０２は、例えば、ボタンやタッチパネルである。

情報端末通信部３０３は、通信路４００を介して、車載情報端末２００等の機器と通信する機能を有する。

携帯型端末制御部３０４は、入力した音声データを音声認識エンジンに出力する機能と、音声認識エンジンから認識結果を入力する機能を有する。携帯型端末制御部３０４は、音声認識エンジンを搭載してもよい。

携帯型端末表示部３０５は、ユーザに指示を促す画面等を表示する機能を有する。携帯型端末表示部３０５は、例えば、ディスプレイである。

携帯型端末データ記憶部３０６は、例えば、携帯型情報端末３００から利用できる音声認識エンジンの情報等を記憶する機能を有してもよい。

本実施形態では、携帯型情報端末３００から利用できる音声認識エンジンが搭載される場所は限定されない。また、携帯型情報端末３００は、音声認識エンジンを複数利用してもよい。

なお、本実施形態において、携帯型端末制御部３０４は、例えば、プログラムに従って動作するＣＰＵによって実現される。

また、携帯型端末通信部３０１および情報端末通信部３０３は、プログラムに従って動作するＣＰＵと、無線インタフェースによって実現される。

また、携帯型端末データ記憶部３０６は、フラッシュメモリ等の記憶媒体とその記憶媒体に対してアクセス制御する制御部とによって実現される。

以下、本発明による保存処理の動作を、図９を参照して説明する。図９は、車載情報システム１００の音声データの保存処理の動作を示すフローチャートである。

本実施形態では、ユーザは、音声データを事前に保存することが求められる。ユーザは、例えばあらかじめ車載情報端末２００の録音機能を利用して保存する。

ここでは、ユーザが音声認識を利用する際に、車載情報端末２００の車載端末制御部２０４が音声データを保存する方法を例にして、図９のフローチャートを参照して説明する。

音声認識を利用する際、ユーザは、車載情報端末２００のオーディオ入力部２０２に音声を入力する（ステップＳ５０１）。なお、音声を入力する際、ユーザが車載情報端末２００を操作した時に登録されるユーザＩＤやユーザアカウントをユーザ識別情報２１０とする。

入力された音声の音声データは、車載端末制御部２０４を介して、車載端末通信部２０５へ出力される。車載端末通信部２０５は、入力された音声データを携帯型情報端末３００に送信する（ステップＳ５０２）。

情報端末通信部３０３は、車載情報端末２００から音声データを受信する。携帯型端末制御部３０４は、情報端末通信部３０３から音声データを入力し、入力した音声データを音声認識エンジンに出力する（ステップＳ５０３）。

音声認識エンジンは、入力した音声データの認識結果を出力する。携帯型端末制御部３０４は、音声認識エンジンの認識結果を取得し（ステップＳ５０４）、情報端末通信部３０３に出力する。

情報端末通信部３０３は、入力した認識結果を車載情報端末２００に送信する（ステップＳ５０５）。車載情報端末２００の車載端末通信部２０５は、認識結果を受信する（ステップＳ５０６）。その後、車載端末制御部２０４は、受信した認識結果が正しいか否か判定する（ステップＳ５０７）。

受信した認識結果が正しくない場合（ステップＳ５０７のＮｏ）、車載端末制御部２０４は、保存処理を終了する。

受信した認識結果が正しい場合（ステップＳ５０７のＹｅｓ）、車載端末制御部２０４は、その認識結果を発話内容テキスト２１２として、ユーザ識別情報２１０と音声データと共に車載端末データ記憶部２０７に保存する（ステップＳ５０８）。保存した後、車載端末制御部２０４は、保存処理を終了する。

なお、認識結果が所定の基準を満たす場合に認識結果が正しいと判定されるが、判断基準は例えば上述した認識スコアである。ただし、車載端末制御部２０４は、他の判断基準を用いてもよい。

次に、本発明による適応処理の動作を、図１０を参照して説明する。図１０は、車載情報システム１００の音声認識エンジンへの適応処理の動作を示すフローチャートである。

具体例として、図４に示す音声認識エンジンに関する情報が車載端末データ記憶部２０７に登録される時の車載情報システム１００の適応処理の動作を説明する。

ユーザは乗車後に、車載情報端末２００と携帯型情報端末３００を有線または無線により通信可能に接続する。車載情報端末２００と携帯型情報端末３００が通信可能な状態になると、車載情報端末２００の車載端末制御部２０４は、自動的に、またはボタン等による車載端末入力部２０１を介したユーザ操作により、図１０のフローチャートに示す適応処理をする。

図１０のフローチャートに示す適応処理は、車載情報端末２００と携帯型情報端末３００が通信可能な状態になると、自動的に実行されてもよい。また、適応処理は、通信可能な状態な時にユーザ操作により全て実行されてもよい。また、適応処理は、通信可能な状態になると途中まで自動的に実行され、ユーザ操作により後続の処理が実行されてもよい。

適応処理が開始されると、携帯型情報端末３００の情報端末通信部３０３が、携帯型情報端末３００から利用できる音声認識エンジンについての情報を車載情報端末２００に送信する（ステップＳ６０１）。

車載情報端末２００の車載端末通信部２０５は、利用できる音声認識エンジンについての情報を受信する。車載端末制御部２０４は、受信した情報を車載端末データ記憶部２０７に登録する。音声認識エンジンの情報が登録されると、車載端末制御部２０４は、ユーザが車載情報端末２００を操作したときに登録されたユーザＩＤ等に基づき、ユーザを識別する（ステップＳ６０２）。

車載端末制御部２０４は、識別したユーザの音声データが車載情報端末２００の車載端末データ記憶部２０７に保存されているか否か判定する（ステップＳ６０３）。保存されていない場合（ステップＳ６０３のＮｏ）、車載端末制御部２０４は、適応処理を終了する。

保存されている場合（ステップＳ６０３のＹｅｓ）、車載端末制御部２０４は、携帯型情報端末３００で利用できる音声認識エンジンが存在するか否か判定する（ステップＳ６０４）。

利用できる音声認識エンジンが存在しない場合（ステップＳ６０４のＮｏ）、車載端末制御部２０４は、適応処理を終了する。利用できる音声認識エンジンが存在する場合（ステップＳ６０４のＹｅｓ）、車載端末制御部２０４は、適応が完了していなく、かつ利用できる音声認識エンジンを１つ選択する（ステップＳ６０５）。

なお、適応が完了していないということは、具体的には、適応度が所定レベルよりも低いことを意味する。「適応度が所定レベルよりも低い音声認識エンジン」は、一例として、過去数回の入力に対する認識結果の正解率があらかじめ定められている所定値以下の音声認識エンジンである。

図４に示す利用可否２２３を参照すると、５つの音声認識エンジンのうち、音声認識エンジンＡ、音声認識エンジンＢ、音声認識エンジンＣ、および音声認識エンジンＥは「利用可」であるため（ステップＳ６０４のＹｅｓ）、車載端末制御部２０４は、ステップＳ６０５へ処理を進める。

ステップＳ６０５において、車載端末制御部２０４は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンＡを選択する（ステップＳ６０５）。

車載端末制御部２０４は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する（ステップＳ６０６）。車載端末制御部２０４は、車載端末データ記憶部２０７に登録されている情報を基に、教師有り話者適応機能の有無を判定する。

話者適応機能の有無が不明確である場合、車載端末制御部２０４は、音声認識エンジンに話者適応機能が有る、または話者適応機能が無いとみなして後続の処理を行ってもよい。また、車載端末制御部２０４が音声認識エンジンに話者適応機能が有るか無いかのどちらとみなすかを、ユーザが任意に設定してもよい。

選択した音声認識エンジンに教師有り話者適応機能がある場合（ステップＳ６０６のＹｅｓ）、車載端末制御部２０４は、話者適応のために、車載端末データ記憶部２０７に保存されている音声データと発話内容テキストを、所定の回数だけ携帯型情報端末３００に送信する（ステップＳ６０７）。選択した音声認識エンジンに教師有り話者適応機能がない場合（ステップＳ６０６のＮｏ）、車載端末制御部２０４は、ステップＳ６１０へ処理を進める。

音声認識エンジンＡは教師有り話者適応機能を有するため（ステップＳ６０６のＹｅｓ）、車載端末制御部２０４は、音声データと発話内容テキストを、所定の回数だけ携帯型情報端末３００に送信する（ステップＳ６０７）。

送信回数が決められている理由は、携帯型情報端末３００に送信する音声データが多いと、話者適応処理に時間がかかることがあるためである。

携帯型情報端末３００の情報端末通信部３０３は、音声データと発話内容テキストを受信する。情報端末通信部３０３は、受信した音声データと発話内容テキストを携帯型端末制御部３０４へ出力する。携帯型端末制御部３０４は、入力した音声データと発話内容テキストを音声認識エンジンに出力する（ステップＳ６０８）。

本実施形態では、音声認識エンジンに所定の回数分の音声データ等が入力されると、その音声認識エンジンの適応は完了したとする。音声認識エンジンに所定の回数分の音声データと発話内容テキストが入力されると、車載端末制御部２０４は、音声認識エンジンの適応状態２２２を「適応済」に変更する（ステップＳ６０９）。

所定の回数分の音声データと発話内容テキストが入力された後、音声認識エンジンＡの適応状態２２２は、図５に示すように「適応済」となる。

その後、車載端末制御部２０４は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する（ステップＳ６１５）。利用できる全ての音声認識エンジンについて適応が完了している場合（ステップＳ６１５のＹｅｓ）、車載端末制御部２０４は、適応処理を終了する。利用できる全ての音声認識エンジンについて適応が完了していない場合（ステップＳ６１５のＮｏ）、車載端末制御部２０４は、ステップＳ６０５へ処理を進める。

図５に示す適応状態２２２を参照すると、利用できる音声認識エンジンのうち、音声認識エンジンＢおよび音声認識エンジンＥは「未適応」であるため（ステップＳ６１５のＮｏ）、車載端末制御部２０４は、ステップＳ６０５へ処理を進める。

ステップＳ６０５において、車載端末制御部２０４は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンＢを選択する。

音声認識エンジンＢは教師有り話者適応機能を有していないため（ステップＳ６０６のＮｏ）、車載端末制御部２０４は、ステップＳ６１０へ処理を進める。

車載端末制御部２０４は、選択した音声認識エンジンに教師無し話者適応機能があるか否か判定する（ステップＳ６１０）。車載端末制御部２０４は、車載端末データ記憶部２０７に登録されている情報を基に、教師無し話者適応機能の有無を判定する。

選択した音声認識エンジンに教師無し話者適応機能がある場合（ステップＳ６１０のＹｅｓ）、車載端末制御部２０４は、話者適応のために、車載端末データ記憶部２０７に保存されている音声データを、所定の回数だけ携帯型情報端末３００に送信する（ステップＳ６１１）。選択した音声認識エンジンに教師無し話者適応機能がない場合（ステップＳ６１０のＮｏ）、車載端末制御部２０４は、ステップＳ６１４へ処理を進める。

音声認識エンジンＢは教師無し話者適応機能を有するため（ステップＳ６１０のＹｅｓ）、車載端末制御部２０４は、音声データを所定の回数だけ携帯型情報端末３００に送信する（ステップＳ６１１）。

携帯型情報端末３００の情報端末通信部３０３は、音声データを受信する。情報端末通信部３０３は、受信した音声データを携帯型端末制御部３０４へ出力する。携帯型端末制御部３０４は、入力した音声データを音声認識エンジンに出力する（ステップＳ６１２）。

音声認識エンジンに所定の回数分の音声データが入力されたら、車載端末制御部２０４は、音声認識エンジンの適応状態２２２を「適応済」に変更する（ステップＳ６１３）。所定の回数分の音声データが入力された後、音声認識エンジンＢの適応状態２２２は、図６に示すように「適応済」となる。

その後、車載端末制御部２０４は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する（ステップＳ６１５）。図６に示す適応状態２２２を参照すると、利用できる音声認識エンジンのうち、音声認識エンジンＥは「未適応」であるため（ステップＳ６１５のＮｏ）、車載端末制御部２０４は、ステップＳ６０５へ処理を進める。

ステップＳ６０５において、車載端末制御部２０４は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンＥを選択する。

音声認識エンジンＥは教師有り話者適応機能を有していないため（ステップＳ６０６のＮｏ）、車載端末制御部２０４は、ステップＳ６１０へ処理を進め、選択した音声認識エンジンに教師無し話者適応機能があるか否か判定する（ステップＳ６１０）。車載端末制御部２０４は、車載端末データ記憶部２０７に登録されている情報を基に、教師無し話者適応機能の有無を判定する。

音声認識エンジンＥは教師無し話者適応機能を有していないため（ステップＳ６１０のＮｏ）、車載端末制御部２０４は、ステップＳ６１４へ処理を進める。

車載端末制御部２０４は、音声認識エンジンＥの利用可否２２３を「利用不可」に変更する（ステップＳ６１４）。音声認識エンジンＥの利用可否２２３は、図７に示すように「利用不可」となる。

その後、車載端末制御部２０４は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する（ステップＳ６１５）。図７に示す適応状態２２２を参照すると、利用できる音声認識エンジンは全て「適応済」であるため（ステップＳ６１５のＹｅｓ）、車載端末制御部２０４は、適応処理を終了する。

以上のように、音声認識エンジンを利用する機能を有する携帯型情報端末と、携帯型情報端末との通信機能を有しユーザが自動車内で発声した音声データを保存する車載情報端末とを使用し、保存した音声データおよびその発話内容テキストを用いることで、複数の音声認識エンジンに対してユーザが新たに発声することなく話者適応度および環境適応度を高めることができる。

本実施形態の車載情報システムを使用する場合、自動車内で利用する音声認識エンジンの話者適応度を高めるために必要なユーザの手間を削減することができる。その理由は、車載情報端末に保存されたユーザの音声データを携帯型情報端末に送信して、携帯型情報端末より音声認識エンジンに音声データを入力する場合、ユーザが新たに発声することなく話者適応度を高めることができるからである。また、音声認識を利用する時に音声データが保存されるため、ユーザは、話者適応だけのために発声する必要がない。

本実施形態の車載情報システムを使用する場合、自動車内で利用する音声認識エンジンの環境適応度が高まり、適応環境と同じ環境で使用するときの性能を向上させることができる。その理由は、自動車内で音声認識を利用する場合の音声データが保存されるため、音声データが自動車内の騒音等の環境も含んでおり環境適応度が向上するためである。この結果、自動車内で使用する時の音声認識の性能が向上する。

次に、本発明の概要を説明する。図１１は、本発明による車載情報システムの概要を示すブロック図である。本発明による車載情報システム１において、車載情報端末２は、音声データを記憶する記憶部２１と、所定の時期に音声データを携帯型情報端末３に送信する車載通信部２２とを有し、携帯型情報端末３は、車載情報端末２から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部３１を有する。

携帯型情報端末３は、複数の教師無し話者適応機能を有する音声認識エンジンをアクセス可能であり、車載情報端末２は、適応度が所定レベルよりも低い教師無し話者適応機能を有する音声認識エンジンを選択する選択部（例えば、車載端末制御部２０４で実現される。）を有し、携帯端末通信部３１は、選択部によって選択された音声認識エンジンに音声データを送信するように構成されていてもよい。

そのように構成されている場合には、車載情報端末２は、教師無し話者適応機能を有する音声認識エンジンを事前に（ユーザが実際に音声認識エンジンを活用する前に）ユーザ（話者）に適応させることができる。

携帯型情報端末３は、複数の教師有り話者適応機能を有する音声認識エンジンをアクセス可能であり、車載情報端末２は、適応度が所定レベルよりも低い教師有り話者適応機能を有する音声認識エンジンを選択する選択部（例えば、車載端末制御部２０４で実現される。）を有し、携帯端末通信部３１は、選択部によって選択された音声認識エンジンに音声データおよび発話内容テキストを送信するように構成されていてもよい。

そのように構成されている場合には、車載情報端末２は、教師有り話者適応機能を有する音声認識エンジンを事前に話者に適応させることができる。

記憶部２１は、複数の話者の各々の音声データを記憶し、車載通信部２２は、各々の話者の音声データを携帯型情報端末３に送信するように構成されていてもよい。

そのように構成されている場合には、複数のユーザの各々について、音声認識エンジンを事前に適応させることができる。

携帯端末通信部３１は、音声認識エンジンの認識結果を車載情報端末２に送信し、車載情報端末２は、認識結果が所定の基準を満たす場合に認識結果を正しいとして、その認識結果を発話内容テキストとして記憶部２１に保存する記憶制御部（例えば、車載端末制御部２０４で実現される。）を有していてもよい。

そのように構成されている場合には、事前に、教師有り話者適応機能を有する音声認識エンジンを適応させるための用意を行うことができる。

１、１００車載情報システム
２車載情報端末
３携帯型情報端末
２１記憶部
２２車載通信部
３１携帯端末通信部
２００車載情報端末
２０１車載端末入力部
２０２オーディオ入力部
２０３オーディオ出力部
２０４車載端末制御部
２０５車載端末通信部
２０６車載端末表示部
２０７車載端末データ記憶部
２１０ユーザ識別情報
２１１保存音声データ
２１２発話内容テキスト
２１３保存日時
２２０音声認識エンジン識別情報
２２１話者適応機能情報
２２２適応状態
２２３利用可否
３００携帯型情報端末
３０１携帯型端末通信部
３０２携帯型端末入力部
３０３情報端末通信部
３０４携帯型端末制御部
３０５携帯型端末表示部
３０６携帯型端末データ記憶部
４００通信路

Claims

話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムであって、
前記車載情報端末は、
音声データを記憶する記憶部と、
所定の時期に前記音声データを前記携帯型情報端末に送信する車載通信部と、
適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択する選択部とを有し、
前記携帯型情報端末は、
前記車載情報端末から受信した音声データを話者適応のために、前記選択部によって選択された音声認識エンジンに送信する携帯端末通信部を有する
ことを特徴とする車載情報システム。
車載通信部は、携帯型情報端末と車載情報端末とが通信可能になったときに、音声データを前記携帯型情報端末に送信する
請求項１記載の車載情報システム。
携帯端末通信部は、話者適応機能として教師無し話者適応機能を有する複数の音声認識エンジンに音声データを送信する
請求項１または請求項２記載の車載情報システム。
記憶部は、音声データに対応する発話内容テキストを記憶し、
車載通信部は、音声データとともにそれに対応する発話内容テキストを送信し、
携帯端末通信部は、話者適応機能として教師有り話者適応機能を有する複数の音声認識エンジンに音声データおよび発話内容テキストを送信する
請求項１または請求項２記載の車載情報システム。
記憶部は、複数の話者の各々の音声データを記憶し、
車載通信部は、各々の話者の音声データを前記携帯型情報端末に送信する
請求項１から請求項４のうちのいずれか１項に記載の車載情報システム。
携帯端末通信部は、音声認識エンジンの認識結果を車載情報端末に送信し、
前記車載情報端末は、前記認識結果が所定の基準を満たす場合に前記認識結果を正しいとして、その認識結果を発話内容テキストとして記憶部に保存する記憶制御部を有する
請求項１から請求項５のうちのいずれか１項に記載の車載情報システム。
話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムで実行される音声認識適応方法であって、
前記車載情報端末が、音声データを記憶する記憶部に記憶されている音声データを所定の時期に前記携帯型情報端末に送信し、
前記車載情報端末が、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択し、
前記携帯型情報端末が、前記車載情報端末から受信した音声データを話者適応のために、前記車載情報端末によって選択された音声認識エンジンに送信する
ことを特徴とする音声認識適応方法。
車載情報端末が、携帯型情報端末と車載情報端末とが通信可能になったときに、音声データを前記携帯型情報端末に送信する
請求項７記載の音声認識適応方法。