JP2010060720A

JP2010060720A - 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム

Info

Publication number: JP2010060720A
Application number: JP2008224974A
Authority: JP
Inventors: Kazuhisa Suzuki; 一久鈴木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2008-09-02
Filing date: 2008-09-02
Publication date: 2010-03-18
Anticipated expiration: 2028-09-02
Also published as: JP5120158B2

Abstract

【課題】端末機器と音声認識装置とがデータ通信可能な状態になった後、短時間で端末機器を音声認識により操作可能な状態とする。
【解決手段】Ｓ１００で、外部オーディオ機器２に音声認識辞書が記憶されていれば（Ｓ１００：ＹＥＳ）、Ｓ１１０に進み、Ｓ１１０でナビゲーション装置１が有する音声認識エンジン情報と外部オーディオ機器２に記憶されている音声認識エンジン情報とが同一であれば（Ｓ１１０：ＹＥＳ）、Ｓ１２０に進む。Ｓ１２０で、外部オーディオ機器２に記憶されている楽曲などに対応して、全ての音声認識辞書が記憶されている場合（Ｓ１２０：全て有り）、Ｓ１３０に進み、外部オーディオ機器２に記憶されている全ての音声認識辞書を受信し、ナビゲーション装置１のメモリ１７に記憶して、処理を終了する。
【選択図】図５

Description

本発明は、データ通信が可能な状態の端末機器をユーザの発話音声により操作可能とする音声認識装置に関する。

従来、音声認識により操作可能なオーディオ機器として例えば、特許文献１記載のカーオーディオシステムがある。このカーオーディオシステムでは、ユーザの発話音声を入力し、使用可能なコマンド毎にあらかじめ与えられている認識用のデータ（音声認識辞書）を参照することにより、入力した発話音声の音声認識を行なう。
特開平１１−３１７０６３号公報

しかしながら、従来の音声認識装置では、当該音声認識装置とデータ通信可能な状態（例えば通信ケーブルを介して接続された状態）にある端末機器をユーザの発話音声により操作しようとする場合、あらかじめ定められているコマンド（再生、停止、早送り等）のみによる操作であればすぐに可能となるが、その端末機器に記憶されているコンテンツデータを特定する操作を可能とする場合には、操作可能な状態となるまでに長い時間がかかってしまうという問題があった。

すなわち、音声認識装置は、音声認識エンジンを内部に備えており、音声認識を実行するためには、その音声認識エンジンに対応した音声認識辞書を予め準備しておかなければならない。そして、端末機器に楽曲や動画などのコンテンツデータが記憶されている場合、そのコンテンツデータを特定できる音声認識辞書が音声認識装置に予め記憶されていなければ、その端末機器に記憶されたコンテンツデータをユーザの発話音声により特定することができないことになる。

端末機器に記憶されたコンテンツデータに関する情報は、端末機器と音声認識装置とが通信可能な状態にならなければ、音声認識装置側で認識できないため、端末機器と音声認識装置とがデータ通信可能な状態になってから音声認識装置の内部でコンテンツデータを特定するための音声認識辞書を作成することになる。

そのため、端末機器と音声認識装置とがデータ通信可能な状態になった後、長時間が経過しないと、端末機器が音声認識により操作することができる状態にならない。
本発明は、かかる問題を解決するためになされたものであり、端末機器と音声認識装置とがデータ通信可能な状態になった後、短時間で端末機器を音声認識により操作可能な状態とすることを目的とする。

上記目的を達成するためになされた請求項１記載の発明は、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置であり、辞書取得手段を備える。そしてその辞書取得手段は、コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する。

かかる請求項１記載の発明によれば、音声認識辞書を音声認識装置内部で作成するのではなく端末機器から取得するので、端末機器が発話音声により操作可能となるまでの時間を短縮することができる。

請求項２記載の発明は、請求項１記載の音声認識装置において、特定情報送信手段を備える。特定情報送信手段は当該音声認識装置が有する音声認識エンジンを特定可能な特定情報を端末機器に送信する。

かかる請求項２記載の発明によれば、例えば端末機器は、音声認識装置が有する音声認識エンジンに適合した音声認識辞書を作成することができるので、不要な音声認識辞書を作成することなく、効率のよい準備が可能となる。

請求項３記載の発明は、請求項１又は２記載の音声認識装置において、辞書取得手段が、楽曲及び動画の少なくとも一方を内容とするコンテンツデータを発話音声で特定可能とする音声認識辞書を取得する。

かかる請求項３記載の音声認識装置によれば、一般に多数のデータとなる楽曲又は動画を内容とするコンテンツデータを特定可能な音声認識辞書を端末装置から取得するので、音声認識辞書を作成する時間を削減できることになる。

請求項４記載の発明は、内部の記憶装置にコンテンツデータが記憶された端末機器であり、辞書送信手段を備える。そしてその辞書送信手段は、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する。

かかる請求項４記載の端末装置によれば、請求項１記載の発明と同様、端末機器が発話音声により操作可能となるまでの時間を短縮することができる。
請求項５記載の発明は、請求項４記載の端末装置において、特定情報取得手段を更に備える。特定情報取得手段は、音声認識装置が有する音声認識エンジンの種類を特定可能な特定情報を音声認識装置から取得する。そして、辞書送信手段は、特定情報取得手段により取得された特定情報に基づいて内部又は外部で作成された音声認識辞書を音声認識装置に送信する。

かかる請求項５記載の端末装置によれば、請求項２記載の発明と同様の効果を得ることができる。
請求項６記載の発明は、請求項５記載の端末機器において、ツール取得手段と辞書作成手段とを備える。ツール取得手段は、特定情報取得手段により取得された特定情報をもとに音声認識辞書を作成するためのツールを外部から取得し、辞書作成手段は、ツール取得手段により取得されたツールを用いて内部に記憶されたコンテンツデータを特定可能な音声認識辞書を作成する。

かかる請求項６記載の端末装置によれば、音声認識エンジンに適合したツールを用いて音声認識辞書を作成するため、音声認識辞書を作成する過程の効率化を図ることができる。

請求項７記載の発明は、請求項４乃至６のいずれか記載の端末機器において、その内部に楽曲及び動画の少なくとも一方をコンテンツデータとして記憶している。
かかる請求項７記載の端末装置によれば、請求項３記載の発明と同様の効果を得ることができる。

請求項８記載の発明は、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置としてコンピュータを機能させる音声認識装置用プログラムであり、コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する辞書取得手段としてコンピュータを機能させる。

かかる請求項８記載の音声認識装置用プログラムによれば、請求項１記載の発明と同様の効果を得ることができる。
請求項９記載の発明は、内部の記憶装置にコンテンツデータが記憶された端末機器としてコンピュータを機能させる端末機器用プログラムであり、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する辞書送信手段としてコンピュータを機能させる。

かかる請求項９記載の端末機器用プログラムによれば、請求項４記載の発明と同様の効果を得ることができる。

以下、本発明が適用された実施形態について、図面を用いて説明する。
［１構成］
図１は、本発明の実施形態としての音声認識システムの全体構成を示すブロック図である。図示するように、この音声認識システムは、車両に搭載されるナビゲーション装置１、ユーザが携帯可能な外部オーディオ機器２、ユーザが外部オーディオ機器２にデータをダウンロードするために用いるパーソナルコンピュータ（以下「ＰＣ」という。）３、楽曲やツールなど各種データが記憶されているサーバ４を備える。

ナビゲーション装置１は、車両に搭載され、運転者に画像や音声により道路のナビゲーションなどをする電子機器であり、ユーザの発話音声による操作が可能となっている。
外部オーディオ機器２は、予め記憶された楽曲や動画などのコンテンツデータをタイトル、アーティスト、アルバム、ジャンルといった項目からユーザの操作により選択して特定し、再生することが可能となっている。

ＰＣ３は、外部オーディオ機器２に記憶されるコンテンツデータを管理するなど各種処理を実行する汎用のパーソナルコンピュータである。
サーバ４は、ＰＣ３と通信することにより各種データの送受信を行なうためのサーバ装置である。

そして、この音声認識システムにおいて、外部オーディオ機器２は、ナビゲーション装置１と有線又は無線でデータ通信可能な状態（例えば、通信ケーブルで接続された状態や、近距離無線通信可能な通信エリア内に存在する状態）を実現できるものであり、データ通信可能な状態においては、外部オーディオ機器２に記憶された楽曲や動画などのコンテンツデータはナビゲーション装置１を介してユーザの発話音声により特定することができるようになる。また、外部オーディオ機器２はＰＣ３と接続可能であり、ＰＣ３は、サーバ４と有線又は無線でデータ通信が可能となっている。ＰＣ３は、サーバ４から楽曲や動画などのコンテンツデータ、音声認識辞書を作成するためのツールなどをダウンロードできる。

図２は、ナビゲーション装置１の内部構成を示すブロック図である。ナビゲーション装置１は、位置検出器１１、操作スイッチ群１２、外部オーディオ機器接続Ｉ／Ｆ１３、ステアリングスイッチ（以下「ステアリングＳＷ」という。）１４、マイク１５、制御回路１６、メモリ１７、表示装置１８を備える。

位置検出器１１は、ＧＰＳ（Global Positioning System）用の人工衛星からの送信電波をＧＰＳアンテナを介して受信し、車両の位置、速度、進行方向などを検出する。
操作スイッチ群１２は、表示装置１８と一体に構成され表示画面上に設置されるタッチパネル及び表示装置１８の周囲に設けられたメカニカルなキースイッチ等が用いられる。なお、タッチパネルと表示装置１８とは積層一体化されており、タッチパネルには、感圧方式、電磁誘導方式、静電容量方式、あるいはこれらを組み合わせた方式など各種の方式があるが、その何れを用いてもよい。

外部オーディオ機器接続Ｉ／Ｆ１３は、例えば、外部オーディオ機器２など可搬型の携帯音楽プレーヤを接続するためのＵＳＢ（Universal・Serial・Bus）インターフェースである。

ステアリングＳＷ１４は、ステアリングの近傍に設けられ、ナビゲーション装置１を操作するためのスイッチ群であり、操作スイッチ群１２と同様の機能を有する。
マイク１５は、運転者などユーザの発話音声を入力するための機器である。

制御回路１６は、ナビゲーション装置１の各種デバイスに制御信号を送り、データ処理を実行するための電子制御ユニットである。
メモリ１７は、ナビゲーション装置１で利用する各種データを記憶するための記憶装置であり、音声認識エンジン（音認エンジン）に関する情報が予め記憶されている。また、メモリ１７は、例えば、楽曲を検索するための音声認識辞書（音認辞書）を外部オーディオ機器２から受信して記憶することができる。

表示装置１８は、地図や再生する楽曲などを表示するためのディスプレイであり、前述したとおり、操作スイッチ群１２と積層一体化されている。
図３は、外部オーディオ機器２の内部構成を示すブロック図である。外部オーディオ機器２は、操作スイッチ群２１、外部機器接続Ｉ／Ｆ２２、制御回路２３、メモリ２４、表示装置２５を備える。

操作スイッチ群２１は、操作ボタンやタッチセンサなどで構成されており、外部オーディオ機器２を操作するためのスイッチ群である。
外部機器接続Ｉ／Ｆ２２は、外部オーディオ機器２をナビゲーション装置１やＰＣ３と通信可能に接続するためのＵＳＢ（Universal・Serial・Bus）インターフェースである。

メモリ２４は、外部オーディオ機器２で利用する各種データを記憶するための記憶装置であり、例えば、楽曲を検索するための音声認識辞書（音認辞書）、ナビゲーション装置１で用いている音声認識エンジン（音認エンジン）に関する情報、音声認識辞書を作成するための音認辞書作成ツール（以下「ツール」という。）などを記憶することができる。

表示装置２５は、外部オーディオ機器２の操作状態やコンテンツのタイトルなどを表示するためのディスプレイである。
図４は、ＰＣ３の内部構成を示すブロック図である。ＰＣ３は、操作スイッチ群３１、外部機器接続Ｉ／Ｆ３２、ネットワーク接続Ｉ／Ｆ３３、制御回路３４、メモリ３５、表示装置３６を備える。

操作スイッチ群３１は、キーボートやマウスなどの入力デバイスであり、外部機器接続Ｉ／Ｆ３２は、外部オーディオ機器２をＰＣ３に接続可能なＵＳＢ（Universal・Serial・Bus）インターフェースである。ネットワーク接続Ｉ／Ｆ３３は、インターネット回線に有線又は無線で接続するためのインターフェースであり、制御回路３４は、ＰＣ３の各デバイスに制御信号を送り、データ処理などを行なう中央制御ユニットである。

メモリ３５は、音声認識辞書を作成するためのツールやナビゲーション装置１で用いられている音声認識エンジンに関する情報などが記憶される記憶装置である。表示装置３６は、ＰＣ３による演算結果などを表示するディスプレイである。

サーバ４の内部構成については図示しないが、図４に示したＰＣ３のブロック図と同様である。
［２処理］
以下、本実施形態のナビゲーション装置１、外部オーディオ機器２、ＰＣ３、サーバ４が実行する処理につき、順に説明する。

図５は、ナビゲーション装置１の制御回路１６が実行する処理を示すフローチャートである。ナビゲーション装置１の制御回路１６は、ユーザが外部オーディオ機器２の外部機器接続Ｉ／Ｆ２２とナビゲーション装置１の外部オーディオ機器接続Ｉ／Ｆ１３とをケーブルで接続することでこの処理を開始する。

まずＳ１００で、ナビゲーション装置１の制御回路１６は、ナビゲーション装置１が有する音声認識エンジンに関する情報（以下「音声認識エンジン情報」という。）が外部オーディオ機器２に記憶されているか否かを判断する。具体的には、制御回路１６が外部オーディオ機器２に音声認識エンジン情報についての問い合わせを行う信号を送信し、外部オーディオ機器２から返信される信号により、音声認識エンジン情報の有無を判断する。

ここでいう音声認識エンジン情報とは、ナビゲーション装置１のメーカや機種などによって依存する音声認識エンジンの種類を特定することができるデータを示しており、かかるデータがあればナビゲーション装置１がどの音声認識エンジンを用いているのかが特定できることになる。この音声認識エンジン情報により、その音声認識エンジンが音声認識に際して参照する音声認識辞書を作成するためのツール（ソフトウエア）を特定できる。

Ｓ１００で、外部オーディオ機器２に音声認識エンジン情報が記憶されていれば（Ｓ１００：ＹＥＳ）、Ｓ１１０に進み、外部オーディオ機器２に音声認識エンジン情報が記憶されていなければ（Ｓ１００：ＮＯ）、Ｓ１６０に進む。

Ｓ１１０では、ナビゲーション装置１が有する音声認識エンジン情報と外部オーディオ機器２に記憶されている音声認識エンジン情報とが同一か否かを判断する。すなわち、ナビゲーション装置１の制御回路１６が、外部オーディオ機器２から、音声認識エンジン情報を受信し、ナビゲーション装置１が有するエンジン情報と比較して一致するか否かにより判断する。

Ｓ１１０でナビゲーション装置１が有する音声認識エンジン情報と外部オーディオ機器２に記憶されている音声認識エンジン情報とが同一であれば（Ｓ１１０：ＹＥＳ）、Ｓ１２０に進み、同一でなければ（Ｓ１１０：ＮＯ）、Ｓ１６０に進む。

Ｓ１２０では、外部オーディオ機器２にコンテンツデータとして記憶されている楽曲や動画に対応する音声認識辞書（音認辞書）が外部オーディオ機器２内に存在するか（記憶しているか）否かを判断する。すなわち、制御回路１６が、外部オーディオ機器２に対し、音声認識辞書の存在を問い合わせる信号を送り、これに対して外部オーディオ機器２から返信される確認信号により判断する。

なお楽曲や動画などのコンテンツデータに対応した音声認識辞書とは、通常楽曲であれば、タイトル、アーティスト名、アルバム名、ジャンルなどの文字データに対応した発話音声データから音声認識に必要な特徴部分を取り出したものであり、ユーザの発話音声と比較することで、楽曲を特定することができる。以下特に楽曲について説明するが、動画についても同様の処理となる。

Ｓ１２０で、外部オーディオ機器２に記憶されている楽曲に対応して、全ての音声認識辞書が記憶されている場合（Ｓ１２０：全て有り）、Ｓ１３０に進み、Ｓ１３０では外部オーディオ機器２に記憶されている音声認識辞書をデータ通信により全て取得し、ナビゲーション装置１のメモリ１７に記憶して、処理を終了する。

Ｓ１２０で、外部オーディオ機器２に記憶されている楽曲に対応して、一部の音声認識辞書が記憶されている場合（Ｓ１２０：一部有り）、Ｓ１４０に進み、Ｓ１４０では外部オーディオ機器２に記憶されている音声認識辞書をデータ通信により取得し、ナビゲーション装置１のメモリ１７に記憶して、Ｓ１５０に進む。

Ｓ１５０では、外部オーディオ機器２に記憶されていない音声認識辞書を作成するため、外部オーディオ機器２に記憶されている残りの楽曲の情報（タイトル、アーティスト名アルバム名、ジャンルなど）を外部オーディオ機器２からデータ通信により取得して、ナビゲーション装置１の制御回路１６が残りの楽曲などに対する音声認識辞書を作成し（Ｓ１５０）、処理を終了する。楽曲の情報から音声認識辞書を作成するプロセスは、ナビゲーション装置１のメモリ１７に音声認識辞書を作成するためのツール（ソフトウエア）が予め記憶されており、そのツールを制御回路１６が実行することで行われる。ツールがどのようにして音声認識辞書を作成するのかについては周知の方法を使うものであり、ここでは詳述しない。

Ｓ１００で、音声認識エンジン情報が外部オーディオ機器２に記憶されていない場合（Ｓ１００：ＮＯ）及びＳ１１０で、外部オーディオ機器２に記憶されている音声認識エンジン情報がナビゲーション装置１の有する音声認識エンジン情報と同一でない場合（Ｓ１１０：ＮＯ）、Ｓ１６０に進む。

Ｓ１６０では、ナビゲーション装置１が有する音声認識エンジン情報を外部オーディオ機器２に送信する。すなわち、ナビゲーション装置１で用いる音声認識エンジンを特定できる情報が外部オーディオ機器２に記憶されていないため、音声認識エンジン情報を外部オーディオ機器２に送信して、外部オーディオ機器２側で音声認識エンジンに適合した音声認識辞書が作成できるようにする。具体的には外部オーディオ機器２が音声認識エンジンに適合する音声認識辞書作成ツールを取得して、そのツールを実行することになる。このＳ１６０の処理の後、Ｓ１７０に進む。

またＳ１２０で、外部オーディオ機器２に記憶されている楽曲に対応する音声認識辞書が一つもない場合（Ｓ１２０：一つも無い）も、Ｓ１７０に進む。
Ｓ１７０では、外部オーディオ機器２に記憶されている楽曲の情報を取得して、ナビゲーション装置１の制御回路１６が楽曲に対応する音声認識辞書を作成して、処理を終了する。

図６は、外部オーディオ機器２の制御回路２３が、ナビゲーション装置１に接続した状態で実行する処理を示すフローチャートである。外部オーディオ機器２の制御回路２３は、ユーザによりナビゲーション装置１の外部オーディオ機器接続Ｉ／Ｆ１３と外部オーディオ機器２の外部機器接続Ｉ／Ｆ２２とがケーブルにより接続されることでこの処理を開始する。

まずＳ２００で、ナビゲーション装置１に記憶されている音声認識エンジン情報と外部オーディオ機器２のメモリ２４に記憶されている音声認識エンジン情報とが同一か否かを判断する。メモリ２４に音声認識エンジンが記憶されていない場合は同一でないと判断される。

ナビゲーション装置１に記憶されている音声認識エンジン情報と外部オーディオ機器２のメモリ２４に記憶されている音声認識エンジン情報と同一であれば（Ｓ２００：ＹＥＳ）、Ｓ２１０に進み、同一でなければ（Ｓ２００：ＮＯ）、Ｓ２５０に進む。

Ｓ２１０では、対応する音声認識辞書が外部オーディオ機器２のメモリ２４に記憶されているか否かを判断する。
Ｓ２１０で、メモリ２４が楽曲などに対応する全ての音声認識辞書を記憶している場合（Ｓ２１０：全て有り）、Ｓ２２０に進み、Ｓ２２０でメモリ２４が記憶している音声認識辞書を全てナビゲーション装置１に送信して、処理を終了する。

Ｓ２１０で、メモリ２４に楽曲に対応する一部の音声認識辞書が記憶されている場合（Ｓ２１０：一部有り）、Ｓ２３０に進む。
Ｓ２３０では、メモリ２４に記憶されている音声認識辞書をナビゲーション装置１に送信し、Ｓ２４０に進む。

Ｓ２４０では、ナビゲーション装置１側で外部オーディオ機器２のメモリ２４に記憶されていない音声認識辞書を作成するため、外部オーディオ機器２のメモリ２４が記憶している残りの楽曲の情報をナビゲーション装置１に送信し、処理を終了する。

一方、Ｓ２００で、ナビゲーション装置１に記憶されている音声認識エンジン情報と外部オーディオ機器２のメモリ２４に記憶されている音声認識エンジン情報とが同一でなければ（Ｓ２００：ＮＯ）、Ｓ２５０に進み、Ｓ２５０で、ナビゲーション装置１から音声認識エンジン情報を取得して、Ｓ２６０に進む。

またＳ２１０で、外部オーディオ機器２のメモリ２４に記憶されている楽曲などに対応する音声認識辞書が一つも無い場合（Ｓ２１０：一つも無い）も、Ｓ２６０に進む。
Ｓ２６０では、外部オーディオ機器２のメモリ２４に記憶されている楽曲などの情報をナビゲーション装置１に送信して、処理を終了する。

図７は、外部オーディオ機器２の制御回路２３が、ＰＣ３に接続した状態で実行する処理を示すフローチャートである。外部オーディオ機器２の制御回路２３は、ユーザにより外部オーディオ機器２の外部機器接続Ｉ／Ｆ２２とＰＣ５の外部機器接続Ｉ／Ｆ３２とがケーブルで接続され、外部オーディオ機器２を音声認識により操作可能とするために音声認識辞書を作成するためのプログラムが実行されることで、この処理を開始する。

まずＳ３００で、外部オーディオ機器２のメモリ２４に音声認識エンジン情報が記憶されているか否かを判断する。メモリ２４に音声認識エンジンが記憶されていなければ（Ｓ３００：ＮＯ）、Ｓ３１０に進み、音声認識エンジンが記憶されていれば（Ｓ３００：ＹＥＳ）、Ｓ３２０に進む。

Ｓ３１０では、ＰＣ５から全ての音声認識エンジンに対応できる全てのツールを通信により受信して、メモリ２４に記憶する。その後、Ｓ３３０に進む。
一方、Ｓ３２０では、メモリ２４に記憶されている音声認識エンジン情報に対応したツールがメモリ２４に記憶されているか否かを判断する。具体的には、メモリ２４に記憶されているツールのバージョンデータを参照するなどの方法で、メモリ２４に記憶されている音声認識エンジン情報との対応を確認する。ツールが記憶されていない場合は、対応するツールが記憶されていないと判断される。対応したツールが記憶されている場合（Ｓ３２０：ＹＥＳ）、Ｓ３３０に進み、対応したツールが記憶されていない場合（Ｓ３２０：ＮＯ）、Ｓ３４０に進む。

Ｓ３３０では、メモリ２４に記憶されている楽曲などのコンテンツデータから全ての音声認識辞書が作成されているか否かを判断する。楽曲から音声認識辞書が全て作成されていれば（Ｓ３３０：ＹＥＳ）、そのまま処理を終了する。楽曲などから全ての音声認識辞書が作成されていなければ（Ｓ３３０：ＮＯ）、Ｓ３５０に進む。

一方、Ｓ３４０では、ＰＣ３から、メモリ２４が記憶している音声認識エンジン情報に対応するツールを通信により取得して、メモリ２４に記憶する。具体的には音声認識エンジン情報をＰＣ３に送り、ＰＣ３から対応するツールを受信することにより行う。その後、Ｓ３５０に進む。

Ｓ３５０では、外部オーディオ機器２の制御回路２３が、メモリ２４に記憶しているツールを実行し、楽曲の情報（タイトル、アーティスト、アルバム、ジャンルなど）を基に音声認識辞書を作成し、処理を終了する。なお、Ｓ３１０により全てのツールを取得した場合は、全ての音声認識エンジンに対応できる音声認識辞書を作成することになる。そして、この場合はナビゲーション装置１の制御回路１６は、図６に示したフローチャートに代えて、ナビゲーション装置１のメモリ１７に記憶されている音声認識エンジン情報に対応する音声認識辞書だけを選択した上で、選択した音声認識辞書を取得することになる。

図８は、ＰＣ３の制御回路３４が、外部オーディオ機器２を接続した状態で実行する処理を示すフローチャートである。ＰＣ３の制御回路３４は、ユーザによりＰＣ５の外部機器接続Ｉ／Ｆ３２と外部オーディオ機器２の外部機器接続Ｉ／Ｆ２２とがケーブルにより接続され、所定のプログラムが実行されることで、この処理を開始する。

まずＳ４００で、ＰＣ３のメモリ３５に、外部オーディオ機器２に記憶されている音声認識エンジン情報と同一の音声認識エンジン情報が記憶されているか否かを判断する。具体的には、ＰＣ３の制御回路３４が、外部オーディオ機器２に対し、音声認識エンジン情報を問い合わせ、メモリ３５に同一の音声認識エンジンが記憶されているか否かを比較して判断する。メモリ３５に音声認識エンジン情報が記憶されていれば（Ｓ４００：ＹＥＳ）、Ｓ４１０に進み、音声認識エンジン情報が記憶されていなければ（Ｓ４００：ＮＯ）、Ｓ４４０に進む。

Ｓ４１０では、最新のバージョンのツールをダウンロードする準備として、旧バージョンとなって不要なツールを削除して、Ｓ４２０に進む。
Ｓ４２０では、サーバ４より音声認識エンジン情報から、最新のバージョンのツールをダウンロードして、Ｓ４３０に進む。

Ｓ４３０では、音声認識エンジン情報に対応したツールの最新バージョンが外部オーディオ機器２に記憶されているか否かを判断する。具体的には、Ｓ４２０でダウンロードしたツールと外部オーディオ機器２に記憶されているツールとを比較することにより行う。最新バージョンが外部オーディオ機器２に記憶されていれば（Ｓ４３０：ＹＥＳ）、そのまま処理を終了する。最新バージョンが外部オーディオ機器２に記憶されていなければ（Ｓ４３０：ＮＯ）、Ｓ４９０に進む。

一方、Ｓ４００で、メモリ３５に、外部オーディオ機器２に記憶されている音声認識エンジン情報と同一の音声認識エンジンが記憶されていなければ（Ｓ４００：ＮＯ）、Ｓ４４０に進み、Ｓ４４０で、外部オーディオ機器２に対し、音声認識エンジン情報を取得する命令を送り、Ｓ４５０に進む。

Ｓ４５０では、外部オーディオ機器２から音声認識エンジン情報を取得できたか否かを判断する。音声認識エンジン情報を取得できれば（Ｓ４５０：ＹＥＳ）、Ｓ４１０に進む。外部オーディオ機器２に音声認識エンジン情報が記憶されていないなど、音声認識エンジン情報を取得できなければ（Ｓ４５０：ＮＯ）、Ｓ４６０に進む。

Ｓ４６０では、最新のバージョンのツールをダウンロードする準備として、旧バージョンの不要なツールを削除し、Ｓ４７０に進む。
Ｓ４７０では、サーバ４から全ての音声認識エンジンについてのツールをダウンロードし、Ｓ４８０に進む。

Ｓ４８０では、全ての音声認識エンジン情報に対応したツールの最新バージョンが外部オーディオ機器２に記憶されているか否かを判断する。全てのツールの最新バージョンが記憶されていれば（Ｓ４８０：ＹＥＳ）、そのまま処理を終了する。ツールの最新バージョンが記憶されていなければ（Ｓ４９０：ＮＯ）、Ｓ４９０に進む。

Ｓ４９０では、ツールの最新版をＰＣ３から外部オーディオ機器２に送信し、処理を終了する。
図９は、サーバ４の制御回路（図示せず）が、ＰＣ３との通信を行なう際に実行する処理を示すフローチャートである。サーバ４の制御回路は、ＰＣ３からのアクセスがあって処理を開始する。

まずＳ５００で、ＰＣ３からのアクセス要求信号を受信し、Ｓ５１０に進む。
Ｓ５１０で、ＰＣ３からナビゲーション装置１の音声認識エンジン情報を取得できたか否かを判断する。音声認識エンジン情報を取得できれば（Ｓ５１０：ＹＥＳ）、Ｓ５２０に進み、音声認識エンジン情報を取得できなければ（Ｓ５１０：ＮＯ）、Ｓ５４０に進む。

Ｓ５２０では、サーバ４が記憶している最新バージョンのツールとＰＣ３が記憶しているツールとが一致するか否かを判断する。具体的には例えば、ＰＣ３からツールの情報（バージョン情報）を取得する。この場合ＰＣ３がツールにツールが記憶されていない場合は両者が一致しないと判断する。両者が一致していれば（Ｓ５２０：ＹＥＳ）、そのまま処理を終了し、両者が一致していなければ（Ｓ５２０：ＮＯ）、Ｓ５３０に進む。

Ｓ５３０では、サーバ４からＰＣ３が要求する音声認識エンジン情報に対応するツールをＰＣ３に配信し、処理を終了する。
Ｓ５４０では、サーバ４から全ての音声認識エンジンに対応できる全てのツールをＰＣ３に配信し、処理を終了する。

［３効果］
以上説明したとおり本実施形態の音声認識システムによれば、音声認識辞書をナビゲーション装置１内部で作成するのではなく外部オーディオ機器２内部で作成してから取得するので、外部オーディオ機器２が発話音声により操作可能となるまでの時間を短縮することができる。

しかもその音声認識辞書は、一般に多数のデータとなる楽曲又は動画を内容とするコンテンツデータに対応するものであることから、時間短縮の効果は極めて大きい。
また、ナビゲーション装置１が記憶している音声認識エンジン情報が外部オーディオ機器２に送られ、音声認識エンジンに適合したツールを用いて音声認識辞書を作成するので、この操作がなされた場合は不要な音声認識辞書が作成されることなく、効率のよい準備が可能となる。

［４特許請求の範囲との対応］
なお、本実施形態のナビゲーション装置１につき、Ｓ１３０及びＳ１４０を実行する制御回路１６が辞書取得手段に相当し、Ｓ１６０を実行する制御回路１６が辞書送信手段に相当する。

また外部オーディオ機器２につき、Ｓ２２０及びＳ２３０を実行する制御回路２３が辞書送信手段に相当し、Ｓ２５０を実行する制御回路２３が特定情報取得手段に相当し、Ｓ３４０を実行する制御回路２３がツール取得手段に相当し、Ｓ３５０を実行する制御回路２３が辞書作成手段に相当する。

［５他の形態］
以上、本発明の一実施形態について説明したが、本発明は、種々の形態を採り得ることは言うまでもない。

例えば、本実施形態では、外部オーディオ機器２が楽曲や動画、ツールなどのデータをＰＣ３からダウンロードする構成としたが、例えば、携帯電話や通信携帯端末などの機器であれば、ＰＣ３を介することなく、直接無線でインターネットやセンタのサーバなどに接続して、各種データをダウンロードする構成にしてもよい。

また本実施形態では、外部オーディオ機器２の内部でツールを実行して音声認識辞書を作成したが、これは例えばＰＣ３でツールを実行してもよいし、サーバ４で予め作成した音声認識辞書をダウンロードなどにより受信する構成にしてもよい。

また本実施形態では、コンテンツデータとして特に楽曲とする場合について説明したが、動画でもよいし、その他、ワードプロセッサ、スプレッドシート、プレゼンテーション用スライドなどのファイル、ゲーム、ニュース、講演、娯楽などの音声データ、デジタルカメラなどで撮影した写真など画像データなどコンテンツデータになるものであればよい。

本発明の実施形態としての音声認識システムの全体構成を示すブロック図である。ナビゲーション装置の内部構成を示すブロック図である。外部オーディオ機器の内部構成を示すブロック図である。パーソナルコンピュータの内部構成を示すブロック図である。ナビゲーション装置の制御回路が実行する処理を示すフローチャートである。外部オーディオ機器の制御回路が、ナビゲーション装置に接続した状態で実行する処理を示すフローチャートである。外部オーディオ機器の制御回路が、パーソナルコンピュータに接続した状態で実行する処理を示すフローチャートである。パーソナルコンピュータの制御回路が、外部オーディオ機器を接続した状態で実行する処理を示すフローチャートである。サーバの制御回路が、パーソナルコンピュータとの通信を行なう際に実行する処理を示すフローチャートである。

符号の説明

１…ナビゲーション装置、２…外部オーディオ機器、３…ＰＣ、４…サーバ、１１…位置検出器、１２…操作スイッチ群、１３…外部オーディオ機器接続Ｉ／Ｆ、１４…ステアリングＳＷ、１５…マイク、１６…制御回路、１７…メモリ、１８…タッチパネル、２１…操作スイッチ群、２２…外部機器接続Ｉ／Ｆ、２３…制御回路、２４…メモリ、２５…表示装置、３１…操作スイッチ群、３２…外部機器接続Ｉ／Ｆ、３３…ネットワーク接続Ｉ／Ｆ、３４…制御回路、３５…メモリ、３６…表示装置

Claims

ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置であって、
コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する辞書取得手段を備えたこと
を特徴とする音声認識装置。
当該音声認識装置が有する音声認識エンジンの種類を特定可能な特定情報を前記端末機器に送信する特定情報送信手段を備えたこと
を特徴とする請求項１記載の音声認識装置。
前記辞書取得手段は、楽曲及び動画の少なくとも一方を内容とするコンテンツデータを発話音声で特定可能とする音声認識辞書を取得することを特徴とする請求項１又は２記載の音声認識装置。
内部の記憶装置にコンテンツデータが記憶された端末機器であって、
ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する辞書送信手段を備えたこと
を特徴とする端末機器。
前記音声認識装置が有する音声認識エンジンの種類を特定可能な特定情報を前記音声認識装置から取得する特定情報取得手段を備え、
前記辞書送信手段は、前記特定情報取得手段により取得された特定情報に基づいて内部又は外部で作成された音声認識辞書を前記音声認識装置に送信すること
を特徴とする請求項４記載の端末機器。
前記特定情報取得手段により取得された特定情報をもとに音声認識辞書を作成するためのツールを外部から取得するツール取得手段と、
前記ツール取得手段により取得されたツールを用いて前記コンテンツデータを特定可能な音声認識辞書を作成する辞書作成手段と
を備えたことを特徴とする請求項５記載の端末機器。
当該端末機器は、その内部の記憶装置に楽曲及び動画の少なくとも一方を内容とするコンテンツデータとして記憶していることを特徴とする請求項４乃至６のいずれか記載の端末機器。
ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置としてコンピュータを機能させる音声認識装置用プログラムであって、
コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する辞書取得手段としてコンピュータを機能させることを特徴とする音声認識装置用プログラム。
内部の記憶装置にコンテンツデータが記憶された端末機器としてコンピュータを機能させる端末機器用プログラムであって、
ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する辞書送信手段としてコンピュータを機能させることを特徴とする端末機器用プログラム。