JP2010060720A - 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム - Google Patents

音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム Download PDF

Info

Publication number
JP2010060720A
JP2010060720A JP2008224974A JP2008224974A JP2010060720A JP 2010060720 A JP2010060720 A JP 2010060720A JP 2008224974 A JP2008224974 A JP 2008224974A JP 2008224974 A JP2008224974 A JP 2008224974A JP 2010060720 A JP2010060720 A JP 2010060720A
Authority
JP
Japan
Prior art keywords
speech recognition
dictionary
terminal device
stored
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008224974A
Other languages
English (en)
Other versions
JP5120158B2 (ja
Inventor
Kazuhisa Suzuki
一久 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2008224974A priority Critical patent/JP5120158B2/ja
Publication of JP2010060720A publication Critical patent/JP2010060720A/ja
Application granted granted Critical
Publication of JP5120158B2 publication Critical patent/JP5120158B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】端末機器と音声認識装置とがデータ通信可能な状態になった後、短時間で端末機器を音声認識により操作可能な状態とする。
【解決手段】S100で、外部オーディオ機器2に音声認識辞書が記憶されていれば(S100:YES)、S110に進み、S110でナビゲーション装置1が有する音声認識エンジン情報と外部オーディオ機器2に記憶されている音声認識エンジン情報とが同一であれば(S110:YES)、S120に進む。S120で、外部オーディオ機器2に記憶されている楽曲などに対応して、全ての音声認識辞書が記憶されている場合(S120:全て有り)、S130に進み、外部オーディオ機器2に記憶されている全ての音声認識辞書を受信し、ナビゲーション装置1のメモリ17に記憶して、処理を終了する。
【選択図】図5

Description

本発明は、データ通信が可能な状態の端末機器をユーザの発話音声により操作可能とする音声認識装置に関する。
従来、音声認識により操作可能なオーディオ機器として例えば、特許文献1記載のカーオーディオシステムがある。このカーオーディオシステムでは、ユーザの発話音声を入力し、使用可能なコマンド毎にあらかじめ与えられている認識用のデータ(音声認識辞書)を参照することにより、入力した発話音声の音声認識を行なう。
特開平11−317063号公報
しかしながら、従来の音声認識装置では、当該音声認識装置とデータ通信可能な状態(例えば通信ケーブルを介して接続された状態)にある端末機器をユーザの発話音声により操作しようとする場合、あらかじめ定められているコマンド(再生、停止、早送り等)のみによる操作であればすぐに可能となるが、その端末機器に記憶されているコンテンツデータを特定する操作を可能とする場合には、操作可能な状態となるまでに長い時間がかかってしまうという問題があった。
すなわち、音声認識装置は、音声認識エンジンを内部に備えており、音声認識を実行するためには、その音声認識エンジンに対応した音声認識辞書を予め準備しておかなければならない。そして、端末機器に楽曲や動画などのコンテンツデータが記憶されている場合、そのコンテンツデータを特定できる音声認識辞書が音声認識装置に予め記憶されていなければ、その端末機器に記憶されたコンテンツデータをユーザの発話音声により特定することができないことになる。
端末機器に記憶されたコンテンツデータに関する情報は、端末機器と音声認識装置とが通信可能な状態にならなければ、音声認識装置側で認識できないため、端末機器と音声認識装置とがデータ通信可能な状態になってから音声認識装置の内部でコンテンツデータを特定するための音声認識辞書を作成することになる。
そのため、端末機器と音声認識装置とがデータ通信可能な状態になった後、長時間が経過しないと、端末機器が音声認識により操作することができる状態にならない。
本発明は、かかる問題を解決するためになされたものであり、端末機器と音声認識装置とがデータ通信可能な状態になった後、短時間で端末機器を音声認識により操作可能な状態とすることを目的とする。
上記目的を達成するためになされた請求項1記載の発明は、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置であり、辞書取得手段を備える。そしてその辞書取得手段は、コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する。
かかる請求項1記載の発明によれば、音声認識辞書を音声認識装置内部で作成するのではなく端末機器から取得するので、端末機器が発話音声により操作可能となるまでの時間を短縮することができる。
請求項2記載の発明は、請求項1記載の音声認識装置において、特定情報送信手段を備える。特定情報送信手段は当該音声認識装置が有する音声認識エンジンを特定可能な特定情報を端末機器に送信する。
かかる請求項2記載の発明によれば、例えば端末機器は、音声認識装置が有する音声認識エンジンに適合した音声認識辞書を作成することができるので、不要な音声認識辞書を作成することなく、効率のよい準備が可能となる。
請求項3記載の発明は、請求項1又は2記載の音声認識装置において、辞書取得手段が、楽曲及び動画の少なくとも一方を内容とするコンテンツデータを発話音声で特定可能とする音声認識辞書を取得する。
かかる請求項3記載の音声認識装置によれば、一般に多数のデータとなる楽曲又は動画を内容とするコンテンツデータを特定可能な音声認識辞書を端末装置から取得するので、音声認識辞書を作成する時間を削減できることになる。
請求項4記載の発明は、内部の記憶装置にコンテンツデータが記憶された端末機器であり、辞書送信手段を備える。そしてその辞書送信手段は、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する。
かかる請求項4記載の端末装置によれば、請求項1記載の発明と同様、端末機器が発話音声により操作可能となるまでの時間を短縮することができる。
請求項5記載の発明は、請求項4記載の端末装置において、特定情報取得手段を更に備える。特定情報取得手段は、音声認識装置が有する音声認識エンジンの種類を特定可能な特定情報を音声認識装置から取得する。そして、辞書送信手段は、特定情報取得手段により取得された特定情報に基づいて内部又は外部で作成された音声認識辞書を音声認識装置に送信する。
かかる請求項5記載の端末装置によれば、請求項2記載の発明と同様の効果を得ることができる。
請求項6記載の発明は、請求項5記載の端末機器において、ツール取得手段と辞書作成手段とを備える。ツール取得手段は、特定情報取得手段により取得された特定情報をもとに音声認識辞書を作成するためのツールを外部から取得し、辞書作成手段は、ツール取得手段により取得されたツールを用いて内部に記憶されたコンテンツデータを特定可能な音声認識辞書を作成する。
かかる請求項6記載の端末装置によれば、音声認識エンジンに適合したツールを用いて音声認識辞書を作成するため、音声認識辞書を作成する過程の効率化を図ることができる。
請求項7記載の発明は、請求項4乃至6のいずれか記載の端末機器において、その内部に楽曲及び動画の少なくとも一方をコンテンツデータとして記憶している。
かかる請求項7記載の端末装置によれば、請求項3記載の発明と同様の効果を得ることができる。
請求項8記載の発明は、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置としてコンピュータを機能させる音声認識装置用プログラムであり、コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する辞書取得手段としてコンピュータを機能させる。
かかる請求項8記載の音声認識装置用プログラムによれば、請求項1記載の発明と同様の効果を得ることができる。
請求項9記載の発明は、内部の記憶装置にコンテンツデータが記憶された端末機器としてコンピュータを機能させる端末機器用プログラムであり、ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する辞書送信手段としてコンピュータを機能させる。
かかる請求項9記載の端末機器用プログラムによれば、請求項4記載の発明と同様の効果を得ることができる。
以下、本発明が適用された実施形態について、図面を用いて説明する。
[1 構成]
図1は、本発明の実施形態としての音声認識システムの全体構成を示すブロック図である。図示するように、この音声認識システムは、車両に搭載されるナビゲーション装置1、ユーザが携帯可能な外部オーディオ機器2、ユーザが外部オーディオ機器2にデータをダウンロードするために用いるパーソナルコンピュータ(以下「PC」という。)3、楽曲やツールなど各種データが記憶されているサーバ4を備える。
ナビゲーション装置1は、車両に搭載され、運転者に画像や音声により道路のナビゲーションなどをする電子機器であり、ユーザの発話音声による操作が可能となっている。
外部オーディオ機器2は、予め記憶された楽曲や動画などのコンテンツデータをタイトル、アーティスト、アルバム、ジャンルといった項目からユーザの操作により選択して特定し、再生することが可能となっている。
PC3は、外部オーディオ機器2に記憶されるコンテンツデータを管理するなど各種処理を実行する汎用のパーソナルコンピュータである。
サーバ4は、PC3と通信することにより各種データの送受信を行なうためのサーバ装置である。
そして、この音声認識システムにおいて、外部オーディオ機器2は、ナビゲーション装置1と有線又は無線でデータ通信可能な状態(例えば、通信ケーブルで接続された状態や、近距離無線通信可能な通信エリア内に存在する状態)を実現できるものであり、データ通信可能な状態においては、外部オーディオ機器2に記憶された楽曲や動画などのコンテンツデータはナビゲーション装置1を介してユーザの発話音声により特定することができるようになる。また、外部オーディオ機器2はPC3と接続可能であり、PC3は、サーバ4と有線又は無線でデータ通信が可能となっている。PC3は、サーバ4から楽曲や動画などのコンテンツデータ、音声認識辞書を作成するためのツールなどをダウンロードできる。
図2は、ナビゲーション装置1の内部構成を示すブロック図である。ナビゲーション装置1は、位置検出器11、操作スイッチ群12、外部オーディオ機器接続I/F13、ステアリングスイッチ(以下「ステアリングSW」という。)14、マイク15、制御回路16、メモリ17、表示装置18を備える。
位置検出器11は、GPS(Global Positioning System)用の人工衛星からの送信電波をGPSアンテナを介して受信し、車両の位置、速度、進行方向などを検出する。
操作スイッチ群12は、表示装置18と一体に構成され表示画面上に設置されるタッチパネル及び表示装置18の周囲に設けられたメカニカルなキースイッチ等が用いられる。なお、タッチパネルと表示装置18とは積層一体化されており、タッチパネルには、感圧方式、電磁誘導方式、静電容量方式、あるいはこれらを組み合わせた方式など各種の方式があるが、その何れを用いてもよい。
外部オーディオ機器接続I/F13は、例えば、外部オーディオ機器2など可搬型の携帯音楽プレーヤを接続するためのUSB(Universal・Serial・Bus)インターフェースである。
ステアリングSW14は、ステアリングの近傍に設けられ、ナビゲーション装置1を操作するためのスイッチ群であり、操作スイッチ群12と同様の機能を有する。
マイク15は、運転者などユーザの発話音声を入力するための機器である。
制御回路16は、ナビゲーション装置1の各種デバイスに制御信号を送り、データ処理を実行するための電子制御ユニットである。
メモリ17は、ナビゲーション装置1で利用する各種データを記憶するための記憶装置であり、音声認識エンジン(音認エンジン)に関する情報が予め記憶されている。また、メモリ17は、例えば、楽曲を検索するための音声認識辞書(音認辞書)を外部オーディオ機器2から受信して記憶することができる。
表示装置18は、地図や再生する楽曲などを表示するためのディスプレイであり、前述したとおり、操作スイッチ群12と積層一体化されている。
図3は、外部オーディオ機器2の内部構成を示すブロック図である。外部オーディオ機器2は、操作スイッチ群21、外部機器接続I/F22、制御回路23、メモリ24、表示装置25を備える。
操作スイッチ群21は、操作ボタンやタッチセンサなどで構成されており、外部オーディオ機器2を操作するためのスイッチ群である。
外部機器接続I/F22は、外部オーディオ機器2をナビゲーション装置1やPC3と通信可能に接続するためのUSB(Universal・Serial・Bus)インターフェースである。
メモリ24は、外部オーディオ機器2で利用する各種データを記憶するための記憶装置であり、例えば、楽曲を検索するための音声認識辞書(音認辞書)、ナビゲーション装置1で用いている音声認識エンジン(音認エンジン)に関する情報、音声認識辞書を作成するための音認辞書作成ツール(以下「ツール」という。)などを記憶することができる。
表示装置25は、外部オーディオ機器2の操作状態やコンテンツのタイトルなどを表示するためのディスプレイである。
図4は、PC3の内部構成を示すブロック図である。PC3は、操作スイッチ群31、外部機器接続I/F32、ネットワーク接続I/F33、制御回路34、メモリ35、表示装置36を備える。
操作スイッチ群31は、キーボートやマウスなどの入力デバイスであり、外部機器接続I/F32は、外部オーディオ機器2をPC3に接続可能なUSB(Universal・Serial・Bus)インターフェースである。ネットワーク接続I/F33は、インターネット回線に有線又は無線で接続するためのインターフェースであり、制御回路34は、PC3の各デバイスに制御信号を送り、データ処理などを行なう中央制御ユニットである。
メモリ35は、音声認識辞書を作成するためのツールやナビゲーション装置1で用いられている音声認識エンジンに関する情報などが記憶される記憶装置である。表示装置36は、PC3による演算結果などを表示するディスプレイである。
サーバ4の内部構成については図示しないが、図4に示したPC3のブロック図と同様である。
[2 処理]
以下、本実施形態のナビゲーション装置1、外部オーディオ機器2、PC3、サーバ4が実行する処理につき、順に説明する。
図5は、ナビゲーション装置1の制御回路16が実行する処理を示すフローチャートである。ナビゲーション装置1の制御回路16は、ユーザが外部オーディオ機器2の外部機器接続I/F22とナビゲーション装置1の外部オーディオ機器接続I/F13とをケーブルで接続することでこの処理を開始する。
まずS100で、ナビゲーション装置1の制御回路16は、ナビゲーション装置1が有する音声認識エンジンに関する情報(以下「音声認識エンジン情報」という。)が外部オーディオ機器2に記憶されているか否かを判断する。具体的には、制御回路16が外部オーディオ機器2に音声認識エンジン情報についての問い合わせを行う信号を送信し、外部オーディオ機器2から返信される信号により、音声認識エンジン情報の有無を判断する。
ここでいう音声認識エンジン情報とは、ナビゲーション装置1のメーカや機種などによって依存する音声認識エンジンの種類を特定することができるデータを示しており、かかるデータがあればナビゲーション装置1がどの音声認識エンジンを用いているのかが特定できることになる。この音声認識エンジン情報により、その音声認識エンジンが音声認識に際して参照する音声認識辞書を作成するためのツール(ソフトウエア)を特定できる。
S100で、外部オーディオ機器2に音声認識エンジン情報が記憶されていれば(S100:YES)、S110に進み、外部オーディオ機器2に音声認識エンジン情報が記憶されていなければ(S100:NO)、S160に進む。
S110では、ナビゲーション装置1が有する音声認識エンジン情報と外部オーディオ機器2に記憶されている音声認識エンジン情報とが同一か否かを判断する。すなわち、ナビゲーション装置1の制御回路16が、外部オーディオ機器2から、音声認識エンジン情報を受信し、ナビゲーション装置1が有するエンジン情報と比較して一致するか否かにより判断する。
S110でナビゲーション装置1が有する音声認識エンジン情報と外部オーディオ機器2に記憶されている音声認識エンジン情報とが同一であれば(S110:YES)、S120に進み、同一でなければ(S110:NO)、S160に進む。
S120では、外部オーディオ機器2にコンテンツデータとして記憶されている楽曲や動画に対応する音声認識辞書(音認辞書)が外部オーディオ機器2内に存在するか(記憶しているか)否かを判断する。すなわち、制御回路16が、外部オーディオ機器2に対し、音声認識辞書の存在を問い合わせる信号を送り、これに対して外部オーディオ機器2から返信される確認信号により判断する。
なお楽曲や動画などのコンテンツデータに対応した音声認識辞書とは、通常楽曲であれば、タイトル、アーティスト名、アルバム名、ジャンルなどの文字データに対応した発話音声データから音声認識に必要な特徴部分を取り出したものであり、ユーザの発話音声と比較することで、楽曲を特定することができる。以下特に楽曲について説明するが、動画についても同様の処理となる。
S120で、外部オーディオ機器2に記憶されている楽曲に対応して、全ての音声認識辞書が記憶されている場合(S120:全て有り)、S130に進み、S130では外部オーディオ機器2に記憶されている音声認識辞書をデータ通信により全て取得し、ナビゲーション装置1のメモリ17に記憶して、処理を終了する。
S120で、外部オーディオ機器2に記憶されている楽曲に対応して、一部の音声認識辞書が記憶されている場合(S120:一部有り)、S140に進み、S140では外部オーディオ機器2に記憶されている音声認識辞書をデータ通信により取得し、ナビゲーション装置1のメモリ17に記憶して、S150に進む。
S150では、外部オーディオ機器2に記憶されていない音声認識辞書を作成するため、外部オーディオ機器2に記憶されている残りの楽曲の情報(タイトル、アーティスト名アルバム名、ジャンルなど)を外部オーディオ機器2からデータ通信により取得して、ナビゲーション装置1の制御回路16が残りの楽曲などに対する音声認識辞書を作成し(S150)、処理を終了する。楽曲の情報から音声認識辞書を作成するプロセスは、ナビゲーション装置1のメモリ17に音声認識辞書を作成するためのツール(ソフトウエア)が予め記憶されており、そのツールを制御回路16が実行することで行われる。ツールがどのようにして音声認識辞書を作成するのかについては周知の方法を使うものであり、ここでは詳述しない。
S100で、音声認識エンジン情報が外部オーディオ機器2に記憶されていない場合(S100:NO)及びS110で、外部オーディオ機器2に記憶されている音声認識エンジン情報がナビゲーション装置1の有する音声認識エンジン情報と同一でない場合(S110:NO)、S160に進む。
S160では、ナビゲーション装置1が有する音声認識エンジン情報を外部オーディオ機器2に送信する。すなわち、ナビゲーション装置1で用いる音声認識エンジンを特定できる情報が外部オーディオ機器2に記憶されていないため、音声認識エンジン情報を外部オーディオ機器2に送信して、外部オーディオ機器2側で音声認識エンジンに適合した音声認識辞書が作成できるようにする。具体的には外部オーディオ機器2が音声認識エンジンに適合する音声認識辞書作成ツールを取得して、そのツールを実行することになる。このS160の処理の後、S170に進む。
またS120で、外部オーディオ機器2に記憶されている楽曲に対応する音声認識辞書が一つもない場合(S120:一つも無い)も、S170に進む。
S170では、外部オーディオ機器2に記憶されている楽曲の情報を取得して、ナビゲーション装置1の制御回路16が楽曲に対応する音声認識辞書を作成して、処理を終了する。
図6は、外部オーディオ機器2の制御回路23が、ナビゲーション装置1に接続した状態で実行する処理を示すフローチャートである。外部オーディオ機器2の制御回路23は、ユーザによりナビゲーション装置1の外部オーディオ機器接続I/F13と外部オーディオ機器2の外部機器接続I/F22とがケーブルにより接続されることでこの処理を開始する。
まずS200で、ナビゲーション装置1に記憶されている音声認識エンジン情報と外部オーディオ機器2のメモリ24に記憶されている音声認識エンジン情報とが同一か否かを判断する。メモリ24に音声認識エンジンが記憶されていない場合は同一でないと判断される。
ナビゲーション装置1に記憶されている音声認識エンジン情報と外部オーディオ機器2のメモリ24に記憶されている音声認識エンジン情報と同一であれば(S200:YES)、S210に進み、同一でなければ(S200:NO)、S250に進む。
S210では、対応する音声認識辞書が外部オーディオ機器2のメモリ24に記憶されているか否かを判断する。
S210で、メモリ24が楽曲などに対応する全ての音声認識辞書を記憶している場合(S210:全て有り)、S220に進み、S220でメモリ24が記憶している音声認識辞書を全てナビゲーション装置1に送信して、処理を終了する。
S210で、メモリ24に楽曲に対応する一部の音声認識辞書が記憶されている場合(S210:一部有り)、S230に進む。
S230では、メモリ24に記憶されている音声認識辞書をナビゲーション装置1に送信し、S240に進む。
S240では、ナビゲーション装置1側で外部オーディオ機器2のメモリ24に記憶されていない音声認識辞書を作成するため、外部オーディオ機器2のメモリ24が記憶している残りの楽曲の情報をナビゲーション装置1に送信し、処理を終了する。
一方、S200で、ナビゲーション装置1に記憶されている音声認識エンジン情報と外部オーディオ機器2のメモリ24に記憶されている音声認識エンジン情報とが同一でなければ(S200:NO)、S250に進み、S250で、ナビゲーション装置1から音声認識エンジン情報を取得して、S260に進む。
またS210で、外部オーディオ機器2のメモリ24に記憶されている楽曲などに対応する音声認識辞書が一つも無い場合(S210:一つも無い)も、S260に進む。
S260では、外部オーディオ機器2のメモリ24に記憶されている楽曲などの情報をナビゲーション装置1に送信して、処理を終了する。
図7は、外部オーディオ機器2の制御回路23が、PC3に接続した状態で実行する処理を示すフローチャートである。外部オーディオ機器2の制御回路23は、ユーザにより外部オーディオ機器2の外部機器接続I/F22とPC5の外部機器接続I/F32とがケーブルで接続され、外部オーディオ機器2を音声認識により操作可能とするために音声認識辞書を作成するためのプログラムが実行されることで、この処理を開始する。
まずS300で、外部オーディオ機器2のメモリ24に音声認識エンジン情報が記憶されているか否かを判断する。メモリ24に音声認識エンジンが記憶されていなければ(S300:NO)、S310に進み、音声認識エンジンが記憶されていれば(S300:YES)、S320に進む。
S310では、PC5から全ての音声認識エンジンに対応できる全てのツールを通信により受信して、メモリ24に記憶する。その後、S330に進む。
一方、S320では、メモリ24に記憶されている音声認識エンジン情報に対応したツールがメモリ24に記憶されているか否かを判断する。具体的には、メモリ24に記憶されているツールのバージョンデータを参照するなどの方法で、メモリ24に記憶されている音声認識エンジン情報との対応を確認する。ツールが記憶されていない場合は、対応するツールが記憶されていないと判断される。対応したツールが記憶されている場合(S320:YES)、S330に進み、対応したツールが記憶されていない場合(S320:NO)、S340に進む。
S330では、メモリ24に記憶されている楽曲などのコンテンツデータから全ての音声認識辞書が作成されているか否かを判断する。楽曲から音声認識辞書が全て作成されていれば(S330:YES)、そのまま処理を終了する。楽曲などから全ての音声認識辞書が作成されていなければ(S330:NO)、S350に進む。
一方、S340では、PC3から、メモリ24が記憶している音声認識エンジン情報に対応するツールを通信により取得して、メモリ24に記憶する。具体的には音声認識エンジン情報をPC3に送り、PC3から対応するツールを受信することにより行う。その後、S350に進む。
S350では、外部オーディオ機器2の制御回路23が、メモリ24に記憶しているツールを実行し、楽曲の情報(タイトル、アーティスト、アルバム、ジャンルなど)を基に音声認識辞書を作成し、処理を終了する。なお、S310により全てのツールを取得した場合は、全ての音声認識エンジンに対応できる音声認識辞書を作成することになる。そして、この場合はナビゲーション装置1の制御回路16は、図6に示したフローチャートに代えて、ナビゲーション装置1のメモリ17に記憶されている音声認識エンジン情報に対応する音声認識辞書だけを選択した上で、選択した音声認識辞書を取得することになる。
図8は、PC3の制御回路34が、外部オーディオ機器2を接続した状態で実行する処理を示すフローチャートである。PC3の制御回路34は、ユーザによりPC5の外部機器接続I/F32と外部オーディオ機器2の外部機器接続I/F22とがケーブルにより接続され、所定のプログラムが実行されることで、この処理を開始する。
まずS400で、PC3のメモリ35に、外部オーディオ機器2に記憶されている音声認識エンジン情報と同一の音声認識エンジン情報が記憶されているか否かを判断する。具体的には、PC3の制御回路34が、外部オーディオ機器2に対し、音声認識エンジン情報を問い合わせ、メモリ35に同一の音声認識エンジンが記憶されているか否かを比較して判断する。メモリ35に音声認識エンジン情報が記憶されていれば(S400:YES)、S410に進み、音声認識エンジン情報が記憶されていなければ(S400:NO)、S440に進む。
S410では、最新のバージョンのツールをダウンロードする準備として、旧バージョンとなって不要なツールを削除して、S420に進む。
S420では、サーバ4より音声認識エンジン情報から、最新のバージョンのツールをダウンロードして、S430に進む。
S430では、音声認識エンジン情報に対応したツールの最新バージョンが外部オーディオ機器2に記憶されているか否かを判断する。具体的には、S420でダウンロードしたツールと外部オーディオ機器2に記憶されているツールとを比較することにより行う。最新バージョンが外部オーディオ機器2に記憶されていれば(S430:YES)、そのまま処理を終了する。最新バージョンが外部オーディオ機器2に記憶されていなければ(S430:NO)、S490に進む。
一方、S400で、メモリ35に、外部オーディオ機器2に記憶されている音声認識エンジン情報と同一の音声認識エンジンが記憶されていなければ(S400:NO)、S440に進み、S440で、外部オーディオ機器2に対し、音声認識エンジン情報を取得する命令を送り、S450に進む。
S450では、外部オーディオ機器2から音声認識エンジン情報を取得できたか否かを判断する。音声認識エンジン情報を取得できれば(S450:YES)、S410に進む。外部オーディオ機器2に音声認識エンジン情報が記憶されていないなど、音声認識エンジン情報を取得できなければ(S450:NO)、S460に進む。
S460では、最新のバージョンのツールをダウンロードする準備として、旧バージョンの不要なツールを削除し、S470に進む。
S470では、サーバ4から全ての音声認識エンジンについてのツールをダウンロードし、S480に進む。
S480では、全ての音声認識エンジン情報に対応したツールの最新バージョンが外部オーディオ機器2に記憶されているか否かを判断する。全てのツールの最新バージョンが記憶されていれば(S480:YES)、そのまま処理を終了する。ツールの最新バージョンが記憶されていなければ(S490:NO)、S490に進む。
S490では、ツールの最新版をPC3から外部オーディオ機器2に送信し、処理を終了する。
図9は、サーバ4の制御回路(図示せず)が、PC3との通信を行なう際に実行する処理を示すフローチャートである。サーバ4の制御回路は、PC3からのアクセスがあって処理を開始する。
まずS500で、PC3からのアクセス要求信号を受信し、S510に進む。
S510で、PC3からナビゲーション装置1の音声認識エンジン情報を取得できたか否かを判断する。音声認識エンジン情報を取得できれば(S510:YES)、S520に進み、音声認識エンジン情報を取得できなければ(S510:NO)、S540に進む。
S520では、サーバ4が記憶している最新バージョンのツールとPC3が記憶しているツールとが一致するか否かを判断する。具体的には例えば、PC3からツールの情報(バージョン情報)を取得する。この場合PC3がツールにツールが記憶されていない場合は両者が一致しないと判断する。両者が一致していれば(S520:YES)、そのまま処理を終了し、両者が一致していなければ(S520:NO)、S530に進む。
S530では、サーバ4からPC3が要求する音声認識エンジン情報に対応するツールをPC3に配信し、処理を終了する。
S540では、サーバ4から全ての音声認識エンジンに対応できる全てのツールをPC3に配信し、処理を終了する。
[3 効果]
以上説明したとおり本実施形態の音声認識システムによれば、音声認識辞書をナビゲーション装置1内部で作成するのではなく外部オーディオ機器2内部で作成してから取得するので、外部オーディオ機器2が発話音声により操作可能となるまでの時間を短縮することができる。
しかもその音声認識辞書は、一般に多数のデータとなる楽曲又は動画を内容とするコンテンツデータに対応するものであることから、時間短縮の効果は極めて大きい。
また、ナビゲーション装置1が記憶している音声認識エンジン情報が外部オーディオ機器2に送られ、音声認識エンジンに適合したツールを用いて音声認識辞書を作成するので、この操作がなされた場合は不要な音声認識辞書が作成されることなく、効率のよい準備が可能となる。
[4 特許請求の範囲との対応]
なお、本実施形態のナビゲーション装置1につき、S130及びS140を実行する制御回路16が辞書取得手段に相当し、S160を実行する制御回路16が辞書送信手段に相当する。
また外部オーディオ機器2につき、S220及びS230を実行する制御回路23が辞書送信手段に相当し、S250を実行する制御回路23が特定情報取得手段に相当し、S340を実行する制御回路23がツール取得手段に相当し、S350を実行する制御回路23が辞書作成手段に相当する。
[5 他の形態]
以上、本発明の一実施形態について説明したが、本発明は、種々の形態を採り得ることは言うまでもない。
例えば、本実施形態では、外部オーディオ機器2が楽曲や動画、ツールなどのデータをPC3からダウンロードする構成としたが、例えば、携帯電話や通信携帯端末などの機器であれば、PC3を介することなく、直接無線でインターネットやセンタのサーバなどに接続して、各種データをダウンロードする構成にしてもよい。
また本実施形態では、外部オーディオ機器2の内部でツールを実行して音声認識辞書を作成したが、これは例えばPC3でツールを実行してもよいし、サーバ4で予め作成した音声認識辞書をダウンロードなどにより受信する構成にしてもよい。
また本実施形態では、コンテンツデータとして特に楽曲とする場合について説明したが、動画でもよいし、その他、ワードプロセッサ、スプレッドシート、プレゼンテーション用スライドなどのファイル、ゲーム、ニュース、講演、娯楽などの音声データ、デジタルカメラなどで撮影した写真など画像データなどコンテンツデータになるものであればよい。
本発明の実施形態としての音声認識システムの全体構成を示すブロック図である。 ナビゲーション装置の内部構成を示すブロック図である。 外部オーディオ機器の内部構成を示すブロック図である。 パーソナルコンピュータの内部構成を示すブロック図である。 ナビゲーション装置の制御回路が実行する処理を示すフローチャートである。 外部オーディオ機器の制御回路が、ナビゲーション装置に接続した状態で実行する処理を示すフローチャートである。 外部オーディオ機器の制御回路が、パーソナルコンピュータに接続した状態で実行する処理を示すフローチャートである。 パーソナルコンピュータの制御回路が、外部オーディオ機器を接続した状態で実行する処理を示すフローチャートである。 サーバの制御回路が、パーソナルコンピュータとの通信を行なう際に実行する処理を示すフローチャートである。
符号の説明
1…ナビゲーション装置、2…外部オーディオ機器、3…PC、4…サーバ、11…位置検出器、12…操作スイッチ群、13…外部オーディオ機器接続I/F、14…ステアリングSW、15…マイク、16…制御回路、17…メモリ、18…タッチパネル、21…操作スイッチ群、22…外部機器接続I/F、23…制御回路、24…メモリ、25…表示装置、31…操作スイッチ群、32…外部機器接続I/F、33…ネットワーク接続I/F、34…制御回路、35…メモリ、36…表示装置

Claims (9)

  1. ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置であって、
    コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する辞書取得手段を備えたこと
    を特徴とする音声認識装置。
  2. 当該音声認識装置が有する音声認識エンジンの種類を特定可能な特定情報を前記端末機器に送信する特定情報送信手段を備えたこと
    を特徴とする請求項1記載の音声認識装置。
  3. 前記辞書取得手段は、楽曲及び動画の少なくとも一方を内容とするコンテンツデータを発話音声で特定可能とする音声認識辞書を取得することを特徴とする請求項1又は2記載の音声認識装置。
  4. 内部の記憶装置にコンテンツデータが記憶された端末機器であって、
    ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する辞書送信手段を備えたこと
    を特徴とする端末機器。
  5. 前記音声認識装置が有する音声認識エンジンの種類を特定可能な特定情報を前記音声認識装置から取得する特定情報取得手段を備え、
    前記辞書送信手段は、前記特定情報取得手段により取得された特定情報に基づいて内部又は外部で作成された音声認識辞書を前記音声認識装置に送信すること
    を特徴とする請求項4記載の端末機器。
  6. 前記特定情報取得手段により取得された特定情報をもとに音声認識辞書を作成するためのツールを外部から取得するツール取得手段と、
    前記ツール取得手段により取得されたツールを用いて前記コンテンツデータを特定可能な音声認識辞書を作成する辞書作成手段と
    を備えたことを特徴とする請求項5記載の端末機器。
  7. 当該端末機器は、その内部の記憶装置に楽曲及び動画の少なくとも一方を内容とするコンテンツデータとして記憶していることを特徴とする請求項4乃至6のいずれか記載の端末機器。
  8. ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行う音声認識装置としてコンピュータを機能させる音声認識装置用プログラムであって、
    コンテンツデータが記憶され、当該音声認識装置とデータ通信可能な状態においてユーザの発話音声により操作可能となる端末機器とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその端末装置から取得する辞書取得手段としてコンピュータを機能させることを特徴とする音声認識装置用プログラム。
  9. 内部の記憶装置にコンテンツデータが記憶された端末機器としてコンピュータを機能させる端末機器用プログラムであって、
    ユーザの発話音声を入力し、内部の記憶装置に記憶された音声認識辞書を参照することによりその入力した発話音声の音声認識を行うとともに、当該端末機器とデータ通信可能な状態において当該端末機器をユーザの発話音声により操作可能とする音声認識装置とデータ通信可能になったことを条件として、前記コンテンツデータを発話音声で特定可能とする音声認識辞書をその音声認識装置に送信する辞書送信手段としてコンピュータを機能させることを特徴とする端末機器用プログラム。
JP2008224974A 2008-09-02 2008-09-02 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム Expired - Fee Related JP5120158B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008224974A JP5120158B2 (ja) 2008-09-02 2008-09-02 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008224974A JP5120158B2 (ja) 2008-09-02 2008-09-02 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム

Publications (2)

Publication Number Publication Date
JP2010060720A true JP2010060720A (ja) 2010-03-18
JP5120158B2 JP5120158B2 (ja) 2013-01-16

Family

ID=42187608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008224974A Expired - Fee Related JP5120158B2 (ja) 2008-09-02 2008-09-02 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム

Country Status (1)

Country Link
JP (1) JP5120158B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11317063A (ja) * 1998-04-30 1999-11-16 Clarion Co Ltd カーオーディオシステム及びその制御方法並びにカーオーディオシステム制御用プログラムを記録した記録媒体
WO2002001550A1 (fr) * 2000-06-26 2002-01-03 Mitsubishi Denki Kabushiki Kaisha Procede et systeme de commande d'un dispositif
JP2006276460A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声認識用辞書配信システム、音声認識用辞書配信方法及び音声認識用辞書配信プログラム
JP2008139438A (ja) * 2006-11-30 2008-06-19 Fujitsu Ltd 音声処理装置、端末装置、音声情報管理装置、および、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11317063A (ja) * 1998-04-30 1999-11-16 Clarion Co Ltd カーオーディオシステム及びその制御方法並びにカーオーディオシステム制御用プログラムを記録した記録媒体
WO2002001550A1 (fr) * 2000-06-26 2002-01-03 Mitsubishi Denki Kabushiki Kaisha Procede et systeme de commande d'un dispositif
JP2006276460A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声認識用辞書配信システム、音声認識用辞書配信方法及び音声認識用辞書配信プログラム
JP2008139438A (ja) * 2006-11-30 2008-06-19 Fujitsu Ltd 音声処理装置、端末装置、音声情報管理装置、および、プログラム

Also Published As

Publication number Publication date
JP5120158B2 (ja) 2013-01-16

Similar Documents

Publication Publication Date Title
US11900936B2 (en) Electronic devices with voice command and contextual data processing capabilities
US9587958B2 (en) Mobile device gateway systems and methods
JP6501217B2 (ja) 情報端末システム
JP5821639B2 (ja) 音声認識装置
US20070233725A1 (en) Text to grammar enhancements for media files
RU2425329C2 (ru) Навигационное устройство и способ для приема и воспроизведения звуковых образцов
CN102024013A (zh) 启动包括第一功能和第二功能的多个功能的系统和方法
CN104205038A (zh) 信息处理设备,信息处理方法,信息处理程序和终端设备
JP2009300537A (ja) 音声作動システム、音声作動方法および車載装置
EP2750026B1 (en) Audio device
CN107341158A (zh) 多媒体文件的信息获取方法、装置和设备
JP2009276081A (ja) ナビゲーション装置及び情報提供方法
CN110767219B (zh) 语义更新方法、装置、服务器和存储介质
Tashev et al. Commute UX: Voice enabled in-car infotainment system
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
JP5120158B2 (ja) 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム
JP5626794B2 (ja) 車載機器システム及び該車載機器システムを構成する車載機器及び携帯端末
JP6710460B2 (ja) 電子装置および楽曲再生システム
JP2011095498A (ja) 車載情報処理装置及び車載情報処理方法
JP2021156992A (ja) 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム
JP2006284677A (ja) 音声案内装置、音声案内装置の制御方法及び制御プログラム
JP6733751B2 (ja) 車載装置、車載装置の制御方法および制御プログラム
US20110093545A1 (en) Voice-activated acquisition of non-local content
JP2006338323A (ja) オーディオ装置、電子メール送信方法及びプログラム
JP2008152417A (ja) 情報取得装置及び情報取得プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees