JP5739899B2

JP5739899B2 - 車載オーディオ装置における語彙辞書の再編集

Info

Publication number: JP5739899B2
Application number: JP2012542082A
Authority: JP
Inventors: フアン、リッチー; ヤマモト、スチュアート、エム．; キルシュ、デイヴィッド、エム．
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2009-12-01
Filing date: 2010-11-22
Publication date: 2015-06-24
Anticipated expiration: 2030-11-22
Also published as: US9045098B2; JP2013512477A; EP2507792A1; EP2507792B1; WO2011068706A1; US20110131037A1

Description

本発明は、概して、オーディオ・コンテンツを車載オーディオ装置の記憶装置に追加したり、記憶装置から削除したりすることが出来る方法及び車載オーディオ装置に関するものである。

スピーチ認識システムは、ユーザが話した言葉を音声によって特定するために、一つ以上の語彙辞書を使用する。例えば、車載オーディオ装置などのスピーチ認識システムにおいては、音楽や他のオーディオ・コンテンツなどのオーディオ・コンテンツを車載オーディオ装置に追加したり、車載オーディオ装置から削除したりすることが出来る。オーディオ・コンテンツの各アイテムは、その各アイテムに関連する単語やフレーズを有する場合もある。その単語やフレーズは、オーディオ・コンテンツのそのアイテムのタイトルの場合もある。ユーザは、コマンドを発することにより、車載オーディオ装置に、オーディオ・コンテンツのアイテムを再生させることが出来る。そのコマンドは、オーディオ・コンテンツのそのアイテムのタイトルを含む場合もある。そのため、オーディオ・コンテンツのアイテムが車載オーディオ装置に加えられたり、車載オーディオ装置から削除されると、語彙辞書を編集しないかぎり、スピーチ認識システムの語彙辞書は、次第に古くなっていく。しかしながら、語彙辞書の編集には時間がかかる場合もあり、その間ユーザは車載オーディオ装置のスピーチ認識機能を使用できない場合もある。

この要約は、以降の「発明を実施するための形態」で説明する、本発明の複数のコンセプトから選んだいくつかのコンセプトを、簡単な形式で紹介するものである。この要約は、特許請求する主題の主な特徴や本質的な特徴を特定するためのものではなく、また、特許請求する主題の範囲を限定するものでもない。

ユーザが、コマンドを発することにより、車載オーディオ装置を操作することが可能な車載オーディオ装置を提供する。車載オーディオ装置は、スピーチ認識部と、オーディオ・コンテンツを記憶するための記憶媒体を備える記憶装置を有する。記憶されたオーディオ・コンテンツの各アイテムには、単語やフレーズが関連づけられている。いくつかの実施形態においては、オーディオ・コンテンツは、歌や音楽の作品を含む場合もある。（その場合）、ユーザの、例えば、「再生」などのコマンドや他のコマンドの発話と、その後の、オーディオ・コンテンツのアイテムの一つに対応する単語やフレーズの発話に応じて、車載オーディオ装置は、オーディオ・コンテンツのアイテムの一つを再生することが出来る。

オーディオ・コンテンツは、コンパクト・ディスク（ＣＤ）、デジタル・ヴァーサタイル・ディスク（ＤＶＤ）などの記憶媒体、または他の型式の記憶媒体から、車載オーディオ装置の記憶装置の記憶媒体にコピーしたりすることが出来る。さらに、記憶装置の記憶媒体に記憶されたオーディオ・コンテンツは削除することもできる。

オーディオ・コンテンツが車載オーディオ装置に加えられるとき、そのオーディオ・コンテンツに対応する単語やフレーズに合致する音声データが生成される。語彙辞書が編集されたとき、車載オーディオ装置が、その生成された音声データに対応する言葉やフレーズを含んだ発話を認識できるように、生成された音声データは語彙辞書に追加される。様々な実施形態において、生成された音声データを追加する語彙辞書の編集は、オーディオ・コンテンツが車載オーディオ装置に追加されている間に始まり、車載オーディオ装置へのオーディオ・コンテンツの追加が完了する前に終了する。

いくつかの実施形態においては、オーディオ・コンテンツが車載オーディオ装置から削除されるとき、車載オーディオ装置のシャットダウン処理の間に語彙辞書を編集して、更新してもよい。また、他の実施形態においては、オーディオ・コンテンツが車載オーディオシステムから削除されることが決定した直後に、語彙辞書を編集してもよい。

上述した利点、特徴および他の利点、特徴が得られる方法を説明するために、添付の図面に記載された、具体的な実施形態を参照することにより、より具体的な説明を以降の記載において行う。これらの図面は、典型的な実施形態のみを表わしたものであり、特許請求の範囲を限定するものとして解釈すべきではないことを理解されたい。添付の図面は、それを使用することにより、本発明の実装をより詳細に説明するためのものである。

車載オーディオ装置の実施形態の機能的ブロック図を示す図である。図１に示したオーディオ入力装置の実施形態をより詳細に説明する図である。記憶媒体から車載オーディオ装置へオーディオ・コンテンツをコピーする際のスケジュールの一例を示す図である。車載オーディオ装置の様々な実施形態において、オーディオ・コンテンツ削除のコマンドの受信に対して、語彙辞書が編集されるタイミングを例示した図である。車載オーディオ装置の様々な実施形態において、オーディオ・コンテンツ削除のコマンドの受信に対して、語彙辞書が編集されるタイミングを例示した図である。様々な実施形態の車載オーディオ装置１００へのオーディオ・コンテンツの追加や、車載オーディオ装置１００からのオーディオ・コンテンツの削除に関する処理の一例を示すフローチャートである。様々な実施形態の車載オーディオ装置１００へのオーディオ・コンテンツの追加や、車載オーディオ装置１００からのオーディオ・コンテンツの削除に関する処理の一例を示すフローチャートである。車載オーディオ装置の一実施形態において、オーディオ・コンテンツ削除のコマンドの受信に応じて、シャットダウン処理の間に語彙辞書を編集する処理の一例を示すフローチャートである。

［概要］
コマンドを発話することによって、ユーザが車載オーディオ装置を操作可能なように、車載オーディオ装置はスピーチ認識部を備えている。車載オーディオ装置は、オーディオ・コンテンツを記憶するための記憶媒体を有する記憶装置を備えている。オーディオ・コンテンツの各アイテムは、その各アイテムに関連づけられた単語やフレーズを有している。例えば、オーディオ・コンテンツのアイテムが歌や音楽の作品を含む実施形態においては、オーディオ・コンテンツのアイテムに対応する単語やフレーズは、そのアイテムのタイトルの場合もある。例えば、「再生」などのコマンドもしくは他の言葉のコマンドとそのアイテムに対応する単語やフレーズを単純に発することにより、ユーザは、車載オーディオ装置にオーディオ・コンテンツのアイテムの一つを再生させることが出来る。

車載オーディオ装置は、例えば、コンパクト・ディスク（ＣＤ）、デジタル・ヴァーサタイル・ディスク（ＤＶＤ）などの記憶媒体、他の型式の光学式記憶媒体もしくは他の型式の記憶媒体からオーディオ・コンテンツを、車載オーディオ装置の記憶装置の媒体へコピーすることが出来る。さらに、記憶装置の記憶媒体のオーディオ・コンテンツは、記憶装置の記憶媒体に他のオーディオ・コンテンツを記憶するための空き容量を作るために、削除することもできる。

オーディオ・コンテンツが車載オーディオ装置に追加されると、そのオーディオ・コンテンツに対応する、追加される単語やフレーズが決定され、その単語やフレーズに合致する音声データが生成される。後でスピーチ認識部が、その生成された音声データに対応する単語やフレーズを含む発話を認識できるように、その生成された音声データは、語彙辞書が編集されたときに語彙辞書に追加される。様々な実施形態において、オーディオ・コンテンツが車載オーディオ装置に追加されている間に、生成された音声データを追加する語彙辞書の編集が始まり、オーディオ・コンテンツの車載オーディオ装置への追加が完了する前に終了する。したがって、オーディオ・コンテンツの車載オーディオ装置への追加が完了すると、車載オーディオ装置のスピーチ認識部は、追加されたオーディオ・コンテンツに関連づけられた単語やフレーズを認識できるようになる。

いくつかの実施形態においては、オーディオ・コンテンツが車載オーディオ装置から削除されると、語彙辞書は車載オーディオ装置のシャットダウン処理の間に編集されて更新される。このシャットダウン処理は、例えば、エンジンを切るイベントや他のイベントなどの、ある特定のイベントの発生を検知することによって、始まる。そのため、語彙辞書の編集に時間がかかる実施形態においては、シャットダウン処理の間に語彙辞書を編集し、それにより、辞書の編集の間にスピーチ認識機能が使用不可能になることをユーザに気づかれないようにすることが可能となる。

いくつかの実施形態においては、語彙辞書は、多くの異なる部分に整理される。その複数の部分は、オーディオ・コンテンツのそれぞれのアイテムに対応する単語やフレーズによって、アルファベット順に整理されたり、オーディオ・コンテンツのアイテムのジャンルによって整理されたり、または、他の方法によって整理される。例えば、オーディオ・コンテンツのアイテムが音楽を含んでいた場合、語彙辞書の複数の部分は、例えば、クラシック、ロック、ジャズ、ポップス、オールデイーズなどの音楽ジャンルに対応させて整理される。例としては、「ロック」のジャンルに属するオーディオ・コンテンツのアイテムに対応する単語やフレーズに合致する音声データは、ロックのジャンルに対応する語彙辞書の部分に含まれる。「ロック」のジャンルに属するオーディオ・コンテンツの一つのアイテムを車載オーディオ装置に追加する場合、語彙辞書のロックのジャンルに対応する部分のみを編集することにより、そのオーディオ・コンテンツの各アイテムに対応する単語やフレーズに合致する音声データを語彙辞書に追加する。

同様に、「ロック」のジャンルのオーディオ・コンテンツのアイテムを車載オーディオ装置から削除する場合、ロックのジャンルの語彙辞書に対応する部分のみを編集してもよい。語彙辞書の一つの部分のみが編集される場合、もしくは、２つ以上の部分が編集される場合でも、編集が完了するまでにかかる時間は、語彙辞書の全てを編集するよりも短い。語彙辞書の全部分の一部のみが編集可能な実施形態においては、オーディオ・コンテンツの一つ以上のアイテムが車載オーディオ装置から削除される場合、そのオーディオ・コンテンツの一つ以上のアイテムが削除されるのとほぼ同時に語彙辞書を編集してもよい。

（装置の一例）
図１は、車載オーディオ装置１００の実施形態の一例を示す機能ブロック図である。車載オーディオ装置１００は、プロセッサ１０２、メモリ１０４、コマンド入力装置１０６、記憶装置１０８、音声出力装置１１２、音声入力装置１１４、スピーチ認識部１１８、そしてコンパイラ１２２を備えている。

プロセッサ１０２は、メモリ１０４、メデイアカード、フラッシュＲＡＭなどの記憶媒体、またはその他の記憶媒体に記憶された指令を解釈し、実行する従来型のプロセッサを一つ以上備えていてもよい。有形の記憶媒体は、メモリ、メディアカード、フラッシュカードまたは他の記憶媒体を含んでいる。メモリ１０４は、プロセッサ１０２が実行する指令や情報を記憶するためのランダムアクセスメモリ（ＲＡＭ）や他の型式の動的記憶装置、リードオンリーメモリー（ＲＯＭ）や他の型式の静的記憶装置を含んでいる。ＲＡＭやその他の型式の動的記憶装置は、指令と同様に、プロセッサ１０２が指令を実行している最中に使われる、一時的な変数や他の中間情報を記憶する。ＲＯＭや、他の型式の不変記憶装置は、プロセッサ１０２が実行する不変情報や指令を記憶する。

コマンド入力装置１０６は、音声入力用のマイクロフォン、一つ以上のハードボタンもしくはソフトボタン、キーボード、タッチスクリーン、もしくは他の入力装置を含んでいる。

記憶装置１０８は、例えば音楽などのオーディオ・コンテンツや他のオーディオ・コンテンツを記憶するための記憶媒体１１０を備えている。一実施形態においては、記憶装置１０８は、ハードディスクドライブであり、記憶媒体１１０は、ハードディスクであってもよい。

音声出力機器１１２は、オーディオ・コンテンツを出力するために、一つ以上のスピーカー、ヘッドセットを備えていてもよいし、もしくは他の音声再生機器を備えていてもよい。

音声入力装置１１４は、オーディオ・コンテンツを車載オーディオ装置１００に入力することができる。作動時には、音声入力装置１１４は、オーディオ・コンテンツを表わしたデータを記憶する記憶媒体１１６を含んでいる。一実施形態においては、音声入力装置１１４は、例えば、コンパクト・ディスク（ＣＤ）リーダもしくはデジタル・ヴァーサタイル・ディスク（ＤＶＤ）リーダーなどの光学式記憶媒体読取装置を備えており、記憶媒体１１６は、ＣＤもしくはＤＶＤである。

スピーチ認識部１１８は、音声入力を認識し、認識した音声をテキストに変換することができる。スピーチ認識部１１８は、語彙辞書１２０を備えていてもよい。語彙辞書１２０は、コマンドや単語、フレーズに合致する音声データを有している。一つ一つの単語やフレーズは、オーディオ・コンテンツに関連付けられている。例えば、オーディオ・コンテンツの一つのアイテムが音楽である場合、そのアイテムに対応する単語、フレーズが、オーディオ・コンテンツのそのアイテムのタイトルである場合もある。いくつかの実施形態においては、スピーチ認識部１１８は、プロセッサ１０２によって実行される一つ以上のソフトウエアモジュールを含んでいる。

コンパイラ１２２は、車載オーディオ装置１００に追加されているオーディオ・コンテンツに対応する単語やフレーズに合致する音声データを追加したり、車載オーディオ装置１００から削除されるオーディオ・コンテンツに対応する単語やフレーズに合致する音声データを削除するために、語彙辞書１２０の少なくとも１部を編集することができる。

図２は、音声入力装置１１４の一実施形態２００を図示している。実施形態２００は、オーディオ・コンテンツが記憶された記憶媒体２０２を受けることが出来る。実施形態２００は、記憶媒体２０２からオーディオ・コンテンツを読み取り、データベース２０４にアクセスして、車載オーディオ装置１００に追加されるオーディオ・コンテンツの各アイテムに対応する単語やフレーズを決定することができる。そして、実施形態２００は、テキスト・トゥ・スピーチ（ＴＴＳ）エンジン２０６もしくは他の手段を介して、その単語やフレーズを音声データ２０８に変換することが出来る。音声データ２０８は、語彙辞書１２０を編集して、オーディオ・コンテンツの一つ以上のアイテムに関連づけられた一つ以上の単語またはフレーズに合致する音声データ２０８を追加する際に、コンパイラ１２２への入力として提供される。

図２は、音声データ２０８を生成するために、データベース２０４とＴＴＳエンジン２０６が音声入力装置１１４の実施形態２００に含まれているものとして図示しているが、他の実施形態においては、データベース２０４とＴＴＳエンジン２０６は、音声入力装置１１４に含まれていなくてもよい。代りに、データベース２０４とＴＴＳエンジン２０６は、車載オーディオ装置１００の機能部として備えられていてもよい。ＴＴＳエンジン２０６は、例えば、プロセッサ１０２などのプロセッサが実行する命令を含む、一つ以上のソフトウエアモジュールを含んでいる。

図３は、記憶媒体からオーディオ・コンテンツを、車載オーディオ装置１００にコピーする際のスケジュールの一例を示している。記憶媒体は、ＣＤやＤＶＤなどの光学式記憶媒体や、他の型式の記憶媒体を含んでいる。その記憶媒体は、音声入力装置１１４（３０２）に搭載したり、音声入力装置１１４に挿入することができる。音声入力装置１１４は、オーディオ・コンテンツを読み取って、車載オーディオ装置１００に追加されるオーディオ・コンテンツの各アイテムに対応する単語やフレーズを決定することができる。オーディオ・コンテンツの各アイテムに対応する単語やフレーズは、記憶媒体に記憶してもよいし、記憶媒体を「フィンガープリント」して、データベース検索を行うことにより、車載オーディオ装置１００や音声入力装置１１４によって判定してもよい。

フィンガープリントの一例として、記憶媒体がＣＤで、そのＣＤに記憶されているオーディオ・コンテンツが音楽のアイテムを含む場合を考えてみる。ＣＤをフィンガープリントすると、そのＣＤがＮ個の音楽アイテムを記憶しており、その一番目のアイテムがＩ_１の長さを有し、その後にＪ_１の長さのポーズが続き、二番目のアイテムがＩ_２の長さを有し、その後にＪ_２の長さのポーズが続く、などということを判定することができる。フィンガープリントが終了した後は、データベースクエリによって、そのＣＤとフィンガープリントが適合するデータ（つまり、データベースにおいて、アイテム１がＩ_１の長さを有し、その後にＪ_１の長さのポーズが続き、二番目のアイテムがＩ_２の長さを有し、その後にＪ_２の長さのポーズが続くＣＤと一致するデータ）が提供される。フィンガープリントが適合するデータが提供されることにより、ＣＤに記憶された音楽の各アイテムに対応する単語やフレーズなどの、ＣＤのコンテンツに関する情報が提供される。それぞれの単語やフレーズは、それらの音楽アイテムのタイトルである場合もある。

（その後）ＴＴＳエンジンを用いて、各音楽アイテムに対応するそれぞれの単語やフレーズに合致する音声データを生成することができる。その音声データは、語彙辞書１２０を編集するときにコンパイラ１２２への入力として提供される（３０４）。その後、コンパイラ１２２は語彙辞書１２０の編集を完了する（３０６）。

語彙辞書１２０が編集されている間は、スピーチ認識は利用できなくなる場合がある。音楽アイテムがコピーされている間、車載オーディオ装置１００へのスピーチ認識が利用できる場合もあるが、その場合でも、コピーしている音楽アイテムに対するスピーチ認識は利用出来ない場合がある。そのコピー処理が完了すると（３０８）、直近にコピーした音楽アイテムなどのオーディオ・コンテンツを含んだ、車載オーディオ装置１００に記憶されている全てのオーディオ・コンテンツについてスピーチ認識が再び利用可能となる。

上述した例は、ＣＤから音楽アイテムをコピーする場合について説明したが、他の実施形態においては、オーディオ・コンテンツのアイテムは、音楽を含んでいてもよいし、含んでいなくてもよく、オーディオ・コンテンツは、ＣＤとは異なる型式の記憶媒体からコピーしてもよい。そのＣＤとは異なる型式の記憶媒体は、上述したようにフィンガープリントして一致するデータを判定可能な記憶媒体であってもよい。

図３を参照して説明する本実施形態の変形例においては、記憶媒体に記憶された全てのオーディオ・コンテンツをコピーする代わりに、オーディオ・コンテンツの中から選択したアイテムのみをコピーしてもよい。例えば、ユーザは、記憶媒体からアイテム１、５、７のみをコピーするように、コマンド入力装置１０６を介して命令してもよい。そのような実施形態においては、コピーされるアイテムの一つ一つに対応する単語やフレーズを判定し、それらに合致する音声データを生成して、コンパイラ１２２に入力する。

図４は、車載オーディオ装置１００の一実施形態から、オーディオ・コンテンツのアイテムを削除する場合のタイミングの一例を示している。まず、ユーザは、コマンド入力装置１０６を使って、オーディオ・コンテンツのアイテムを削除したい意思を示す。その意思は、音声指示であってもよいし、キーボード、タッチパネル、もしくは他の入力手段を使ったものでもよい。例えば、音声でユーザの指示を入力する場合は、<単語>や<フレーズ>が削除するオーディオ・コンテンツのアイテムに対応する単語やフレーズであるとして、「<単語>または<フレーズ>を削除」と発話すればよい。

いくつかの実施形態においては、語彙辞書１２０の編集にはかなりの時間がかかる場合があり、その間、車載オーディオ装置１００のスピーチ認識機能が使用できなくなる場合がある。図４は、車載オーディオ装置１００からオーディオ・コンテンツのひとつ以上のアイテムの削除に対応して、語彙辞書１２０を編集する場合のタイミングの一例を示している。

オーディオ・コンテンツのひとつ以上のアイテムを削除する指示を受け付けると、そのひとつ以上のアイテムに合致する音声データがコンパイラ１２２に入力され、語彙辞書１２０は、シャットダウン処理の間に編集される（４０４）。シャットダウン処理は、例えば、エンジンを切るイベント（つまり、車載オーディオ装置１００を備える車両のエンジンを切った場合）などのイベントの発生（４００）を検知した後に開始する（４０２）。編集処理４０４は、シャットダウン処理が終了（４０８）する前に完了してもよい（４０６）。

他の実施形態においては、コンパイラ１２２は、語彙辞書１２０の一部のみを編集することもでき、それにより、コンパイラ１２２の編集処理の期間を短縮することが出来る。そのような実施形態では、語彙辞書１２０の音声データは、特定の方法で整理される。例えば、（オーディオ・コンテンツのアイテムに対応する単語やフレーズの）アルファベット順に整理する場合もあるし、ジャンルなどのカテゴリやその他のカテゴリに基づいて整理する場合もあるし、その他の方法で整理する場合もある。語彙辞書１２０は、数多くの部分を含んでいてもよい。例えば、語彙辞書１２０がアルファベット順に整理される場合は、第一部分は、「ａ」から「ｄ」までの文字から始まる単語やフレーズに合致する音声データを含んでおり、第二部分は、「ｅ」から「ｈ」までの文字から始まる単語やフレーズに合致する音声データを含む場合などが考えられる。この実施形態においては、語彙辞書１２０のうちの変更される部分のみをコンパイラ１２０によって編集することも出来る。

図５は、上述した実施形態における編集処理のタイミングの一例を示している。例えば、（まず）、車載オーディオ装置１００は、車載オーディオ装置１００に記憶されたオーディオ・コンテンツの一つ以上のアイテムを削除するコマンドを受信する（５００）。そのすぐ後に、車載オーディオ装置１００は、記憶装置１０８の記憶媒体１１０から、オーディオ・コンテンツの一つ以上のアイテムを削除する（５０２）。オーディオ・コンテンツのその一つ以上のアイテムの削除に関して、（削除と）同時、もしくはその直前や直後に、コンパイラ１２２は、オーディオ・コンテンツの中のその削除する一つ以上のアイテムに対応する、語彙辞書１２０の一つ以上の部分の編集を始める。編集処理を行っている間、車載オーディオ装置１００のスピーチ認識機能は利用出来なくなるが、編集処理が終了するとすぐに、スピーチ認識機能は再び利用可能となる（５０４）。

（処理の一例）
図６は、オーディオ・コンテンツの車載オーディオ装置１００への追加や、オーディオ・コンテンツの車載オーディオ装置１００からの削除に対する処理の一例を示すフローチャートである。この処理は、車載オーディオ装置１００が、車載オーディオ装置１００の記憶装置１０８の記憶媒体１１０へのオーディオ・コンテンツの追加や、当該記憶媒体１１０からの削除の指令を受信したときに始まる（ステップ６０２）。車載オーディオ装置１００は、受信したコマンドが、オーディオ・コンテンツを追加する指示のみを含んだものかどうかを判定する（ステップ６０４）。

ステップ６０４において、車載オーディオ装置１００が、受信したコマンドがオーディオ・コンテンツの追加のみを指示するコマンドであると判定した場合、追加されるオーディオ・コンテンツの各アイテムに対応する単語やフレーズを表わす音声データを生成する（ステップ６０６）。音声データを生成する処理は、オーディオ・コンテンツのアイテムをコピーする記憶媒体をフィンガープリントする処理と、データベースの中から、そのフィンガープリントされた記憶媒体のデータに一致するデータを見つけ、コピーするオーディオ・コンテンツのアイテムの一つ一つに対応する単語やフレーズを提供する処理と、ＴＴＳエンジンを介して、コピーするオーディオ・コンテンツの各アイテムに対応するそれぞれの単語やフレーズに合致する音声データを生成する処理と、を含んでいる。

続いて、オーディオ・コンテンツを、車載オーディオ装置１００の記憶装置１０８の記憶媒体１１０に追加し始める（ステップ６０８）。次に、コンパイラ１２２は、その生成された音声データを入力として使用して、語彙辞書１２０を編集する（ステップ６１０）。いくつかの実施形態においては、語彙辞書１２０の全てを編集してもよいし、また他の実施形態においては、語彙辞書１２０の一つ以上の部分のみを編集してもよい。その後、車載オーディオ装置１００は、記憶装置１０８への記憶媒体１１０へのオーディオ・コンテンツの追加を完了する（ステップ６１１）。次に、車載オーディオ装置１００は、オーディオ・コンテンツを削除するかどうかを判定する（ステップ６１２）。（オーディオ・コンテンツを車載オーディオシステム１００から削除する指令を受けつけた結果として）、オーディオ・コンテンツを削除する場合、車載オーディオ装置１００は、記憶装置１０８の記憶媒体１１０から、そのオーディオ・コンテンツを削除する（ステップ６１３）。そして、処理が完了する。

ステップ６０４において、車載オーディオ装置１００が、受信したコマンドが、オーディオ・コンテンツを追加するだけのコマンドではないと判定した場合、車載オーディオ装置１００は、受信したコマンドがオーディオ・コンテンツを追加するコマンドと削除するコマンドを含んでいるかどうかを判定する（ステップ６１４）。車載オーディオ装置１００が、受信したコマンドがオーディオ・コンテンツを追加するコマンドと削除するコマンドを含んだコマンドであると判定した場合、車載オーディオ装置１００は、削除するオーディオ・コンテンツの一つ以上のアイテムに対応する一つ以上の単語やフレーズの音声データを生成する（ステップ６１６）。そして、上述したような、ステップ６０８からステップ６１３の処理が再び実行される。そして、この処理が完了する。

ステップ６１４において、車載オーディオ装置が、オーディオ・コンテンツを追加するコマンドとオーディオ・コンテンツを削除するコマンドとを受信していないと判定した場合、オーディオ・コンテンツを削除するコマンドのみを受信したものと考えられる。（その場合）、削除されるオーディオ・コンテンツの一つ以上のアイテムに対応する少なくとも１つの単語やフレーズの音声データが生成される（ステップ６１８）。そして、コンパイラ１２２は、その生成された音声データを入力として使用して、語彙辞書１２０を編集する（ステップ６２０）。そして、ステップ６１２からステップ６１３は、再び実行される。そして、処理が完了する。

図６のフローチャートに示した処理の例は、オーディオ・コンテンツを削除する指示を受け付けた直後にオーディオ・コンテンツを削除する実施形態を示すものである。前記したように、いくつかの実施形態においては、語彙辞書１２０の全てを編集しないで、語彙辞書１２０の一つ以上の関連する部分のみを編集することによって、この処理を行ってもよい。

前記したように、車載オーディオ装置１００について、オーディオ・コンテンツの追加または削除のいずれかを実行する場合に、語彙辞書１２０の全てを編集する実施形態がある。このような実施形態においては、オーディオ・コンテンツを削除する場合、コンパイラ１２２は、スピーチ認識機能が利用不可能であることにユーザが気がつく可能性が低いときに語彙辞書１２０を編集してもよい。この構成は、オーディオ・コンテンツが車載オーディオ装置１００から削除されるシャットダウン処理の間に語彙辞書１２０を編集することによって達成することが出来る。図７は、そのような実施形態用に、ステップ６１８を実行した後にステップ６１３を実行して、ステップ６２０および６１２を実行しなくても処理が完了するように、図６のフローチャートを変形したものである。しかしながら、受信したコマンドがオーディオ・コンテンツ追加コマンドを含んでいた場合、オーディオ・コンテンツ削除のコマンドがあるかないかに関わらず、元々図６に示したように、処理が実行される。つまり、オーディオ・コンテンツが車載オーディオ装置１００に追加もされる場合、語彙辞書１２０は、オーディオ・コンテンツを削除するコマンドの受信を検出した直後に、編集される。

図８は、オーディオ・コンテンツが車載オーディオ装置１００から削除されるだけで、追加するオーディオ・コンテンツがないときに、コンパイラ１２２が、車載オーディオ装置１００を備える車両のシャットダウン処理中に語彙辞書１２０を編集する実施形態における処理の一例を示すフローチャートである。この処理は、車載オーディオ装置１００のエンジンを切るイベントの検出（ステップ８０２）にともなって、始まる。このエンジンを切るイベントの検出に対応して、シャットダウン処理が始まる（ステップ８０４）。

次に、車載オーディオ装置１００は、シャットダウン処理中にコンパイラ１２２が語彙辞書１２０を編集するかどうか判定する（ステップ８０６）。車載オーディオ装置１００がオーディオ・コンテンツ削除コマンドを事前に受け付けており、かつ、オーディオ・コンテンツ削除コマンドを受け付けてから語彙辞書１２０が編集されていない場合は、語彙辞書１２０をシャットダウン処理中に編集する。車載オーディオ装置１００が語彙辞書１２０を編集すると判定した場合、車載オーディオ装置１００は、事前に生成された音声データを入力として使用して、語彙辞書１２０を編集する（ステップ８０８）。事前に生成された音声データは、削除する、もしくは既に削除されたオーディオ・コンテンツの一つ以上のアイテムに対応する、一つ以上の単語やフレーズに対応する。その結果、車載オーディオ装置１００のコンパイラ１２２は語彙辞書１２０の編集を完了する（ステップ８１０）。語彙辞書１２０の編集を完了してから少し後に、シャットダウン処理が完了し（ステップ８１２）、図８に示した処理が終了する。

ステップ８０６において、車載オーディオ装置１００が、シャットダウン処理中にコンパイラ１２２が語彙辞書１２０を編集しないと判定した場合、シャットダウン処理中にコンパイラ１２２は語彙辞書１２０を編集しない。その結果、車載オーディオ装置１００は、上記したように、ステップ８１２を実行し、図８のフローチャートに示した処理が完了する。

（まとめ）
本発明の主題は、構造的機能や方法論的なステップに特有な言語で説明してきたが、添付の請求の範囲における本発明の主題は、前述した具体的な特徴やステップに必ずしも限定されるわけではない。むしろ、上述した具体的な機能やステップは、請求の範囲（に記載された発明）を実施するための一つの例である。

上述の説明には、具体的で詳細な説明があるが、それはどのようにも、請求の範囲を限定するように解釈するべきではない。上述した実施形態の他の構成は、発明の詳細な説明の範囲に含まれる。加えて、図６から図８のフローチャートに示すステップは、他の実施形態では、（図示している順とは）異なった順で実行してもよく、ステップの追加や省略をしてもよい。例えば、いくつかの実施形態では、車載オーディオ装置１００がオーディオ・コンテンツ追加コマンドとオーディオ・コンテンツ削除コマンドを受信したときに、一度に語彙辞書１２０を編集して、語彙辞書１２０の音声データの追加と削除をする代わりに、オーディオ・コンテンツ追加コマンド一回に対して、一回語彙辞書１２０を編集し、オーディオ・コンテンツ削除コマンド一回に対して、一回語彙辞書１２０を編集するようにしてもよい。他の実施形態においては、上述したステップの一部を他の装置や構成部が実行するようにしてもよい。このように、添付の請求の範囲及びその請求の範囲に法的に等しいものが、本発明を定義するのであって、上述した具体的な例が本発明を定義するものではない。

Claims

車載オーディオ装置に実装された、スピーチ認識機能用の語彙辞書を編集する方法であって、前記方法は、
コンテンツの各アイテムが自身に対応する単語やフレーズを有する、前記コンテンツを前記車載オーディオ装置の記憶装置へ追加する第一のコマンドを受信するステップと、
前記コンテンツが前記記憶装置に追加されている間に、前記語彙辞書を編集して、追加される前記コンテンツの前記各アイテムに対応する前記単語または前記フレーズに合致する音声データを追加するステップと、
前記記憶装置から前記コンテンツを削除する第二のコマンドを受信するステップと、
車載オーディオシステムを含む車両のエンジンを切ることの結果としてエンジンを切るイベントを検出するステップと、
エンジンを切るイベントを検出するとシャットダウン処理を開始するステップと、
前記記憶装置から前記コンテンツを削除する前記第二のコマンドの受信に応じて、前記シャットダウン処理の間に、前記語彙辞書を編集して、前記記憶装置から削除されるコンテンツの各アイテムに対応する単語またはフレーズに合致する音声データを削除するステップと、
を含むことを特徴とする方法。
記憶媒体から前記コンテンツの複数のアイテムを追加するとき、前記語彙辞書を編集する前記ステップは、前記複数のアイテムが完全に前記記憶装置に追加される前に完了することを特徴とする請求項１に記載の方法。
前記語彙辞書を編集して、音声データを削除するステップが、前記記憶装置から前記コンテンツを削除する前記第二のコマンドの受信に応じて、前記語彙辞書の少なくとも一部を編集して、前記記憶装置から削除される前記コンテンツの前記少なくとも一つのアイテムに対応する前記単語または前記フレーズに合致する音声データを削除するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
前記コンテンツは音楽を含み、追加される前記コンテンツに関連する前記単語または前記フレーズは、前記音楽のアイテムのタイトルを含むことを特徴とする請求項１に記載の方法。
スピーチ認識機能を有する車載オーディオ装置であって、前記車載オーディオ装置は、
オーディオ・コンテンツの各アイテムが前記各アイテムに対応する単語やフレーズを有する、前記オーディオ・コンテンツを記憶するための記憶装置と、
音声入力を受け付けるためのマイクロフォンと、
前記受け付けた音声入力における音声コマンドを認識するために使われる語彙辞書を備え、前記受け付けた音声入力のうちの、発せられた複数の単語を認識するスピーチ認識部と、
新しいオーディオ・コンテンツが前記記憶装置に追加されている間に、前記新しいオーディオ・コンテンツの追加される各アイテムに対応する単語やフレーズに合致する音声データが、編集の結果として、語彙辞書に含まれるように、前記語彙辞書を編集するコンパイラとを備え、
前記コンパイラはさらに、シャットダウン処理の間に、前記語彙辞書を編集して、前記記憶装置から削除されるコンテンツの各アイテムに対応する単語またはフレーズに合致する音声データを削除するものであり、前記シャットダウン処理は、車載オーディオシステムを含む車両のエンジンを切ることを検出することによって開始されることを特徴とする、車載オーディオ装置。
前記コンパイラは、前記新しいオーディオ・コンテンツが完全に前記記憶装置に追加される前に、前記語彙辞書の編集を完了することを特徴とする請求項５に記載の車載オーディオ装置。
オーディオ・コンテンツの一つ以上のアイテムを前記記憶装置から削除するコマンドの受信に応じて、前記コンパイラは、前記語彙辞書の少なくとも一部を編集することによって、前記語彙辞書を更新することを特徴とする請求項５に記載の車載オーディオ装置。
前記コンパイラは、シャットダウン処理の間に、前記語彙辞書の少なくとも一部を編集することを特徴とする請求項７に記載の車載オーディオ装置。
エンジンを切るイベントが検出された時に前記シャットダウン処理が始まり、前記シャットダウン処理は、前記語彙辞書の編集が完了した後に、完了することを特徴とする請求項８に記載の車載オーディオ装置。
前記オーディオ・コンテンツは、音楽のアイテムを含み、
前記音楽のアイテムのそれぞれに対応するそれぞれの単語やフレーズは、前記音楽の前記アイテムのタイトルであることを特徴とする請求項５に記載の車載オーディオ装置。
光学式記憶媒体から前記新しいオーディオ・コンテンツを読み取って、前記オーディオ・コンテンツを前記記憶装置の前記オーディオ・コンテンツに追加する光学式記憶媒体読取装置をさらに備えることを特徴とする請求項５に記載の車載オーディオ装置。
車載オーディオ装置の少なくとも１つのプロセッサのための複数の指令が記憶された、機械が読み取り可能な有形の記憶媒体であって、前記少なくとも一つのプロセッサが前記指令を実行することにより、車載オーディオ装置が、
前記車載オーディオ装置の記憶装置の第一の記憶媒体に、オーディオ・コンテンツの各アイテムが前記各アイテムに対応する単語やフレーズを有する、前記オーディオ・コンテンツの一つ以上のアイテムを追加する第一のコマンドを受信するステップと、
語彙辞書の少なくとも第一の部分を編集して、追加する前記オーディオ・コンテンツの前記一つ以上のアイテムに対応する、少なくとも一つの単語やフレーズに合致する音声データを語彙辞書に追加することにより、複数の部分に整理され、前記複数の部分の一つ一つの部分が個別に編集可能である前記語彙辞書を更新するステップと、
前記記憶装置の媒体から前記オーディオ・コンテンツの少なくとも一つのアイテムを削除する第二のコマンドを受信するステップと、
車載オーディオシステムを含む車両のエンジンを切ることの結果としてエンジンを切るイベントを検出するステップと、
エンジンを切るイベントを検出するとシャットダウン処理を開始するステップと、
前記シャットダウン処理の間に、前記語彙辞書の少なくとも第二の部分を編集して、前記語彙辞書から、削除される前記オーディオ・コンテンツの少なくとも一つに対応する少なくとも一つの単語または少なくとも一つのフレーズに合致する音声データを削除することによって前記語彙辞書を更新するステップと、を含む方法を実行することを特徴とする記憶媒体。
前記記憶装置の前記記憶媒体にオーディオ・コンテンツの一つ以上のアイテムを追加する前記第一のコマンドを受信した後、前記オーディオ・コンテンツの前記一つ以上のアイテムが前記記憶装置の前記第一の記憶媒体に追加されている間に編集が実行されることを特徴とする、請求項１２に記載の機械が読み取り可能な有形の記憶媒体。
オーディオ・コンテンツの少なくとも一つのアイテムを前記記憶装置の前記記憶媒体から削除する前記第二のコマンドを受信した後、前記語彙辞書の編集は、前記車載オーディオ装置の前記シャットダウン処理の間に実行されることを特徴とする請求項１２に記載の、機械が読み取り可能な有形の記憶媒体。
前記受信したコマンドが、オーディオ・コンテンツの前記一つ以上のアイテムを前記記憶装置の前記第一の記憶媒体に追加する前記第一のコマンドと、前記記憶装置の前記第一の記憶媒体からオーディオ・コンテンツの一つ以上のアイテムを削除する他のコマンドを含んでいた場合、前記語彙辞書の編集は、前記記憶装置の前記第一の記憶媒体にオーディオ・コンテンツの前記一つ以上のアイテムが追加されている間に行われることを特徴とする請求項１２に記載の、機械が読み取り可能な有形の記憶媒体。
前記記憶装置の前記記憶媒体に記憶された前記オーディオ・コンテンツは音楽を含んでおり、前記音楽の各アイテムに対応する前記単語や前記フレーズは、前記各アイテムのタイトルであることを特徴とする請求項１２に記載の、機械が読み取り可能な有形の記憶媒体。
前記受信したコマンドが、オーディオ・コンテンツの一つ以上のアイテムを前記記憶装置の前記記憶媒体へ追加するコマンドを受信した後に、前記方法は、前記オーディオ・コンテンツの前記一つ以上のアイテムを、第二の記憶媒体から、前記記憶装置の前記記憶媒体へコピーするステップを、さらに含むことを特徴とする請求項１２に記載の、機械が読み取り可能な有形の記憶媒体。