JP2013512477A - 車載オーディオ装置における語彙辞書の再編集 - Google Patents

車載オーディオ装置における語彙辞書の再編集 Download PDF

Info

Publication number
JP2013512477A
JP2013512477A JP2012542082A JP2012542082A JP2013512477A JP 2013512477 A JP2013512477 A JP 2013512477A JP 2012542082 A JP2012542082 A JP 2012542082A JP 2012542082 A JP2012542082 A JP 2012542082A JP 2013512477 A JP2013512477 A JP 2013512477A
Authority
JP
Japan
Prior art keywords
audio
content
audio content
storage medium
vocabulary dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012542082A
Other languages
English (en)
Other versions
JP5739899B2 (ja
Inventor
フアン、リッチー
ヤマモト、スチュアート、エム.
キルシュ、デイヴィッド、エム.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2013512477A publication Critical patent/JP2013512477A/ja
Application granted granted Critical
Publication of JP5739899B2 publication Critical patent/JP5739899B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

車載オーディオ装置及び方法を提供する。単語もしくはフレーズが、車載オーディオ装置に記憶されたオーディオ・コンテンツの各アイテムに関連付けられている。車載オーディオ装置は、音声コマンドに応じて、オーディオ・コンテンツの記憶されたアイテムの一つについてアクションを行う。その音声コマンドは、その記憶されたアイテムの一つに対応する単語やフレーズを含んでいる。オーディオ・コンテンツが車載オーディオ装置に追加されるとき、そのオーディオ・コンテンツに関連する音声データが生成され、編集処理の間に語彙辞書に追加される。記憶されたオーディオ・コンテンツが車載オーディオ装置から削除されるとき、その削除される、記憶されたオーディオ・コンテンツに関連する音声データが、語彙辞書の編集の間に、語彙辞書から削除される。この音声データの削除処理は、いくつかの実施形態においては、シャットダウン処理の間に実行される。

Description

本発明は、概して、オーディオ・コンテンツを車載オーディオ装置の記憶装置に追加したり、記憶装置から削除したりすることが出来る方法及び車載オーディオ装置に関するものである。
スピーチ認識システムは、ユーザが話した言葉を音声によって特定するために、一つ以上の語彙辞書を使用する。例えば、車載オーディオ装置などのスピーチ認識システムにおいては、音楽や他のオーディオ・コンテンツなどのオーディオ・コンテンツを車載オーディオ装置に追加したり、車載オーディオ装置から削除したりすることが出来る。オーディオ・コンテンツの各アイテムは、その各アイテムに関連する単語やフレーズを有する場合もある。その単語やフレーズは、オーディオ・コンテンツのそのアイテムのタイトルの場合もある。ユーザは、コマンドを発することにより、車載オーディオ装置に、オーディオ・コンテンツのアイテムを再生させることが出来る。そのコマンドは、オーディオ・コンテンツのそのアイテムのタイトルを含む場合もある。そのため、オーディオ・コンテンツのアイテムが車載オーディオ装置に加えられたり、車載オーディオ装置から削除されると、語彙辞書を編集しないかぎり、スピーチ認識システムの語彙辞書は、次第に古くなっていく。しかしながら、語彙辞書の編集には時間がかかる場合もあり、その間ユーザは車載オーディオ装置のスピーチ認識機能を使用できない場合もある。
この要約は、以降の「発明を実施するための形態」で説明する、本発明の複数のコンセプトから選んだいくつかのコンセプトを、簡単な形式で紹介するものである。この要約は、特許請求する主題の主な特徴や本質的な特徴を特定するためのものではなく、また、特許請求する主題の範囲を限定するものでもない。
ユーザが、コマンドを発することにより、車載オーディオ装置を操作することが可能な車載オーディオ装置を提供する。車載オーディオ装置は、スピーチ認識部と、オーディオ・コンテンツを記憶するための記憶媒体を備える記憶装置を有する。記憶されたオーディオ・コンテンツの各アイテムには、単語やフレーズが関連づけられている。いくつかの実施形態においては、オーディオ・コンテンツは、歌や音楽の作品を含む場合もある。(その場合)、ユーザの、例えば、「再生」などのコマンドや他のコマンドの発話と、その後の、オーディオ・コンテンツのアイテムの一つに対応する単語やフレーズの発話に応じて、車載オーディオ装置は、オーディオ・コンテンツのアイテムの一つを再生することが出来る。
オーディオ・コンテンツは、コンパクト・ディスク(CD)、デジタル・ヴァーサタイル・ディスク (DVD)などの記憶媒体、または他の型式の記憶媒体から、車載オーディオ装置の記憶装置の記憶媒体にコピーしたりすることが出来る。さらに、記憶装置の記憶媒体に記憶されたオーディオ・コンテンツは削除することもできる。
オーディオ・コンテンツが車載オーディオ装置に加えられるとき、そのオーディオ・コンテンツに対応する単語やフレーズに合致する音声データが生成される。語彙辞書が編集されたとき、車載オーディオ装置が、その生成された音声データに対応する言葉やフレーズを含んだ発話を認識できるように、生成された音声データは語彙辞書に追加される。様々な実施形態において、生成された音声データを追加する語彙辞書の編集は、オーディオ・コンテンツが車載オーディオ装置に追加されている間に始まり、車載オーディオ装置へのオーディオ・コンテンツの追加が完了する前に終了する。
いくつかの実施形態においては、オーディオ・コンテンツが車載オーディオ装置から削除されるとき、車載オーディオ装置のシャットダウン処理の間に語彙辞書を編集して、更新してもよい。また、他の実施形態においては、オーディオ・コンテンツが車載オーディオシステムから削除されることが決定した直後に、語彙辞書を編集してもよい。
上述した利点、特徴および他の利点、特徴が得られる方法を説明するために、添付の図面に記載された、具体的な実施形態を参照することにより、より具体的な説明を以降の記載において行う。これらの図面は、典型的な実施形態のみを表わしたものであり、特許請求の範囲を限定するものとして解釈すべきではないことを理解されたい。添付の図面は、それを使用することにより、本発明の実装をより詳細に説明するためのものである。
車載オーディオ装置の実施形態の機能的ブロック図を示す図である。 図1に示したオーディオ入力装置の実施形態をより詳細に説明する図である。 記憶媒体から車載オーディオ装置へオーディオ・コンテンツをコピーする際のスケジュールの一例を示す図である。 車載オーディオ装置の様々な実施形態において、オーディオ・コンテンツ削除のコマンドの受信に対して、語彙辞書が編集されるタイミングを例示した図である。 車載オーディオ装置の様々な実施形態において、オーディオ・コンテンツ削除のコマンドの受信に対して、語彙辞書が編集されるタイミングを例示した図である。 様々な実施形態の車載オーディオ装置100へのオーディオ・コンテンツの追加や、車載オーディオ装置100からのオーディオ・コンテンツの削除に関する処理の一例を示すフローチャートである。 様々な実施形態の車載オーディオ装置100へのオーディオ・コンテンツの追加や、車載オーディオ装置100からのオーディオ・コンテンツの削除に関する処理の一例を示すフローチャートである。 車載オーディオ装置の一実施形態において、オーディオ・コンテンツ削除のコマンドの受信に応じて、シャットダウン処理の間に語彙辞書を編集する処理の一例を示すフローチャートである。
[概要]
コマンドを発話することによって、ユーザが車載オーディオ装置を操作可能なように、車載オーディオ装置はスピーチ認識部を備えている。車載オーディオ装置は、オーディオ・コンテンツを記憶するための記憶媒体を有する記憶装置を備えている。オーディオ・コンテンツの各アイテムは、その各アイテムに関連づけられた単語やフレーズを有している。例えば、オーディオ・コンテンツのアイテムが歌や音楽の作品を含む実施形態においては、オーディオ・コンテンツのアイテムに対応する単語やフレーズは、そのアイテムのタイトルの場合もある。例えば、「再生」などのコマンドもしくは他の言葉のコマンドとそのアイテムに対応する単語やフレーズを単純に発することにより、ユーザは、車載オーディオ装置にオーディオ・コンテンツのアイテムの一つを再生させることが出来る。
車載オーディオ装置は、例えば、コンパクト・ディスク (CD)、デジタル・ヴァーサタイル・ディスク(DVD)などの記憶媒体、他の型式の光学式記憶媒体もしくは他の型式の記憶媒体からオーディオ・コンテンツを、車載オーディオ装置の記憶装置の媒体へコピーすることが出来る。さらに、記憶装置の記憶媒体のオーディオ・コンテンツは、記憶装置の記憶媒体に他のオーディオ・コンテンツを記憶するための空き容量を作るために、削除することもできる。
オーディオ・コンテンツが車載オーディオ装置に追加されると、そのオーディオ・コンテンツに対応する、追加される単語やフレーズが決定され、その単語やフレーズに合致する音声データが生成される。後でスピーチ認識部が、その生成された音声データに対応する単語やフレーズを含む発話を認識できるように、その生成された音声データは、語彙辞書が編集されたときに語彙辞書に追加される。様々な実施形態において、オーディオ・コンテンツが車載オーディオ装置に追加されている間に、生成された音声データを追加する語彙辞書の編集が始まり、オーディオ・コンテンツの車載オーディオ装置への追加が完了する前に終了する。したがって、オーディオ・コンテンツの車載オーディオ装置への追加が完了すると、車載オーディオ装置のスピーチ認識部は、追加されたオーディオ・コンテンツに関連づけられた単語やフレーズを認識できるようになる。
いくつかの実施形態においては、オーディオ・コンテンツが車載オーディオ装置から削除されると、語彙辞書は車載オーディオ装置のシャットダウン処理の間に編集されて更新される。このシャットダウン処理は、例えば、エンジンを切るイベントや他のイベントなどの、ある特定のイベントの発生を検知することによって、始まる。そのため、語彙辞書の編集に時間がかかる実施形態においては、シャットダウン処理の間に語彙辞書を編集し、それにより、辞書の編集の間にスピーチ認識機能が使用不可能になることをユーザに気づかれないようにすることが可能となる。
いくつかの実施形態においては、語彙辞書は、多くの異なる部分に整理される。その複数の部分は、オーディオ・コンテンツのそれぞれのアイテムに対応する単語やフレーズによって、アルファベット順に整理されたり、オーディオ・コンテンツのアイテムのジャンルによって整理されたり、または、他の方法によって整理される。例えば、オーディオ・コンテンツのアイテムが音楽を含んでいた場合、語彙辞書の複数の部分は、例えば、クラシック、ロック、ジャズ、ポップス、オールデイーズなどの音楽ジャンルに対応させて整理される。例としては、「ロック」のジャンルに属するオーディオ・コンテンツのアイテムに対応する単語やフレーズに合致する音声データは、ロックのジャンルに対応する語彙辞書の部分に含まれる。「ロック」のジャンルに属するオーディオ・コンテンツの一つのアイテムを車載オーディオ装置に追加する場合、語彙辞書のロックのジャンルに対応する部分のみを編集することにより、そのオーディオ・コンテンツの各アイテムに対応する単語やフレーズに合致する音声データを語彙辞書に追加する。
同様に、「ロック」のジャンルのオーディオ・コンテンツのアイテムを車載オーディオ装置から削除する場合、ロックのジャンルの語彙辞書に対応する部分のみを編集してもよい。語彙辞書の一つの部分のみが編集される場合、もしくは、2つ以上の部分が編集される場合でも、編集が完了するまでにかかる時間は、語彙辞書の全てを編集するよりも短い。語彙辞書の全部分の一部のみが編集可能な実施形態においては、オーディオ・コンテンツの一つ以上のアイテムが車載オーディオ装置から削除される場合、そのオーディオ・コンテンツの一つ以上のアイテムが削除されるのとほぼ同時に語彙辞書を編集してもよい。
(装置の一例)
図1は、車載オーディオ装置100の実施形態の一例を示す機能ブロック図である。車載オーディオ装置100は、プロセッサ102、メモリ104、コマンド入力装置106、記憶装置108、音声出力装置112、音声入力装置114、スピーチ認識部118、そしてコンパイラ122を備えている。
プロセッサ102は、メモリ104、メデイアカード、フラッシュRAMなどの記憶媒体、またはその他の記憶媒体に記憶された指令を解釈し、実行する従来型のプロセッサを一つ以上備えていてもよい。有形の記憶媒体は、メモリ、メディアカード、フラッシュカードまたは他の記憶媒体を含んでいる。メモリ104は、プロセッサ102が実行する指令や情報を記憶するためのランダムアクセスメモリ(RAM)や他の型式の動的記憶装置、リードオンリーメモリー(ROM)や他の型式の静的記憶装置を含んでいる。RAMやその他の型式の動的記憶装置は、指令と同様に、プロセッサ102が指令を実行している最中に使われる、一時的な変数や他の中間情報を記憶する。ROMや、他の型式の不変記憶装置は、プロセッサ102が実行する不変情報や指令を記憶する。
コマンド入力装置106は、音声入力用のマイクロフォン、一つ以上のハードボタンもしくはソフトボタン、キーボード、タッチスクリーン、もしくは他の入力装置を含んでいる。
記憶装置108は、例えば音楽などのオーディオ・コンテンツや他のオーディオ・コンテンツを記憶するための記憶媒体110を備えている。一実施形態においては、記憶装置108は、ハードディスクドライブであり、記憶媒体110は、ハードディスクであってもよい。
音声出力機器112は、オーディオ・コンテンツを出力するために、一つ以上のスピーカー、ヘッドセットを備えていてもよいし、もしくは他の音声再生機器を備えていてもよい。
音声入力装置114は、オーディオ・コンテンツを車載オーディオ装置100に入力することができる。作動時には、音声入力装置114は、オーディオ・コンテンツを表わしたデータを記憶する記憶媒体116を含んでいる。一実施形態においては、音声入力装置114は、例えば、コンパクト・ディスク(CD)リーダもしくはデジタル・ヴァーサタイル・ディスク(DVD)リーダーなどの光学式記憶媒体読取装置を備えており、記憶媒体116は、CDもしくはDVDである。
スピーチ認識部118は、音声入力を認識し、認識した音声をテキストに変換することができる。スピーチ認識部118は、語彙辞書120を備えていてもよい。語彙辞書120は、コマンドや単語、フレーズに合致する音声データを有している。一つ一つの単語やフレーズは、オーディオ・コンテンツに関連付けられている。例えば、オーディオ・コンテンツの一つのアイテムが音楽である場合、そのアイテムに対応する単語、フレーズが、オーディオ・コンテンツのそのアイテムのタイトルである場合もある。いくつかの実施形態においては、スピーチ認識部118は、プロセッサ102によって実行される一つ以上のソフトウエアモジュールを含んでいる。
コンパイラ122は、車載オーディオ装置100に追加されているオーディオ・コンテンツに対応する単語やフレーズに合致する音声データを追加したり、車載オーディオ装置100から削除されるオーディオ・コンテンツに対応する単語やフレーズに合致する音声データを削除するために、語彙辞書120の少なくとも1部を編集することができる。
図2は、音声入力装置114の一実施形態200を図示している。実施形態200は、オーディオ・コンテンツが記憶された記憶媒体202を受けることが出来る。実施形態200は、記憶媒体202からオーディオ・コンテンツを読み取り、データベース204にアクセスして、車載オーディオ装置100に追加されるオーディオ・コンテンツの各アイテムに対応する単語やフレーズを決定することができる。そして、実施形態200は、テキスト・トゥ・スピーチ(TTS)エンジン206もしくは他の手段を介して、その単語やフレーズを音声データ208に変換することが出来る。音声データ208は、語彙辞書120を編集して、オーディオ・コンテンツの一つ以上のアイテムに関連づけられた一つ以上の単語またはフレーズに合致する音声データ208を追加する際に、コンパイラ122への入力として提供される。
図2は、音声データ208を生成するために、データベース204とTTSエンジン206が音声入力装置114の実施形態200に含まれているものとして図示しているが、他の実施形態においては、データベース204とTTSエンジン206は、音声入力装置114に含まれていなくてもよい。代りに、データベース204とTTSエンジン206は、車載オーディオ装置100の機能部として備えられていてもよい。TTSエンジン206は、例えば、プロセッサ102などのプロセッサが実行する命令を含む、一つ以上のソフトウエアモジュールを含んでいる。
図3は、記憶媒体からオーディオ・コンテンツを、車載オーディオ装置100にコピーする際のスケジュールの一例を示している。記憶媒体は、CDやDVDなどの光学式記憶媒体や、他の型式の記憶媒体を含んでいる。その記憶媒体は、音声入力装置114(302)に搭載したり、音声入力装置114に挿入することができる。音声入力装置114は、オーディオ・コンテンツを読み取って、車載オーディオ装置100に追加されるオーディオ・コンテンツの各アイテムに対応する単語やフレーズを決定することができる。オーディオ・コンテンツの各アイテムに対応する単語やフレーズは、記憶媒体に記憶してもよいし、記憶媒体を「フィンガープリント」して、データベース検索を行うことにより、車載オーディオ装置100や音声入力装置114によって判定してもよい。
フィンガープリントの一例として、記憶媒体がCDで、そのCDに記憶されているオーディオ・コンテンツが音楽のアイテムを含む場合を考えてみる。CDをフィンガープリントすると、そのCDがN個の音楽アイテムを記憶しており、その一番目のアイテムがIの長さを有し、その後にJの長さのポーズが続き、二番目のアイテムがIの長さを有し、その後にJの長さのポーズが続く、などということを判定することができる。フィンガープリントが終了した後は、データベースクエリによって、そのCDとフィンガープリントが適合するデータ(つまり、データベースにおいて、アイテム1がIの長さを有し、その後にJの長さのポーズが続き、二番目のアイテムがIの長さを有し、その後にJの長さのポーズが続くCDと一致するデータ)が提供される。フィンガープリントが適合するデータが提供されることにより、CDに記憶された音楽の各アイテムに対応する単語やフレーズなどの、CDのコンテンツに関する情報が提供される。それぞれの単語やフレーズは、それらの音楽アイテムのタイトルである場合もある。
(その後)TTSエンジンを用いて、各音楽アイテムに対応するそれぞれの単語やフレーズに合致する音声データを生成することができる。その音声データは、語彙辞書120を編集するときにコンパイラ122への入力として提供される(304)。その後、コンパイラ122は語彙辞書120の編集を完了する(306)。
語彙辞書120が編集されている間は、スピーチ認識は利用できなくなる場合がある。音楽アイテムがコピーされている間、車載オーディオ装置100へのスピーチ認識が利用できる場合もあるが、その場合でも、コピーしている音楽アイテムに対するスピーチ認識は利用出来ない場合がある。そのコピー処理が完了すると(308)、直近にコピーした音楽アイテムなどのオーディオ・コンテンツを含んだ、車載オーディオ装置100に記憶されている全てのオーディオ・コンテンツについてスピーチ認識が再び利用可能となる。
上述した例は、CDから音楽アイテムをコピーする場合について説明したが、他の実施形態においては、オーディオ・コンテンツのアイテムは、音楽を含んでいてもよいし、含んでいなくてもよく、オーディオ・コンテンツは、CDとは異なる型式の記憶媒体からコピーしてもよい。そのCDとは異なる型式の記憶媒体は、上述したようにフィンガープリントして一致するデータを判定可能な記憶媒体であってもよい。
図3を参照して説明する本実施形態の変形例においては、記憶媒体に記憶された全てのオーディオ・コンテンツをコピーする代わりに、オーディオ・コンテンツの中から選択したアイテムのみをコピーしてもよい。例えば、ユーザは、記憶媒体からアイテム1、5、7のみをコピーするように、コマンド入力装置106を介して命令してもよい。そのような実施形態においては、コピーされるアイテムの一つ一つに対応する単語やフレーズを判定し、それらに合致する音声データを生成して、コンパイラ122に入力する。
図4は、車載オーディオ装置100の一実施形態から、オーディオ・コンテンツのアイテムを削除する場合のタイミングの一例を示している。まず、ユーザは、コマンド入力装置106を使って、オーディオ・コンテンツのアイテムを削除したい意思を示す。その意思は、音声指示であってもよいし、キーボード、タッチパネル、もしくは他の入力手段を使ったものでもよい。例えば、音声でユーザの指示を入力する場合は、<単語>や<フレーズ>が削除するオーディオ・コンテンツのアイテムに対応する単語やフレーズであるとして、「<単語>または<フレーズ>を削除」と発話すればよい。
いくつかの実施形態においては、語彙辞書120の編集にはかなりの時間がかかる場合があり、その間、車載オーディオ装置100のスピーチ認識機能が使用できなくなる場合がある。図4は、車載オーディオ装置100からオーディオ・コンテンツのひとつ以上のアイテムの削除に対応して、語彙辞書120を編集する場合のタイミングの一例を示している。
オーディオ・コンテンツのひとつ以上のアイテムを削除する指示を受け付けると、そのひとつ以上のアイテムに合致する音声データがコンパイラ122に入力され、語彙辞書120は、シャットダウン処理の間に編集される(404)。シャットダウン処理は、例えば、エンジンを切るイベント(つまり、車載オーディオ装置100を備える車両のエンジンを切った場合)などのイベントの発生(400)を検知した後に開始する(402)。編集処理404は、シャットダウン処理が終了(408)する前に完了してもよい(406)。
他の実施形態においては、コンパイラ122は、語彙辞書120の一部のみを編集することもでき、それにより、コンパイラ122の編集処理の期間を短縮することが出来る。そのような実施形態では、語彙辞書120の音声データは、特定の方法で整理される。例えば、(オーディオ・コンテンツのアイテムに対応する単語やフレーズの)アルファベット順に整理する場合もあるし、ジャンルなどのカテゴリやその他のカテゴリに基づいて整理する場合もあるし、その他の方法で整理する場合もある。語彙辞書120は、数多くの部分を含んでいてもよい。例えば、語彙辞書120がアルファベット順に整理される場合は、第一部分は、「a」から「d」までの文字から始まる単語やフレーズに合致する音声データを含んでおり、第二部分は、「e」から「h」までの文字から始まる単語やフレーズに合致する音声データを含む場合などが考えられる。この実施形態においては、語彙辞書120のうちの変更される部分のみをコンパイラ120によって編集することも出来る。
図5は、上述した実施形態における編集処理のタイミングの一例を示している。例えば、(まず)、車載オーディオ装置100は、車載オーディオ装置100に記憶されたオーディオ・コンテンツの一つ以上のアイテムを削除するコマンドを受信する(500)。そのすぐ後に、車載オーディオ装置100は、記憶装置108の記憶媒体110から、オーディオ・コンテンツの一つ以上のアイテムを削除する(502)。オーディオ・コンテンツのその一つ以上のアイテムの削除に関して、(削除と)同時、もしくはその直前や直後に、コンパイラ122は、オーディオ・コンテンツの中のその削除する一つ以上のアイテムに対応する、語彙辞書120の一つ以上の部分の編集を始める。編集処理を行っている間、車載オーディオ装置100のスピーチ認識機能は利用出来なくなるが、編集処理が終了するとすぐに、スピーチ認識機能は再び利用可能となる(504)。
(処理の一例)
図6は、オーディオ・コンテンツの車載オーディオ装置100への追加や、オーディオ・コンテンツの車載オーディオ装置100からの削除に対する処理の一例を示すフローチャートである。この処理は、車載オーディオ装置100が、車載オーディオ装置100の記憶装置108の記憶媒体110へのオーディオ・コンテンツの追加や、当該記憶媒体110からの削除の指令を受信したときに始まる(ステップ602)。車載オーディオ装置100は、受信したコマンドが、オーディオ・コンテンツを追加する指示のみを含んだものかどうかを判定する(ステップ604)。
ステップ604において、車載オーディオ装置100が、受信したコマンドがオーディオ・コンテンツの追加のみを指示するコマンドであると判定した場合、追加されるオーディオ・コンテンツの各アイテムに対応する単語やフレーズを表わす音声データを生成する(ステップ606)。音声データを生成する処理は、オーディオ・コンテンツのアイテムをコピーする記憶媒体をフィンガープリントする処理と、データベースの中から、そのフィンガープリントされた記憶媒体のデータに一致するデータを見つけ、コピーするオーディオ・コンテンツのアイテムの一つ一つに対応する単語やフレーズを提供する処理と、TTSエンジンを介して、コピーするオーディオ・コンテンツの各アイテムに対応するそれぞれの単語やフレーズに合致する音声データを生成する処理と、を含んでいる。
続いて、オーディオ・コンテンツを、車載オーディオ装置100の記憶装置108の記憶媒体110に追加し始める(ステップ608)。次に、コンパイラ122は、その生成された音声データを入力として使用して、語彙辞書120を編集する(ステップ610)。いくつかの実施形態においては、語彙辞書120の全てを編集してもよいし、また他の実施形態においては、語彙辞書120の一つ以上の部分のみを編集してもよい。その後、車載オーディオ装置100は、記憶装置108への記憶媒体110へのオーディオ・コンテンツの追加を完了する(ステップ611)。次に、車載オーディオ装置100は、オーディオ・コンテンツを削除するかどうかを判定する(ステップ612)。(オーディオ・コンテンツを車載オーディオシステム100から削除する指令を受けつけた結果として)、オーディオ・コンテンツを削除する場合、車載オーディオ装置100は、記憶装置108の記憶媒体110から、そのオーディオ・コンテンツを削除する(ステップ613)。そして、処理が完了する。
ステップ604において、車載オーディオ装置100が、受信したコマンドが、オーディオ・コンテンツを追加するだけのコマンドではないと判定した場合、車載オーディオ装置100は、受信したコマンドがオーディオ・コンテンツを追加するコマンドと削除するコマンドを含んでいるかどうかを判定する(ステップ614)。車載オーディオ装置100が、受信したコマンドがオーディオ・コンテンツを追加するコマンドと削除するコマンドを含んだコマンドであると判定した場合、車載オーディオ装置100は、削除するオーディオ・コンテンツの一つ以上のアイテムに対応する一つ以上の単語やフレーズの音声データを生成する(ステップ616)。そして、上述したような、ステップ608からステップ613の処理が再び実行される。そして、この処理が完了する。
ステップ614において、車載オーディオ装置が、オーディオ・コンテンツを追加するコマンドとオーディオ・コンテンツを削除するコマンドとを受信していないと判定した場合、オーディオ・コンテンツを削除するコマンドのみを受信したものと考えられる。(その場合)、削除されるオーディオ・コンテンツの一つ以上のアイテムに対応する少なくとも1つの単語やフレーズの音声データが生成される(ステップ618)。そして、コンパイラ122は、その生成された音声データを入力として使用して、語彙辞書120を編集する(ステップ620)。そして、ステップ612からステップ613は、再び実行される。そして、処理が完了する。
図6のフローチャートに示した処理の例は、オーディオ・コンテンツを削除する指示を受け付けた直後にオーディオ・コンテンツを削除する実施形態を示すものである。前記したように、いくつかの実施形態においては、語彙辞書120の全てを編集しないで、語彙辞書120の一つ以上の関連する部分のみを編集することによって、この処理を行ってもよい。
前記したように、車載オーディオ装置100について、オーディオ・コンテンツの追加または削除のいずれかを実行する場合に、語彙辞書120の全てを編集する実施形態がある。このような実施形態においては、オーディオ・コンテンツを削除する場合、コンパイラ122は、スピーチ認識機能が利用不可能であることにユーザが気がつく可能性が低いときに語彙辞書120を編集してもよい。この構成は、オーディオ・コンテンツが車載オーディオ装置100から削除されるシャットダウン処理の間に語彙辞書120を編集することによって達成することが出来る。図7は、そのような実施形態用に、ステップ618を実行した後にステップ613を実行して、ステップ620および612を実行しなくても処理が完了するように、図6のフローチャートを変形したものである。しかしながら、受信したコマンドがオーディオ・コンテンツ追加コマンドを含んでいた場合、オーディオ・コンテンツ削除のコマンドがあるかないかに関わらず、元々図6に示したように、処理が実行される。つまり、オーディオ・コンテンツが車載オーディオ装置100に追加もされる場合、語彙辞書120は、オーディオ・コンテンツを削除するコマンドの受信を検出した直後に、編集される。
図8は、オーディオ・コンテンツが車載オーディオ装置100から削除されるだけで、追加するオーディオ・コンテンツがないときに、コンパイラ122が、車載オーディオ装置100を備える車両のシャットダウン処理中に語彙辞書120を編集する実施形態における処理の一例を示すフローチャートである。この処理は、車載オーディオ装置100のエンジンを切るイベントの検出(ステップ802)にともなって、始まる。このエンジンを切るイベントの検出に対応して、シャットダウン処理が始まる(ステップ804)。
次に、車載オーディオ装置100は、シャットダウン処理中にコンパイラ122が語彙辞書120を編集するかどうか判定する(ステップ806)。車載オーディオ装置100がオーディオ・コンテンツ削除コマンドを事前に受け付けており、かつ、オーディオ・コンテンツ削除コマンドを受け付けてから語彙辞書120が編集されていない場合は、語彙辞書120をシャットダウン処理中に編集する。車載オーディオ装置100が語彙辞書120を編集すると判定した場合、車載オーディオ装置100は、事前に生成された音声データを入力として使用して、語彙辞書120を編集する(ステップ808)。事前に生成された音声データは、削除する、もしくは既に削除されたオーディオ・コンテンツの一つ以上のアイテムに対応する、一つ以上の単語やフレーズに対応する。その結果、車載オーディオ装置100のコンパイラ122は語彙辞書120の編集を完了する(ステップ810)。語彙辞書120の編集を完了してから少し後に、シャットダウン処理が完了し(ステップ812)、図8に示した処理が終了する。
ステップ806において、車載オーディオ装置100が、シャットダウン処理中にコンパイラ122が語彙辞書120を編集しないと判定した場合、シャットダウン処理中にコンパイラ122は語彙辞書120を編集しない。その結果、車載オーディオ装置100は、上記したように、ステップ812を実行し、図8のフローチャートに示した処理が完了する。
(まとめ)
本発明の主題は、構造的機能や方法論的なステップに特有な言語で説明してきたが、添付の請求の範囲における本発明の主題は、前述した具体的な特徴やステップに必ずしも限定されるわけではない。むしろ、上述した具体的な機能やステップは、請求の範囲(に記載された発明)を実施するための一つの例である。
上述の説明には、具体的で詳細な説明があるが、それはどのようにも、請求の範囲を限定するように解釈するべきではない。上述した実施形態の他の構成は、発明の詳細な説明の範囲に含まれる。加えて、図6から図8のフローチャートに示すステップは、他の実施形態では、(図示している順とは)異なった順で実行してもよく、ステップの追加や省略をしてもよい。例えば、いくつかの実施形態では、車載オーディオ装置100がオーディオ・コンテンツ追加コマンドとオーディオ・コンテンツ削除コマンドを受信したときに、一度に語彙辞書120を編集して、語彙辞書120の音声データの追加と削除をする代わりに、オーディオ・コンテンツ追加コマンド一回に対して、一回語彙辞書120を編集し、オーディオ・コンテンツ削除コマンド一回に対して、一回語彙辞書120を編集するようにしてもよい。他の実施形態においては、上述したステップの一部を他の装置や構成部が実行するようにしてもよい。このように、添付の請求の範囲及びその請求の範囲に法的に等しいものが、本発明を定義するのであって、上述した具体的な例が本発明を定義するものではない。

Claims (20)

  1. 車載オーディオ装置に実装された、スピーチ認識機能用の語彙辞書を編集する方法であって、前記方法は、
    コンテンツの各アイテムが自身に対応する単語やフレーズを有する、前記コンテンツを前記車載オーディオ装置の記憶装置へ追加するコマンドを受信するステップと、
    前記コンテンツが前記記憶装置に追加されている間に、前記語彙辞書を編集して、追加される前記コンテンツの前記各アイテムに対応する前記単語または前記フレーズに合致する音声データを追加するステップとを含むことを特徴とする方法。
  2. 記憶媒体から前記コンテンツの複数のアイテムを追加するとき、前記語彙辞書を編集する前記ステップは、前記複数のアイテムが完全に前記記憶装置に追加される前に完了することを特徴とする請求項1に記載の方法。
  3. 前記記憶装置から前記コンテンツを削除するコマンドを受信するステップと、
    前記記憶装置から前記コンテンツを削除する前記コマンドの受信に応じて、シャットダウン処理の間に、前記語彙辞書を編集して、前記記憶装置から削除されるコンテンツの各アイテムに対応する単語やフレーズに合致する音声データを削除するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
  4. エンジンを切るイベントを検出したときに、前記シャットダウン処理が始まることを特徴とする請求項3に記載の方法。
  5. 前記記憶装置から前記コンテンツを削除するコマンドを受信するステップと、
    前記記憶装置から前記コンテンツを削除する前記コマンドの受信に応じて、前記語彙辞書の少なくとも一部を編集して、前記記憶装置から削除される前記コンテンツの各アイテムに対応する単語やフレーズに合致する音声データを削除するステップと、を含むことを特徴とする請求項1に記載の方法。
  6. 前記コンテンツは音楽を含み、前記コンテンツに関連する前記単語または前記フレーズは、前記音楽のアイテムのタイトルを含むことを特徴とする請求項1に記載の方法。
  7. スピーチ認識機能を有する車載オーディオ装置であって、前記車載オーディオ装置は、
    オーディオ・コンテンツの各アイテムが前記各アイテムに対応する単語やフレーズを有する、前記オーディオ・コンテンツを記憶するための記憶装置と、
    音声入力を受け付けるためのマイクロフォンと、
    前記受け付けた音声入力における音声コマンドを認識するために使われる語彙辞書を備え、前記受け付けた音声入力のうちの、発せられた複数の単語を認識するスピーチ認識部と、
    新しいオーディオ・コンテンツが前記記憶装置に追加されている間に、前記新しいオーディオ・コンテンツの追加される各アイテムに対応する単語やフレーズに合致する音声データが、編集の結果として、語彙辞書に含まれるように、前記語彙辞書を編集するコンパイラとを備えることを特徴とする、車載オーディオ装置。
  8. 前記コンパイラは、前記新しいオーディオ・コンテンツが完全に前記記憶装置に追加される前に、前記語彙辞書の編集を完了することを特徴とする請求項7に記載の車載オーディオ装置。
  9. オーディオ・コンテンツの一つ以上のアイテムを前記記憶装置から削除するコマンドの受信に応じて、前記コンパイラは、前記語彙辞書の少なくとも一部を編集することによって、前記語彙辞書を更新することを特徴とする請求項7に記載の車載オーディオ装置。
  10. 前記コンパイラは、シャットダウン処理の間に、前記語彙辞書の少なくとも一部を編集することを特徴とする請求項9に記載の車載オーディオ装置。
  11. エンジンを切るイベントが検出された時に前記シャットダウン処理が始まり、前記シャットダウン処理は、前記語彙辞書の編集が完了した後に、完了することを特徴とする請求項10に記載の車載オーディオ装置。
  12. 前記オーディオ・コンテンツは、音楽のアイテムを含み、
    前記音楽のアイテムのそれぞれに対応するそれぞれの単語やフレーズは、前記音楽の前記アイテムのタイトルであることを特徴とする請求項7に記載の車載オーディオ装置。
  13. 光学式記憶媒体から前記新しいオーディオ・コンテンツを読み取って、前記オーディオ・コンテンツを前記記憶装置の前記オーディオ・コンテンツに追加する光学式記憶媒体読取装置をさらに備えることを特徴とする請求項7に記載の車載オーディオ装置。
  14. 車載オーディオ装置の少なくとも1つのプロセッサのための複数の指令が記憶された、機械が読み取り可能な有形の記憶媒体であって、前記少なくとも一つのプロセッサが前記指令を実行することにより、車載オーディオ装置が、
    前記車載オーディオ装置の記憶装置の記憶媒体に、オーディオ・コンテンツの各アイテムが前記各アイテムに対応する単語やフレーズを有する、前記オーディオ・コンテンツの一つ以上のアイテムを追加するコマンド、もしくは、前記記憶装置の前記記憶媒体に記憶された、前記オーディオ・コンテンツの一つ以上のアイテムを削除するコマンドを受信するステップと、
    語彙辞書の一部を編集して、追加する前記オーディオ・コンテンツの前記一つ以上のアイテムに対応する、少なくとも一つの単語やフレーズに合致する音声データを語彙辞書に追加したり、前記記憶装置から削除される前記オーディオ・コンテンツの前記一つ以上のアイテムに対応する少なくとも一つの単語やフレーズに合致する音声データを語彙辞書から削除することにより、前記語彙辞書を更新するステップと、を含む方法を実行し、
    前記語彙辞書は、複数の部分に整理され、前記複数の部分の一つ一つの部分が個別に編集可能であることを特徴とする記憶媒体。
  15. 前記受信したコマンドが、前記記憶装置の前記記憶媒体にオーディオ・コンテンツの一つ以上のアイテムを追加するコマンドであるとき、
    前記オーディオ・コンテンツの前記一つ以上のアイテムが前記記憶装置の前記記憶媒体に追加されている間に編集が実行されることを特徴とする、請求項14に記載の機械が読み取り可能な有形の記憶媒体。
  16. 前記受信したコマンドが、オーディオ・コンテンツの一つ以上のアイテムを前記記憶装置の前記記憶媒体から削除するコマンドであるとき、前記語彙辞書の編集は、前記車載オーディオ装置のシャットダウン処理の間に実行されることを特徴とする請求項14に記載の、機械が読み取り可能な有形の記憶媒体。
  17. 前記車載オーディオ装置の前記シャットダウン処理は、エンジンを切るイベントの発生を検知したと同時に開始することを特徴とする請求項16に記載の、機械が読み取り可能な有形の記憶媒体。
  18. 前記受信したコマンドが、オーディオ・コンテンツの一つ以上のアイテムを前記記憶装置の前記記憶媒体に追加する第一のコマンドと、前記記憶装置の前記記憶媒体からオーディオ・コンテンツの一つ以上のアイテムを削除する第二のコマンドを含んでいた場合、前記語彙辞書の編集は、前記記憶装置の前記記憶媒体にオーディオ・コンテンツの前記一つ以上のアイテムが追加されている間に行われることを特徴とする請求項14に記載の、機械が読み取り可能な有形の記憶媒体。
  19. 前記記憶装置の前記記憶媒体に記憶された前記オーディオ・コンテンツは音楽を含んでおり、前記音楽の各アイテムに対応する前記単語や前記フレーズは、前記各アイテムのタイトルであることを特徴とする請求項14に記載の、機械が読み取り可能な有形の記憶媒体。
  20. 前記受信したコマンドが、オーディオ・コンテンツの一つ以上のアイテムを前記記憶装置の前記記憶媒体へ追加するコマンドを含んでいた場合、前記方法は、前記オーディオ・コンテンツの前記一つ以上のアイテムを、第二の記憶媒体から、前記記憶装置の前記記憶媒体へコピーするステップを、さらに含むことを特徴とする請求項14に記載の、機械が読み取り可能な有形の記憶媒体。
JP2012542082A 2009-12-01 2010-11-22 車載オーディオ装置における語彙辞書の再編集 Expired - Fee Related JP5739899B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26556909P 2009-12-01 2009-12-01
US61/265,569 2009-12-01
PCT/US2010/057607 WO2011068706A1 (en) 2009-12-01 2010-11-22 Vocabulary dictionary recompile for in-vehicle audio system

Publications (2)

Publication Number Publication Date
JP2013512477A true JP2013512477A (ja) 2013-04-11
JP5739899B2 JP5739899B2 (ja) 2015-06-24

Family

ID=43465534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012542082A Expired - Fee Related JP5739899B2 (ja) 2009-12-01 2010-11-22 車載オーディオ装置における語彙辞書の再編集

Country Status (4)

Country Link
US (1) US9045098B2 (ja)
EP (1) EP2507792B1 (ja)
JP (1) JP5739899B2 (ja)
WO (1) WO2011068706A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
JP6155592B2 (ja) * 2012-10-02 2017-07-05 株式会社デンソー 音声認識システム
JP6444263B2 (ja) * 2015-05-27 2018-12-26 クラリオン株式会社 コンテンツ配信システム、コンテンツ配信方法
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
US10950229B2 (en) * 2016-08-26 2021-03-16 Harman International Industries, Incorporated Configurable speech interface for vehicle infotainment systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1233407A1 (en) * 2001-02-15 2002-08-21 Navigation Technologies Corporation Spatially built word list for automatic speech recognition program and method for formation thereof
JP2002350158A (ja) * 2001-05-23 2002-12-04 Aisin Aw Co Ltd ナビゲーション装置及びナビゲーションプログラム
EP1300829A1 (en) * 2001-10-05 2003-04-09 Visteon Global Technologies, Inc. Technique for active voice recognition grammar adaptation for dynamic multimedia application
WO2004029931A1 (de) * 2002-09-23 2004-04-08 Infineon Technologies Ag Spracherkennungseinrichtung, steuereinrichtung und verfahren zum rechnergestützten ergänzen eines elektronischen wörterbuches für eine spracherkennungseinrichtung
EP1693829A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Voice-controlled data system
JP2009500954A (ja) * 2005-06-30 2009-01-08 グーグル・インコーポレーテッド 非標準位置ベーステキスト入力

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8094949B1 (en) * 1994-10-21 2012-01-10 Digimarc Corporation Music methods and systems
US5638487A (en) 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
EP1199707A3 (en) 1995-05-26 2002-05-02 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US6654955B1 (en) 1996-12-19 2003-11-25 International Business Machines Corporation Adding speech recognition libraries to an existing program at runtime
US6094635A (en) 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
US6298324B1 (en) 1998-01-05 2001-10-02 Microsoft Corporation Speech recognition system with changing grammars and grammar help command
US5969283A (en) * 1998-06-17 1999-10-19 Looney Productions, Llc Music organizer and entertainment center
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US7100195B1 (en) * 1999-07-30 2006-08-29 Accenture Llp Managing user information on an e-commerce system
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US6473734B1 (en) 2000-03-27 2002-10-29 Motorola, Inc. Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces
CA2313717A1 (en) * 2000-07-11 2002-01-11 Mitercom Inc. Speech activated network appliance system
US7243069B2 (en) 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
JP2002215186A (ja) 2001-01-12 2002-07-31 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム
US6729882B2 (en) * 2001-08-09 2004-05-04 Thomas F. Noble Phonetic instructional database computer device for teaching the sound patterns of English
US7099828B2 (en) 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
US20040111259A1 (en) 2002-12-10 2004-06-10 Miller Edward S. Speech recognition system having an application program interface
US7191193B2 (en) 2003-01-02 2007-03-13 Catch Media Automatic digital music library builder
US7437296B2 (en) 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
US7729913B1 (en) * 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US7181396B2 (en) 2003-03-24 2007-02-20 Sony Corporation System and method for speech recognition utilizing a merged dictionary
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
WO2005024604A2 (en) 2003-09-09 2005-03-17 Siftology, Inc. Dynamic lexicon
WO2005045698A2 (fr) * 2003-10-24 2005-05-19 Enrico Maim Procede mis en oeuvre dans un environnement informatique pour engendrer une vue courante a partir d’au moins un objet d’information source susceptible de varier
US7323970B1 (en) * 2004-01-21 2008-01-29 Numerex Corporation Method and system for remote interaction with a vehicle via wireless communication
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US7689617B2 (en) * 2005-02-25 2010-03-30 Prashant Parikh Dynamic learning for navigation systems
DE102005030965B4 (de) 2005-06-30 2007-07-19 Daimlerchrysler Ag Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
US7826945B2 (en) 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
EP1750253B1 (en) 2005-08-04 2012-03-21 Nuance Communications, Inc. Speech dialog system
TWI340330B (en) * 2005-11-14 2011-04-11 Ind Tech Res Inst Method for text-to-pronunciation conversion
US8112276B2 (en) * 2005-12-14 2012-02-07 Mitsubishi Electric Corporation Voice recognition apparatus
CN101432801B (zh) 2006-02-23 2012-04-18 日本电气株式会社 语音识别词典制作支持系统、语音识别词典制作支持方法
US20070225970A1 (en) 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
JP2009537598A (ja) * 2006-05-23 2009-10-29 ノイロサーチ アクティーゼルスカブ 新規1,4−ジアザ−ビシクロ[3.2.2]ノナン誘導体及びそれらの医学的使用
JP4715704B2 (ja) 2006-09-29 2011-07-06 富士通株式会社 音声認識装置、および音声認識プログラム
US8571862B2 (en) * 2006-11-30 2013-10-29 Ashwin P. Rao Multimodal interface for input of text
US8226416B2 (en) * 2006-12-08 2012-07-24 Sri International Method and apparatus for reading education
US20100070921A1 (en) * 2007-03-29 2010-03-18 Nokia Corporation Dictionary categories
JP4345860B2 (ja) * 2007-09-14 2009-10-14 株式会社デンソー 車両用記憶管理装置
US20100073132A1 (en) * 2008-09-19 2010-03-25 Delphi Technologies, Inc. Ignition system for a vehicle
US8370835B2 (en) * 2009-03-12 2013-02-05 Arend Erich Dittmer Method for dynamically generating a configuration for a virtual machine with a virtual hard disk in an external storage device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1233407A1 (en) * 2001-02-15 2002-08-21 Navigation Technologies Corporation Spatially built word list for automatic speech recognition program and method for formation thereof
JP2002350158A (ja) * 2001-05-23 2002-12-04 Aisin Aw Co Ltd ナビゲーション装置及びナビゲーションプログラム
EP1300829A1 (en) * 2001-10-05 2003-04-09 Visteon Global Technologies, Inc. Technique for active voice recognition grammar adaptation for dynamic multimedia application
WO2004029931A1 (de) * 2002-09-23 2004-04-08 Infineon Technologies Ag Spracherkennungseinrichtung, steuereinrichtung und verfahren zum rechnergestützten ergänzen eines elektronischen wörterbuches für eine spracherkennungseinrichtung
EP1693829A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Voice-controlled data system
JP2009500954A (ja) * 2005-06-30 2009-01-08 グーグル・インコーポレーテッド 非標準位置ベーステキスト入力

Also Published As

Publication number Publication date
WO2011068706A1 (en) 2011-06-09
EP2507792B1 (en) 2015-01-07
US20110131037A1 (en) 2011-06-02
US9045098B2 (en) 2015-06-02
EP2507792A1 (en) 2012-10-10
JP5739899B2 (ja) 2015-06-24

Similar Documents

Publication Publication Date Title
US8200490B2 (en) Method and apparatus for searching multimedia data using speech recognition in mobile device
US9805722B2 (en) Interactive speech recognition system
US9640175B2 (en) Pronunciation learning from user correction
US7842873B2 (en) Speech-driven selection of an audio file
US7912716B2 (en) Generating words and names using N-grams of phonemes
JP4444396B2 (ja) 音声認識におけるポジション操作
US20110231189A1 (en) Methods and apparatus for extracting alternate media titles to facilitate speech recognition
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US20090112593A1 (en) System for recognizing speech for searching a database
JP5274711B2 (ja) 音声認識装置
JP5739899B2 (ja) 車載オーディオ装置における語彙辞書の再編集
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8566091B2 (en) Speech recognition system
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
CN112825249A (zh) 语音处理方法和设备
WO2015171154A1 (en) Methods and apparatus for speech recognition using a garbage model
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
KR101905827B1 (ko) 연속어 음성 인식 장치 및 방법
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2011113426A (ja) 辞書作成装置,辞書作成プログラムおよび辞書作成方法
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
JP4140248B2 (ja) データベース検索装置
JP2018160137A (ja) 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム
JP2009210942A (ja) 音声再生システム、音声再生方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150424

R150 Certificate of patent or registration of utility model

Ref document number: 5739899

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees