JP2013512476A - 複数の辞書を用いたスピーチ認識 - Google Patents
複数の辞書を用いたスピーチ認識 Download PDFInfo
- Publication number
- JP2013512476A JP2013512476A JP2012542019A JP2012542019A JP2013512476A JP 2013512476 A JP2013512476 A JP 2013512476A JP 2012542019 A JP2012542019 A JP 2012542019A JP 2012542019 A JP2012542019 A JP 2012542019A JP 2013512476 A JP2013512476 A JP 2013512476A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- vehicle system
- vocabulary
- access command
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims 7
- 238000001514 detection method Methods 0.000 claims 3
- 230000000007 visual effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 32
- 230000003068 static effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Navigation (AREA)
Abstract
スピーチ認識性能を向上するために、スピーチ認識部を備える車内システムおよびその方法を提供する。スピーチ認識部は、多数の語彙辞書を有している。前記した語彙辞書の各々は、複数のコマンドに対応している音声データを含む。車内システムがスピーチ入力情報を受信すると、スピーチ認識部は、前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むか否か判定する。前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むと判定される場合、辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、前記判定があったスピーチアクセスコマンドに対応している語彙辞書に切り替える。そうでない場合、辞書切り替え部は、前記した現在使用中の辞書を、第1の語彙辞書に切り替える。前記受信したスピーチ入力情報に含まれるコマンドは、前記切り替えられた後の現在使用中の辞書を用いているスピーチ認識部が認識する。
【選択図】図4
【選択図】図4
Description
≪関連出願の相互参照≫
本願は、2009年12月1日に出願された米国実用新案出願第12/628,476号を基礎として優先権を主張するものであり、基礎となるこの出願の全体は、参照することにより本明細書中に組み込まれている。
本願は、2009年12月1日に出願された米国実用新案出願第12/628,476号を基礎として優先権を主張するものであり、基礎となるこの出願の全体は、参照することにより本明細書中に組み込まれている。
≪背景≫
(発明の技術分野)
本内容は、複数の語彙辞書データベースを利用するためのスピーチ認識システムおよびその方法に関する。具体的には、本内容は、スピーチ認識システムが用いる複数の語彙辞書データベースの中から1つを選択することに関する。
(発明の技術分野)
本内容は、複数の語彙辞書データベースを利用するためのスピーチ認識システムおよびその方法に関する。具体的には、本内容は、スピーチ認識システムが用いる複数の語彙辞書データベースの中から1つを選択することに関する。
(従来技術に関する説明)
スピーチ認識システムは、1または複数の語彙辞書データベースを用いて、ユーザが述べた言葉を音声により照合する。既存のスピーチ認識システム内のスピーチ認識制御は、語彙辞書データベースの容量および利用可能なコマンドの種類によって制限されてしまう。一般的には、語彙辞書データベースの容量が増大すると、スピーチ認識システムの認識精度は低下する。このことは、スピーチ認識システムで用いられる既存のスピーチコマンドと似たように聴こえる音楽の曲名の多様さに起因して音楽の曲名がスピーチコマンドに含まれている場合に特に当てはまる。
スピーチ認識システムは、1または複数の語彙辞書データベースを用いて、ユーザが述べた言葉を音声により照合する。既存のスピーチ認識システム内のスピーチ認識制御は、語彙辞書データベースの容量および利用可能なコマンドの種類によって制限されてしまう。一般的には、語彙辞書データベースの容量が増大すると、スピーチ認識システムの認識精度は低下する。このことは、スピーチ認識システムで用いられる既存のスピーチコマンドと似たように聴こえる音楽の曲名の多様さに起因して音楽の曲名がスピーチコマンドに含まれている場合に特に当てはまる。
いくつかの既存のスピーチ認識システムは、多数の語彙辞書データベースを利用して認識精度を向上させている。1つのスピーチ認識システムに関していえば、そのシステムは、少なくとも1つの絞り込み条件によって分類される階層構造からなる多数の辞書を用いる。例えば、前記した1つのスピーチ認識システムは、小項目単位からなる多数の逐次的なスピーチ認識入力ステップを実行すると、スピーチ入力プロンプトに応じて利用される複数の異なる辞書によって適切な一続きの言葉を認識する。
他の既存のスピーチ認識システムに関していえば、多数のスピーチ認識エンジンは、異なる認識モデルおよび異なる辞書データベースを用いる複数のスピーチ認識エンジンの各々と並行して動作することができる。複数のスピーチ認識エンジンのいずれを用いるかという選択は、予め決めてもよいし、ユーザからの入力情報の内容に基づいて動的に選択されてもよい。認識モデルは階層化することで、適切なモデルを選択することを単純化できる。
このような事情に鑑みて、本発明は、スピーチ認識精度を向上するために、スピーチ認識部を有する車内システムおよびその方法を提供することを目的とする。
≪要約≫
この要約は、複数ある概念から一つ選択した概念を単純化して紹介するものであり、その概念は、下記の詳細な説明にてさらに説明されている。この要約は、請求項の発明特定事項のうち重要な特徴または本質的な特徴を特定することを意図するものでもないし、請求項の発明特定事項の範囲を限定するために用いられることを意図するものでもない。
この要約は、複数ある概念から一つ選択した概念を単純化して紹介するものであり、その概念は、下記の詳細な説明にてさらに説明されている。この要約は、請求項の発明特定事項のうち重要な特徴または本質的な特徴を特定することを意図するものでもないし、請求項の発明特定事項の範囲を限定するために用いられることを意図するものでもない。
一実施形態では、スピーチ認識部は、2つの語彙辞書を含む。2つの語彙辞書の各々は、コマンドの種類ごとに対応している音声データを含む。車内システムがスピーチ入力情報を受信すると、前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むか否かの判定がなされる。スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれていると判定された場合、車内システムの辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、2つの語彙辞書のうちの第2の辞書に切り替える。スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれていないと判定された場合、辞書切り替え部は、現在使用中の辞書を、2つの語彙辞書のうちの第1の辞書に切り替える。車内システムのスピーチ認識部は、現在使用中の辞書を用いることによって前記受信したスピーチ入力情報に含まれているコマンドを認識することができる。
他の実施形態では、車内システムのスピーチ認識部は、2またはより多くの語彙辞書を含む。2またはより多くの語彙辞書の各々は、アプリケーションおよび/または動作モードごとに対応している。スピーチ入力情報を受信すると、スピーチ認識部は、多数のスピーチアクセスコマンドのうちの一つが前記受信したスピーチ入力情報に含まれているか否か判定する。車内システムが多数の動作モードのうちの任意の一つをとっている間、多数のスピーチアクセスコマンドの一つが前記受信したスピーチ入力情報に含まれていると判定された場合、車内システムの辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、2またはより多くの語彙辞書のうち、多数のスピーチアクセスコマンドのうちの前記判定された1つに対応している辞書に切り替える。その結果、前記受信したスピーチ入力情報に含まれているコマンドは、現在使用中の辞書を用いるスピーチ認識部によって認識される。
いくつかの実施形態では、スピーチ認識部が、特定のアルゴリズムと対応している語彙辞書を用いてスピーチ入力情報を認識する場合には、多数の語彙辞書のいくつかは、スピーチ認識性能を補完、促進、または向上するために、前記した多数の語彙辞書に対応している特定の複数のアルゴリズムを有していてもよい。
≪図面の簡単な説明≫
上記で採り上げた、そしてその他の効果および特徴を得る方法を説明するために、より詳細な説明が以下に述べられており、そしてこの説明は、添付した図面で説明されている具体的な実施形態を参照することによって表現されるであろう。これらの図面が典型的な実施形態を描写したにすぎず、したがってその範囲を限定しないものであることを理解すれば、本発明の実施内容は、添付の図面を用いることでより具体的に、かつ、詳細に表現され、説明されるであろう。
上記で採り上げた、そしてその他の効果および特徴を得る方法を説明するために、より詳細な説明が以下に述べられており、そしてこの説明は、添付した図面で説明されている具体的な実施形態を参照することによって表現されるであろう。これらの図面が典型的な実施形態を描写したにすぎず、したがってその範囲を限定しないものであることを理解すれば、本発明の実施内容は、添付の図面を用いることでより具体的に、かつ、詳細に表現され、説明されるであろう。
≪詳細な説明≫
(概説)
スピーチ認識部を有するシステムおよび方法を提供する。スピーチ認識部は、2つの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定のモード用または特定のアプリケーション用として使用可能である。例えば、第1の語彙辞書データベースは、前記した第1の語彙辞書データベースに対応している第1の集合のスピーチコマンドを有する。前記した第1の集合のスピーチコマンドは、車内システムが第1のモードで動作している場合、または車内システムが第1のアプリケーションを実行している場合に用いられる。
ユーザは、スピーチ入力情報によって、第2の語彙辞書データベースに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースに切り替えることができる。第2の語彙辞書データベースは、前記した第2の語彙辞書データベースに対応している第2の集合のスピーチコマンドを有する。前記した第2の集合のスピーチコマンドは、車内システムが第2のモードで動作している場合、または車内システムが第2のアプリケーションを実行している場合に用いられる。
(概説)
スピーチ認識部を有するシステムおよび方法を提供する。スピーチ認識部は、2つの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定のモード用または特定のアプリケーション用として使用可能である。例えば、第1の語彙辞書データベースは、前記した第1の語彙辞書データベースに対応している第1の集合のスピーチコマンドを有する。前記した第1の集合のスピーチコマンドは、車内システムが第1のモードで動作している場合、または車内システムが第1のアプリケーションを実行している場合に用いられる。
ユーザは、スピーチ入力情報によって、第2の語彙辞書データベースに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースに切り替えることができる。第2の語彙辞書データベースは、前記した第2の語彙辞書データベースに対応している第2の集合のスピーチコマンドを有する。前記した第2の集合のスピーチコマンドは、車内システムが第2のモードで動作している場合、または車内システムが第2のアプリケーションを実行している場合に用いられる。
他の実施形態では、スピーチ認識部は、2よりも多くの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定の動作モード用または特定のアプリケーション用として使用可能である。例えば、第1の語彙辞書データベースは、前記した第1の語彙辞書データベースに対応している第1の集合のスピーチコマンドを有する。前記した第1の集合のスピーチコマンドは、車内システムが第1のモードで動作している場合、または車内システムが第1のアプリケーションを実行している場合に用いられる。
第2の語彙辞書データベースは、前記した第2の語彙辞書データベースに対応している第2の集合のスピーチコマンドを有する。前記した第2の集合のスピーチコマンドは、車内システムが第2のモードで動作している場合、または車内システム第2のアプリケーションを実行している場合に用いられる。第3の語彙辞書データベースは、前記した第3の語彙辞書データベースに対応している第3の集合のスピーチコマンドを有する。前記した第3の集合のスピーチコマンドは、車内システムが第3のモードで動作している場合、または車内システムが第3のアプリケーションを実行している場合、などに用いられる。
ユーザは、(車内システムがN個の語彙辞書データベースを有している場合には、)スピーチ入力情報によって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから所望する1つに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから任意のものに切り替えることができる。車内システムが動作しているときのモード、または車内システムが現在実行中のアプリケーションがどれであるか、ということに関係なく、ユーザは、スピーチ入力情報によって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから所望する1つに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから前記した所望する1つに切り替えることができる。いくつかの実施形態では、スピーチ入力情報によってアクセスコマンドが1つも提供されない場合には、スピーチ認識部が第1の語彙辞書データベースを用いることによって、スピーチ入力情報を認識してもよい。
第2の語彙辞書データベースは、前記した第2の語彙辞書データベースに対応している第2の集合のスピーチコマンドを有する。前記した第2の集合のスピーチコマンドは、車内システムが第2のモードで動作している場合、または車内システム第2のアプリケーションを実行している場合に用いられる。第3の語彙辞書データベースは、前記した第3の語彙辞書データベースに対応している第3の集合のスピーチコマンドを有する。前記した第3の集合のスピーチコマンドは、車内システムが第3のモードで動作している場合、または車内システムが第3のアプリケーションを実行している場合、などに用いられる。
ユーザは、(車内システムがN個の語彙辞書データベースを有している場合には、)スピーチ入力情報によって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから所望する1つに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから任意のものに切り替えることができる。車内システムが動作しているときのモード、または車内システムが現在実行中のアプリケーションがどれであるか、ということに関係なく、ユーザは、スピーチ入力情報によって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから所望する1つに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから前記した所望する1つに切り替えることができる。いくつかの実施形態では、スピーチ入力情報によってアクセスコマンドが1つも提供されない場合には、スピーチ認識部が第1の語彙辞書データベースを用いることによって、スピーチ入力情報を認識してもよい。
(装置の具体例)
図1は、計算装置に実装されている車内システム100の実施形態の例を示す機能ブロック図である。車内スピーチシステム100は、プロセッサ102と、メモリ104と、入力装置106と、出力装置108と、スピーチ認識部110と、辞書切り替え部114とを備える。
図1は、計算装置に実装されている車内システム100の実施形態の例を示す機能ブロック図である。車内スピーチシステム100は、プロセッサ102と、メモリ104と、入力装置106と、出力装置108と、スピーチ認識部110と、辞書切り替え部114とを備える。
プロセッサ102は、1または複数の標準的なプロセッサであって、有形媒体に記憶されている命令文を解釈して実行する。前記有形媒体は、例えば、メモリ104、メディアカード、フラッシュRAM、またはその他の有形媒体である。
メモリ104は、RAM(Random Access Memory)または他の種類の動的記憶装置、およびROM(Read Only Memory)または他の種類の静的記憶装置を含み、プロセッサ102による実行のための情報および命令文を記憶する。RAMまたは他の種類の動的記憶装置は、命令文および、プロセッサ102による命令文の実行中に用いられる一時的な変数または他の中間情報を記憶する。ROMまたは他の種類の静的記憶装置は、プロセッサ102用の静的情報および命令文を記憶する。
メモリ104は、RAM(Random Access Memory)または他の種類の動的記憶装置、およびROM(Read Only Memory)または他の種類の静的記憶装置を含み、プロセッサ102による実行のための情報および命令文を記憶する。RAMまたは他の種類の動的記憶装置は、命令文および、プロセッサ102による命令文の実行中に用いられる一時的な変数または他の中間情報を記憶する。ROMまたは他の種類の静的記憶装置は、プロセッサ102用の静的情報および命令文を記憶する。
入力装置106は、スピーチ入力用のマイクロフォンまたは他の装置を含む。出力装置108は、1または複数のスピーカ、ヘッドセット、または音出力用の他の音再生装置、出力表示用の表示装置、および/または他の種類の出力装置を含む。
スピーチ認識部110は、スピーチ入力情報を認識し、前記認識したスピーチ入力情報をテキストに変換する。スピーチ認識部110は、2またはより多くの語彙辞書データベース(以下、“語彙辞書”と称する)112を含む。語彙辞書112は、複数の口頭コマンドに合致する複数の音声データを含む。いくつかの実施形態では、1または複数の語彙辞書112は、音楽に関する情報を含むことができる。例えば、曲名、アルバム名、アーティスト名、ジャンル、およびその他の情報に関する音声データを含むことができる。いくつかの実施形態では、スピーチ認識部110は、プロセッサ102が実行する1または複数のソフトウェアモジュールを備えることができる。
辞書切り替え部114は、複数ある語彙辞書112の1つを他の語彙辞書112に切り替える。いくつかの実施形態では、辞書切り替え部114は、1または複数のソフトウェアモジュールを備えてよい。いくつかの実施形態では、前記ソフトウェアモジュールは、スピーチ認識部110の一部として構成することができる。他の実施形態では、辞書切り替え部114は、スピーチ認識部110と分離することができる。
図2は、2つの語彙辞書を有する実施形態における処理の例を示すフローチャートである。複数の語彙辞書の一つである第1の語彙辞書は、複数の基本コマンドに合致する複数の音声データを含む。一実施形態では、前記した基本コマンドは、1または複数の気候制御コマンド、音響システムコマンド、および/またはナビゲーションコマンド、それから他の種類のコマンドを含む。複数の語彙辞書の一つである第2の語彙辞書は、1または複数の曲名、アルバム名、アーティスト名、および/またはジャンル、それから他の情報に合致する複数の音声データを含む。
本処理は、はじめに車内システム100が任意のモードで動作している間に、または車内システムの表示装置が任意の画面を表示している間に、車内システム100の入力装置106がスピーチ入力情報を受信する(処理202)。
その後、スピーチ認識部110は、スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれているか否か判定する(処理204)。本実施形態では、スピーチアクセスコマンドは、特定の言葉または特定の語句を含むものであり、例えば、“曲名再生”、“アルバム名再生”、“アーティスト一覧表示”、などがある。例えば、一実施形態では、ユーザは、曲名を含む語彙辞書を求めることを意味する“曲名再生”という語句を発することができる。
その後、スピーチ認識部110は、スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれているか否か判定する(処理204)。本実施形態では、スピーチアクセスコマンドは、特定の言葉または特定の語句を含むものであり、例えば、“曲名再生”、“アルバム名再生”、“アーティスト一覧表示”、などがある。例えば、一実施形態では、ユーザは、曲名を含む語彙辞書を求めることを意味する“曲名再生”という語句を発することができる。
受信したスピーチ入力情報は、<複数の語彙辞書の一つである第2の語彙辞書を求めることを意味するスピーチアクセスコマンド><複数の語彙辞書の一つである第2の語彙辞書に含まれるコマンド>といった形式をとることができる。したがって、前記した実施形態において、ユーザは、“曲名再生。ベートーヴェンの交響曲第5番。”と発することができる。ここで、“曲名再生”は、複数の語彙辞書の一つである第2の語彙辞書を求めることを意味するスピーチアクセスコマンドであり、“ベートーヴェンの交響曲第5番”は、スピーチ認識部110が複数の語彙辞書の一つである第2の語彙辞書を用いて認識することになる曲名である。
スピーチ認識部110は、受信したスピーチ入力情報がスピーチアクセスコマンドを含むと判定した場合、辞書切り替え部114は、現在使用中の辞書を語彙辞書Bに切り替える(処理206)。その後、車内システム100は、語彙辞書Bへの切り替えを確認する(処理208)。しかしながら、いくつかの他の実施形態では、車内システム100は、語彙辞書Bへの切り替えを確認しなくともよい。
車内システム100は、多数の異なる方法で前記した切り替えを確認することができる。例えば、語彙辞書Bが曲名に合致する音声データを含む場合、車内システム100は、音再生出力装置によって、“曲名を言ってください”などのスピーチ生成プロンプト、または他のスピーチ生成プロンプトを出力することができる。いくつかの実施形態では、車内システム100は、表示装置に重ね合わせ画面を表示することによって語彙辞書Bへの切り替えを確認してもよい。
図3は、多数のコマンドを表示する重ね合わせ画面の例を示している。前記したコマンドは、語彙辞書Bを用いるスピーチ認識部110が認識する。図3に示すように、例示した重ね合わせ画面を表示することによって、車内システム100は、スピーチアクセスコマンドを認識したことを確認している。
図3は、多数のコマンドを表示する重ね合わせ画面の例を示している。前記したコマンドは、語彙辞書Bを用いるスピーチ認識部110が認識する。図3に示すように、例示した重ね合わせ画面を表示することによって、車内システム100は、スピーチアクセスコマンドを認識したことを確認している。
図3に示すように、語彙辞書Bを用いるスピーチ認識部110が認識するコマンドは、“アーティスト再生”続いてアーティスト名、“トラック再生”続いてトラック名、“アルバム再生”続いてアルバム名、“ジャンル再生”続いてジャンル名、“プレイリスト再生”続いてプレイリスト名、“ジャンル検索”続いてジャンル名、“アーティスト検索”続いてアーティスト名、“アルバム検索”続いてアルバム名、とすることができる。他の実施形態では、スピーチ認識部110は、語彙辞書Bを用いて他のコマンドを認識することができる。
車内システム100が語彙辞書Bへの切り替えを確認した後、スピーチ認識部110は、受信したスピーチ入力情報に含まれる語彙辞書Bのコマンドを認識することに対応する任意の処理を実行する(処理210)。場合によっては、スピーチ認識部110は、語彙辞書Bのコマンドを認識することに対応する処理を実行しなくてもよい。
その後、車内システム100は、処理202を再度実行する。
もし、処理204を実行中に、スピーチ認識部110が、受信したスピーチ入力情報がスピーチアクセスコマンドを含まないと判定した場合、辞書切り替え部114は、語彙辞書Aに切り替える(処理212)。その後、スピーチ認識部110は、受信したスピーチ入力情報に含まれる語彙辞書Aのコマンドを認識することに対応する任意の処理を実行する(処理214)。
その後、車内システム100は、処理202を再度実行する。
前記した実施形態は、2つの語彙辞書を用いる。しかしながら、他の実施形態では、スピーチ認識部110が2またはより多くの語彙辞書を用いることができる。語彙辞書の各々は、車内システム100の動作モードごと、または車内システム100が実行するアプリケーションごとに対応している。例えば、いくつかの実施形態において、語彙辞書Aは、基本スピーチコマンドに合致する音声データを含む。また、語彙辞書Bは、天候制御モードおよび/または第1のアプリケーションのための天候制御コマンドに合致する音声データを含む。
また、語彙辞書Cは、ナビゲーション制御モードおよび/または第2のアプリケーションのためのコマンドに合致する音声データを含む。また、語彙辞書Cは、音響制御モードおよび/または第3のアプリケーションに合致する音声データを含む。他の実施形態では、スピーチ認識部110は、さらに多くの語彙辞書を有してもよいし、および/または他のモードおよび他のアプリケーションのための語彙辞書を有してもよい。
また、語彙辞書Cは、ナビゲーション制御モードおよび/または第2のアプリケーションのためのコマンドに合致する音声データを含む。また、語彙辞書Cは、音響制御モードおよび/または第3のアプリケーションに合致する音声データを含む。他の実施形態では、スピーチ認識部110は、さらに多くの語彙辞書を有してもよいし、および/または他のモードおよび他のアプリケーションのための語彙辞書を有してもよい。
図4は、スピーチ認識部110が2またはより多くの語彙辞書を有する実施形態における処理の例を示すフローチャートである。本処理は、はじめに車内システム100が任意のモードで動作している間に、車内システム100が複数の語彙辞書の一つに対応している任意のアプリケーションを実行している間に、または車内システムの表示装置が任意の画面を表示している間に、車内システム100がスピーチ入力情報を受信する(処理402)。その後、スピーチ認識部110は、多数のスピーチアクセスコマンドの一つが前記受信したスピーチ入力情報に含まれているか否か判定する(処理404)。本実施形態では、複数のスピーチアクセスコマンドの各々は、特定の言葉または特定の語句を含むことができ、そのような言葉または語句としては例えば、“曲名再生”、“天候制御”、“ナビゲーション制御”、などがある。
もし、処理404を実行中に、スピーチ認識部110は、受信したスピーチ入力情報が多数のスピーチアクセスコマンドのうちの一つを含むと判定した場合、辞書切り替え部114は、現在使用中の辞書を、多数のスピーチアクセスコマンドのうちの一つに合致する2またはより多くの語彙辞書のうちの一つに切り替える(処理406)。その後、車内システム100は、2またはより多くの語彙辞書のうちの一つへの切り替えを確認する(処理408)。いくつかの実施形態では、車内システム100は、語彙辞書Bへの切り替えを確認しなくてもよい。
前記した切り替えを確認する実施形態では、車内システム100は、多数の異なる方法で前記した切り替えを確認することができる。例えば、前記した2またはより多くの語彙辞書のうちの一つが曲名に合致する音声データを含む場合、車内システム100は、音再生出力装置によって、“曲名を言ってください”などのスピーチ生成プロンプト、または他のスピーチ生成プロンプトを出力することができる。いくつかの実施形態では、車内システム100は、表示装置に重ね合わせ画面、例えば図3に例示した重ね合わせ画面を表示することによって前記した2またはより多くの語彙辞書のうちの一つへの切り替えを確認してもよい。いくつかの実施形態では、異なる複数の重ね合わせ画面の各々は、語彙辞書ごとに対応付けることができる。例示した重ね合わせ画面を表示することによって、車内システム100は、多数のスピーチアクセスコマンドのうちの一つを認識したことを確認している。
2またはより多くの語彙辞書の一つへの切り替えを確認した後、スピーチ認識部110は、受信したスピーチ入力情報に含まれるコマンドを認識することに対応する任意の処理を実行する(処理410)。場合によっては、スピーチ認識部110は、前記コマンドを認識することに対応する処理を実行しなくてもよい。
その後、車内システム100は、処理402を再度実行する。
もし、処理404を実行中に、スピーチ認識部110が、受信したスピーチ入力情報が多数のスピーチアクセスコマンドのうちの一つを含まないと判定した場合、辞書切り替え部114は、現在使用中の辞書を語彙辞書Aに切り替える(処理412)。その後、スピーチ認識部110は、受信したスピーチ入力情報に含まれる語彙辞書Aのコマンドを認識することに対応する任意の処理を実行する(処理414)。語彙辞書Aは、基本コマンドに合致する音声データを含んでよい。
その後、車内システム100は、処理402を再度実行する。
(その他)
前記した実施形態の変形例では、車内システム100が少なくともいくつかの語彙辞書のうちの一つに対応しているモードで動作している間に、または、車内システム100が少なくともいくつかの語彙辞書のうちの一つに対応しているアプリケーションを実行している間に用いられ、スピーチ認識性能を高め、または改善する特定のアルゴリズムと、少なくともいくつかの語彙辞書とを一緒に用いることができる。
例えば、スピーチ認識部110は、少なくともいくつかの語彙辞書を補完することで、スピーチ入力情報に含まれる誤って発音された特定のスピーチコマンドを認識することができる。前記した補完された語彙辞書の各々は、他の語彙辞書とは区別して補完することができる。他の実施形態では、他のアルゴリズムを用いたり機能追加・拡張を行ったりすることで、語彙辞書のいくつかまたはすべてに関するスピーチ認識性能を向上させることができる。
前記した実施形態の変形例では、車内システム100が少なくともいくつかの語彙辞書のうちの一つに対応しているモードで動作している間に、または、車内システム100が少なくともいくつかの語彙辞書のうちの一つに対応しているアプリケーションを実行している間に用いられ、スピーチ認識性能を高め、または改善する特定のアルゴリズムと、少なくともいくつかの語彙辞書とを一緒に用いることができる。
例えば、スピーチ認識部110は、少なくともいくつかの語彙辞書を補完することで、スピーチ入力情報に含まれる誤って発音された特定のスピーチコマンドを認識することができる。前記した補完された語彙辞書の各々は、他の語彙辞書とは区別して補完することができる。他の実施形態では、他のアルゴリズムを用いたり機能追加・拡張を行ったりすることで、語彙辞書のいくつかまたはすべてに関するスピーチ認識性能を向上させることができる。
前記した実施形態では、受信したスピーチ入力情報のなかにスピーチアクセスコマンドが何ら検出されなかった場合、スピーチ認識部110は、語彙辞書Aを用いて前記受信したスピーチ入力情報を認識することができる。他の実施形態では、特定の語彙辞書に切り替えられた後、スピーチ認識部110は、前記した特定の語彙辞書を用いて、受信したスピーチ入力情報のなかにスピーチアクセスコマンドを検出するまで、受信したスピーチ入力情報の認識を継続し、その結果、他の特定の語彙辞書に切り替える。
(まとめ)
本発明の発明特定事項は、構造的特徴および/または方法論的処理が明確になるような言語で説明されたものであるけれども、添付した特許請求の範囲の請求項における発明特定事項は、これまでに述べた具体的な特徴または処理に限定されるわけでは必ずしもないことを理解すべきである。むしろ、これまでに述べた具体的な特徴または処理は、請求項を説明するための形式の一例として開示されている。
本発明の発明特定事項は、構造的特徴および/または方法論的処理が明確になるような言語で説明されたものであるけれども、添付した特許請求の範囲の請求項における発明特定事項は、これまでに述べた具体的な特徴または処理に限定されるわけでは必ずしもないことを理解すべきである。むしろ、これまでに述べた具体的な特徴または処理は、請求項を説明するための形式の一例として開示されている。
上記した説明は、具体的な詳細を含むものであるが、決して請求項を限定するものとして解釈してはならない。これまでに説明した実施形態の他の態様は、本明細書での開示内容の範囲の一部である。また、図2および図4のフローチャートで説明される処理は、他の実施形態においては異なる順序で実行することができ、より多くの処理を含むことができたり、またはより少ない処理で済ませたりすることができる。さらに、他の実施形態では、他の装置または部品が上記の処理の一部を実行してもよい。したがって、添付した特許請求の範囲の請求項およびそれらの均等物は、いかなる具体例が示されたとしてもそれら以上に、本発明を定義する。
100 車内システム
110 スピーチ認識部
112 語彙辞書
114 辞書切り替え部
110 スピーチ認識部
112 語彙辞書
114 辞書切り替え部
Claims (19)
- ユーザからのスピーチ入力情報を認識するスピーチ認識部と、
前記スピーチ認識部が前記スピーチ入力情報を認識する場合に用いられ、各々がアプリケーションごとに対応している複数の語彙辞書と、
前記車内システムが複数のモードのうち任意の一つで動作している間、ユーザから発せられたスピーチアクセスコマンドを前記スピーチ認識部が認識することに応答して、前記複数の語彙辞書のうち現在使用中の一つを切り替える辞書切り替え部と、を備える
ことを特徴とする車内システム。 - さらに、表示装置を備え、
前記車内システムは、前記表示装置に表示するための複数の画面を有し、
前記複数の画面のうちいずれが前記表示装置に現在表示されているか、ということに関係なく、前記スピーチ認識部が前記発せられたスピーチアクセスコマンドを認識することに応答して、前記辞書切り替え部は、前記複数の語彙辞書のうち現在使用中の一つを切り替える
ことを特徴とする請求項1に記載の車内システム。 - 前記辞書切り替え部が前記複数の語彙辞書のうち現在使用中の一つを切り替える場合、前記車内システムは、前記表示装置に重ね合わせ画面を表示する
ことを特徴とする請求項2に記載の車内システム。 - 前記スピーチ認識部は、前記複数の語彙辞書のうち現在使用中の一つに基づいた一組の特定のアルゴリズムを選択的に用いて、スピーチ認識精度を向上させる
ことを特徴とする請求項1に記載の車内システム。 - 前記スピーチ認識部は、前記スピーチアクセスコマンドを認識したことの確認がユーザに提供されるようにする
ことを特徴とする請求項1に記載の車内システム。 - 前記確認は、視覚的な確認を含む
ことを特徴とする請求項5に記載の車内システム。 - 前記複数の語彙辞書の少なくとも一つは、曲名に合致する音声データを含む
ことを特徴とする請求項1に記載の車内システム。 - スピーチ認識部を備える車内システムが実行し、前記スピーチ認識部が用いる複数の語彙辞書のうち現在使用中の一つを切り替える方法であって、
前記方法は、
受信したスピーチ入力情報に含まれるスピーチアクセスコマンドを認識するステップと、
前記認識されたスピーチアクセスコマンドに基づいて、前記スピーチ認識部が用いる前記複数の語彙辞書のうち前記した現在使用中の一つを切り替えるステップと、を有し、
前記方法は、前記車内システムが実行する
ことを特徴とする方法。 - 前記複数の語彙辞書のうち前記切り替えられる現在使用中の一つは、複数のスピーチアクセスコマンドのうちのいずれが認識されるか、ということに基づいている
ことを特徴とする請求項8に記載の方法。 - さらに、前記スピーチアクセスコマンドを検出したことの確認を提供するステップ、を有する
ことを特徴とする請求項8に記載の方法。 - 前記確認を提供するステップは、さらに、
前記車内システムの表示装置に重ね合わせ画面を表示するステップ、を有する
ことを特徴とする請求項10に記載の方法。 - 前記確認を提供するステップは、さらに、
前記スピーチアクセスコマンドを認識したことのスピーチ生成による確認を提供するステップ、を有する
ことを特徴とする請求項10に記載の方法。 - さらに、
各々が前記複数の語彙辞書ごとに対応している複数のモードで動作するステップ、を有し、
前記複数のモードのいずれが現在使用可能であるか、ということとは無関係に、前記スピーチアクセスコマンドは、前記スピーチ認識部によって認識可能である
ことを特徴とする請求項8に記載の方法。 - 計算装置のプロセッサが実行するための命令文が記録される有形機械読み取り可能媒体であって、
前記プロセッサが前記命令文を実行する場合、前記計算装置は、
スピーチアクセスコマンドを含むスピーチ入力情報を受信するステップと、
前記スピーチアクセスコマンドを検出するステップと、
前記スピーチアクセスコマンドの検出に応答して、スピーチ認識のために、現在使用中の語彙辞書を切り替えるステップと、を有する方法を実行する
ことを特徴とする有形機械読み取り可能媒体。 - 前記スピーチアクセスコマンドは、前記計算装置が認識可能な複数のスピーチアクセスコマンドの一つであり、
前記複数のスピーチアクセスコマンドのうちの任意の一つを認識することで、前記計算装置は、複数の動作モードのうち合致する一つをとる
ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。 - 前記方法は、さらに、
前記計算装置のユーザに対し、前記スピーチアクセスコマンドの検出を確認するステップ、を有する
ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。 - 前記スピーチアクセスコマンドの検出を確認するステップは、
前記計算装置の表示装置に重ね合わせ画面を表示するステップ、を有する
ことを特徴とする請求項16に記載の有形機械読み取り可能媒体。 - 前記スピーチアクセスコマンドは、前記計算装置が認識可能である複数のスピーチアクセスコマンドのうちの一つであり、
前記方法は、さらに、
認識される前記複数のスピーチアクセスコマンドのうちの一つに基づいた複数の重ね合わせ画面のうちの一つを、前記計算装置の表示装置に表示するステップ、を有する
ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。 - 前記スピーチアクセスコマンドは、前記計算装置が認識可能である複数のスピーチアクセスコマンドの一つであり、
前記方法は、さらに、
認識される前記複数のスピーチアクセスコマンドのうちの一つに基づいた複数のスピーチ生成プロンプトのうちの一つを出力することで、前記スピーチアクセスコマンドを認識したことを確認するステップと、を有する
ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/628,476 | 2009-12-01 | ||
US12/628,476 US20110131040A1 (en) | 2009-12-01 | 2009-12-01 | Multi-mode speech recognition |
PCT/US2010/055415 WO2011068619A1 (en) | 2009-12-01 | 2010-11-04 | Multi-dictionary speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013512476A true JP2013512476A (ja) | 2013-04-11 |
Family
ID=43296936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012542019A Pending JP2013512476A (ja) | 2009-12-01 | 2010-11-04 | 複数の辞書を用いたスピーチ認識 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110131040A1 (ja) |
EP (1) | EP2507793A1 (ja) |
JP (1) | JP2013512476A (ja) |
WO (1) | WO2011068619A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015045765A (ja) * | 2013-08-28 | 2015-03-12 | シャープ株式会社 | 制御装置、制御装置の制御方法、および、制御プログラム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011091402A1 (en) * | 2010-01-25 | 2011-07-28 | Justin Mason | Voice electronic listening assistant |
KR101828273B1 (ko) * | 2011-01-04 | 2018-02-14 | 삼성전자주식회사 | 결합기반의 음성명령 인식 장치 및 그 방법 |
WO2013043393A1 (en) | 2011-09-23 | 2013-03-28 | Digimarc Corporation | Context-based smartphone sensor logic |
US9336774B1 (en) * | 2012-04-20 | 2016-05-10 | Google Inc. | Pattern recognizing engine |
JP6155592B2 (ja) * | 2012-10-02 | 2017-07-05 | 株式会社デンソー | 音声認識システム |
US9311640B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods and arrangements for smartphone payments and transactions |
US11487501B2 (en) * | 2018-05-16 | 2022-11-01 | Snap Inc. | Device control using audio data |
JP2020047061A (ja) * | 2018-09-20 | 2020-03-26 | Dynabook株式会社 | 電子機器および制御方法 |
KR20210133600A (ko) * | 2020-04-29 | 2021-11-08 | 현대자동차주식회사 | 차량 음성 인식 방법 및 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1152983A (ja) * | 1997-08-07 | 1999-02-26 | Hitachi Eng & Services Co Ltd | 音声認識装置 |
JP2000137729A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 辞書検索装置及び辞書検索プログラムを記録した記録媒体 |
JP2002287792A (ja) * | 2001-03-27 | 2002-10-04 | Denso Corp | 音声認識装置 |
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
JP2006162782A (ja) * | 2004-12-03 | 2006-06-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP2007101892A (ja) * | 2005-10-04 | 2007-04-19 | Denso Corp | 音声認識装置 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3286339B2 (ja) * | 1992-03-25 | 2002-05-27 | 株式会社リコー | ウインドウ画面制御装置 |
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
WO1996037881A2 (en) * | 1995-05-26 | 1996-11-28 | Applied Language Technologies | Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
JP3556425B2 (ja) * | 1997-03-18 | 2004-08-18 | 株式会社東芝 | 共有辞書更新方法および辞書サーバ |
US6061646A (en) * | 1997-12-18 | 2000-05-09 | International Business Machines Corp. | Kiosk for multiple spoken languages |
US6301560B1 (en) * | 1998-01-05 | 2001-10-09 | Microsoft Corporation | Discrete speech recognition system with ballooning active grammar |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
JP3980791B2 (ja) * | 1999-05-03 | 2007-09-26 | パイオニア株式会社 | 音声認識装置を備えたマンマシンシステム |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
JP4116233B2 (ja) * | 2000-09-05 | 2008-07-09 | パイオニア株式会社 | 音声認識装置ならびにその方法 |
JP2002169828A (ja) * | 2000-11-30 | 2002-06-14 | Mitsubishi Electric Corp | 移動体用ナビゲーション装置 |
WO2002050816A1 (en) * | 2000-12-18 | 2002-06-27 | Koninklijke Philips Electronics N.V. | Store speech, select vocabulary to recognize word |
JP2003036088A (ja) * | 2001-07-23 | 2003-02-07 | Canon Inc | 音声変換の辞書管理装置 |
US7026957B2 (en) * | 2001-10-01 | 2006-04-11 | Advanced Public Safety, Inc. | Apparatus for communicating with a vehicle during remote vehicle operations, program product, and associated methods |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
JP2004163590A (ja) * | 2002-11-12 | 2004-06-10 | Denso Corp | 再生装置及びプログラム |
US7181396B2 (en) * | 2003-03-24 | 2007-02-20 | Sony Corporation | System and method for speech recognition utilizing a merged dictionary |
JP4377718B2 (ja) * | 2004-02-27 | 2009-12-02 | 富士通株式会社 | 対話制御システム及び方法 |
JP2005266198A (ja) * | 2004-03-18 | 2005-09-29 | Pioneer Electronic Corp | 音響情報再生装置および音楽データのキーワード作成方法 |
EP1693829B1 (en) * | 2005-02-21 | 2018-12-05 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
US20080065371A1 (en) * | 2005-02-28 | 2008-03-13 | Honda Motor Co., Ltd. | Conversation System and Conversation Software |
GB2428853A (en) * | 2005-07-22 | 2007-02-07 | Novauris Technologies Ltd | Speech recognition application specific dictionary |
DE102005030380B4 (de) * | 2005-06-29 | 2014-09-11 | Siemens Aktiengesellschaft | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems |
DE602006008570D1 (de) * | 2006-02-10 | 2009-10-01 | Harman Becker Automotive Sys | System für sprachgesteuerte Auswahl einer Audiodatei und Verfahren dafür |
JP4997796B2 (ja) * | 2006-03-13 | 2012-08-08 | 株式会社デンソー | 音声認識装置、及びナビゲーションシステム |
WO2007134293A2 (en) * | 2006-05-12 | 2007-11-22 | Nexidia, Inc. | Wordspotting system |
US7899673B2 (en) * | 2006-08-09 | 2011-03-01 | Microsoft Corporation | Automatic pruning of grammars in a multi-application speech recognition interface |
ATE527652T1 (de) * | 2006-12-21 | 2011-10-15 | Harman Becker Automotive Sys | Mehrstufige spracherkennung |
KR100883657B1 (ko) * | 2007-01-26 | 2009-02-18 | 삼성전자주식회사 | 음성 인식 기반의 음악 검색 방법 및 장치 |
TWI502380B (zh) * | 2007-03-29 | 2015-10-01 | Nokia Corp | 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品 |
-
2009
- 2009-12-01 US US12/628,476 patent/US20110131040A1/en not_active Abandoned
-
2010
- 2010-11-04 JP JP2012542019A patent/JP2013512476A/ja active Pending
- 2010-11-04 EP EP10776898A patent/EP2507793A1/en not_active Ceased
- 2010-11-04 WO PCT/US2010/055415 patent/WO2011068619A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1152983A (ja) * | 1997-08-07 | 1999-02-26 | Hitachi Eng & Services Co Ltd | 音声認識装置 |
JP2000137729A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 辞書検索装置及び辞書検索プログラムを記録した記録媒体 |
JP2002287792A (ja) * | 2001-03-27 | 2002-10-04 | Denso Corp | 音声認識装置 |
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
JP2006162782A (ja) * | 2004-12-03 | 2006-06-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP2007101892A (ja) * | 2005-10-04 | 2007-04-19 | Denso Corp | 音声認識装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015045765A (ja) * | 2013-08-28 | 2015-03-12 | シャープ株式会社 | 制御装置、制御装置の制御方法、および、制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2507793A1 (en) | 2012-10-10 |
WO2011068619A1 (en) | 2011-06-09 |
US20110131040A1 (en) | 2011-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013512476A (ja) | 複数の辞書を用いたスピーチ認識 | |
US11176936B2 (en) | Architecture for multi-domain natural language processing | |
JP4260788B2 (ja) | 音声認識機器制御装置 | |
KR101418163B1 (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
EP1693829B1 (en) | Voice-controlled data system | |
US8954329B2 (en) | Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information | |
US9805722B2 (en) | Interactive speech recognition system | |
US20150039316A1 (en) | Systems and methods for managing dialog context in speech systems | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
US9202459B2 (en) | Methods and systems for managing dialog of speech systems | |
US10838954B1 (en) | Identifying user content | |
US20090171663A1 (en) | Reducing a size of a compiled speech recognition grammar | |
JP2004510239A (ja) | ディクテーションとコマンドの区別を向上させる方法 | |
JP2002073075A (ja) | 音声認識装置ならびにその方法 | |
CN111916088B (zh) | 一种语音语料的生成方法、设备及计算机可读存储介质 | |
EP2682931B1 (en) | Method and apparatus for recording and playing user voice in mobile terminal | |
JP6896335B2 (ja) | 音声認識装置および音声認識方法 | |
EP2507792B1 (en) | Vocabulary dictionary recompile for in-vehicle audio system | |
JP2000181485A (ja) | 音声認識装置及び方法 | |
JP6987447B2 (ja) | 音声認識装置 | |
JP2000089782A (ja) | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
CN117059091A (zh) | 一种语音识别智能断句方法及装置 | |
JP2011215291A (ja) | 音声認識装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140610 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141014 |