JP2009527024A - 話者非依存的音声認識を有する通信装置 - Google Patents
話者非依存的音声認識を有する通信装置 Download PDFInfo
- Publication number
- JP2009527024A JP2009527024A JP2008555320A JP2008555320A JP2009527024A JP 2009527024 A JP2009527024 A JP 2009527024A JP 2008555320 A JP2008555320 A JP 2008555320A JP 2008555320 A JP2008555320 A JP 2008555320A JP 2009527024 A JP2009527024 A JP 2009527024A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- vector
- likelihood
- word model
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
Description
本出願は、35 U.S.C. §119(e)の下、参照により全体として本明細書に組み入れられる2006年2月14日出願の米国特許仮出願第60/773,577号の恩典を主張する。
記載する技術は、一般に、通信装置およびそのような通信装置における話者非依存的音声認識のための技術に関する。
モバイル電話は、ハンズフリー自動ダイヤリングのような特殊な機能を実行することを可能にするために話者依存的名前ダイヤリングを装備するようになった。モバイル電話環境では、音声認識の使用によるハンズフリーダイヤリングは、ユーザが、運転中、被呼者の名前または電話番号を読み上げることによって電話をかけることを可能にするために特に有用である。モバイル電話は、ユーザの音声を特徴データに変換し、その特徴データが音声認識手段によってさらに処理される。そのようなモバイル電話は、ユーザによって発声された被呼者の名前または番号を認識するために、認識名または番号の発音に先立ち、訓練を要する。典型的には、ユーザの音声の特徴データは、登録または訓練プロセス中にユーザによって事前に記録された名前に対応する事前記憶された特徴データの様々なセットに比較される。一致が見つかるならば、その名前に対応する番号がモバイル電話によって自動的にダイヤルされる。
説明される態様および明細書における「一つの態様」、「態様」、「例示的態様」などの言及は、説明される態様が特定の特徴、構造または特性を含むことができるが、各態様が必ずしも特定の特徴、構造または特性を含まなくてもよいということを示す。そのうえ、そのような語句は、必ずしも同じ態様を指すわけではない。さらには、特定の特徴、構造または特性がある態様に関連して説明される場合、そのような特徴、構造または特性を、明示的に記載されているかどうかを問わない他の態様と関連させて実現することが当業者の知識の範囲内であることが理解されよう。
本発明の様々な態様を上記で説明したが、そのような態様は、実例として提示しただけであり、限定として提示したものではないことが理解されよう。当業者には、本発明の本質および範囲を逸することなく、形態および詳細における様々な変更を加えることができることが自明であろう。したがって、本発明の範囲は、上記の例示的態様のいずれによっても限定されるべきではなく、請求の範囲およびその等価物にしたがってのみ定義されるべきである。
Claims (36)
- 以下の工程を含む、ボイスダイヤリング機能を備えた通信装置において音声認識を実行する方法:
a) 音声認識モードに入る工程;
b) 音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成する工程;
c) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する工程;
d) 該尤度ベクトルシーケンスを音声学的単語モデルにワーピングする工程;
e) 該音声学的単語モデルから単語モデル一致尤度を計算する工程;および
f) 単語モデル一致の最良一致の一つを認識結果として決定する工程。 - 音声学的単位が音声学的単語モデルの単語サブモデルとして働き、各音声学的単語モデルが単語モデルベクトルのシーケンスを含み、および該単語モデルベクトルの成分が、音声学的単語モデルのそれぞれの位置で音声学的単位のそれぞれ一つを見いだす期待値を示す、請求項1記載の方法。
- 各尤度ベクトルが、選択言語の内部表現を使用してそれぞれの入力特徴ベクトルから計算される、請求項1記載の方法。
- 内部言語表現が、特徴空間中の代表的特徴ベクトルの統計的分布を示す、音声学的単位の特徴ベクトルの代表的なものから計算された尤度分布を含む、請求項3記載の方法。
- 尤度分布の計算が登録モードで実施され、以下の工程を含む、請求項4記載の方法:
無ノイズ環境で異なる話者によって発声されたボイス入力サンプルを記録する工程;
選択言語で必要とされる音声学的単位に対応する、該ボイス入力サンプルの部分を選択する工程;および
選択部分から代表的特徴ベクトルを生成する工程。 - 現ユーザに関する話者特性適応ベクトルを決定する工程、および該話者特性適応ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新する工程
をさらに含む、請求項4記載の方法。 - 通信装置環境中のノイズを計測する工程;
計測したノイズからノイズ特徴ベクトルを処理する工程;および
該ノイズ特徴ベクトルを代表的特徴ベクトルに関連させることによって尤度分布を更新する工程
をさらに含む、請求項4記載の方法。 - ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、かつ尤度分布を更新する工程が、以下の工程を含む、請求項7記載の方法:
該話者特性適応ベクトルを各代表的特徴ベクトルで乗じて、第一の修正代表的特徴ベクトルを生成する工程;
該第一の修正代表的特徴ベクトルに該ノイズ特徴ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を更新尤度分布として決定する工程。 - 入力特徴ベクトル、ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、該ノイズ特徴ベクトルおよび該代表的特徴ベクトルが非対数成分を有し、ならびに該入力特徴ベクトルおよび該話者特性適応ベクトルが対数成分を有し、かつ尤度分布を更新する工程が、以下の工程を含む、請求項7記載の方法:
各代表的特徴ベクトルを該ノイズ特徴ベクトルに加えて、第一の修正代表的特徴ベクトルを生成する工程;
該第一の修正代表的特徴ベクトルの各成分を対数化する工程;
該第一の修正され、対数化された代表的特徴ベクトルに該話者特性適応ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を尤度分布として決定する工程。 - 話者特性適応ベクトルを決定することが各代表的特徴ベクトルに関する話者特性適応ベクトルの計算を含み、以下の工程をさらに含む、請求項7記載の方法:
最良一致の音声学的単位を各入力特徴ベクトルに割り当てる工程;
各入力特徴ベクトルとそれぞれの代表的特徴ベクトルとの間の差分ベクトルを計算する工程;および
各それぞれの代表的特徴ベクトルに関して音素固有平均化差分ベクトルを話者特性適応ベクトルとして計算する工程。 - 話者特性適応ベクトルが音素固有平均化差分ベクトルの平均をとったものである、請求項10記載の方法。
- 最良一致の単語モデルから名前を合成する工程、およびその名前に対応する番号をダイヤルする工程
をさらに含む、請求項1記載の方法。 - 音声学的単語モデルが、電話帳の中の名前から書記素・音素変換を使用して単語サブモデルのシーケンスとして生成される、請求項1記載の方法。
- 電話帳の中の名前の単語モデルを記憶するように構成された第一のメモリと;
音声認識モード中、ボイス入力から入力特徴ベクトルを生成するように構成されたボコーダと;
(a) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算するように構成された尤度ベクトル計算装置と、(b) 該尤度ベクトルシーケンスを該単語モデルにワーピングするように構成されたワーパと、(c) 該単語モデルから単語モデル一致尤度を計算するように構成された計算装置と、(d) 最良一致の単語モデルを認識結果として決定するように構成された決定装置とを含む、音声認識コンポーネントと;
音声認識モードを起動するように構成された制御装置
とを含む、ボイスダイヤリング機能を備えた通信装置において音声認識を実行するための機器。 - ボイス入力および環境ノイズをノイズ入力として記録するように構成されたマイクロフォン
をさらに含み;
ボコーダが該ノイズ入力からのノイズ特徴ベクトルを処理し、かつ
音声認識コンポーネントが、該ノイズ特徴ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新する、
各尤度ベクトルが、それぞれの入力特徴ベクトルから、音声学的単位の代表的特徴ベクトルから計算された尤度分布を使用して計算される、請求項14記載の機器。 - 現ユーザに関して話者特性適応ベクトルを決定し、該話者特性適応ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新するように構成された話者特性適応装置
をさらに含み、
各尤度ベクトルが、それぞれの入力特徴ベクトルから、音声学的単位の代表的特徴ベクトルから計算された尤度分布を使用して計算される、請求項14記載の機器。 - ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、話者特性適応装置が、以下の工程によって尤度分布を更新するように構成されている、請求項16記載の機器:
該話者特性適応ベクトルを各代表的特徴ベクトルで乗じて、第一の修正代表的特徴ベクトルを生成する工程;
該第一の修正代表的特徴ベクトルに該ノイズ特徴ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を尤度分布として決定する工程。 - 話者特性適応装置が、以下の工程によって話者特性適応ベクトルを決定または更新するように構成されている、請求項16記載の機器:
最良一致の音声学的単位を各入力特徴ベクトルに割り当てる工程;
各入力特徴ベクトルとそれぞれの代表的特徴ベクトルとの間の差分ベクトルを計算する工程;
音声学的単位あたりの差分ベクトルの平均をとり、音素固有平均化差分ベクトルを生成する工程;および
音素固有平均化差分ベクトルの平均をとる工程。 - 最良一致の単語モデルから名前を合成するように構成された合成装置
をさらに含み;かつ
制御装置が、最良一致の単語モデルから合成された該名前に対応する電話帳の中の番号をダイヤルする、
請求項14記載の機器。 - ワーパが、最良一致の単語モデルのリストを決定するように構成されており;
合成装置が、該リスト中の各最良一致の単語モデルの名前を合成するように構成されており;
合成された名前を出力するように構成された出力装置と、
出力された名前の一つをユーザに選択させるように構成された選択装置
とをさらに含み;かつ
制御装置が、選択された名前に対応する電話帳の中の番号をダイヤルする、
請求項19記載の機器。 - 出力装置が、制御装置からの制御コマンドを出力する通信装置のスピーカを含み;
マイクロフォンが、該スピーカが出力している間の環境ノイズを記録し;かつ
記録されたノイズからスピーカ干渉を除去してノイズ入力を生成するように構成された干渉除去装置
をさらに含む
請求項20記載の機器。 - 少なくとも一つのプロセッサを制御するための、そこに記録されたコンピュータプログラム論理を有するコンピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュータプログラム論理が、以下を含む、コンピュータプログラム製品:
音声認識モードに入るためのコンピュータプログラムコード手段;
該音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成するためのコンピュータプログラムコード手段;
該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算するためのコンピュータプログラムコード手段;
該尤度ベクトルシーケンスを音声学的単語モデルにワーピングするためのコンピュータプログラムコード手段;
該音声学的単語モデルから単語モデル一致尤度を計算するためのコンピュータプログラムコード手段;および
単語モデル一致の最良一致の一つを認識結果として決定するためのコンピュータプログラムコード手段。 - 通信装置上で実行されると、該通信装置が、以下の工程を含む方法を実施することを可能にするコンピュータプログラムコードを含む、メモリ装置:
a) 音声認識モードに入る工程;
b) 該音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成する工程;
c) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する工程;
d) 該尤度ベクトルシーケンスを音声学的単語モデルにワーピングする工程;
e) 該音声学的単語モデルから単語モデル一致尤度を計算する工程;および
f) 単語モデル一致の最良一致の一つを認識結果として決定する工程。 - a) 音声認識モードに入る工程;
b) 該音声認識モード中、ボイス入力を受けると、ボイス入力から入力特徴ベクトルを生成する工程;
c) 該入力特徴ベクトルから、音声学的単位の発音時の尤度を示す尤度ベクトルシーケンスを計算する工程;
d) 該尤度ベクトルシーケンスを音声学的単語モデルにワーピングする工程;
e) 該音声学的単語モデルから単語モデル一致尤度を計算する工程;および
f) 単語モデル一致の最良一致の一つを認識結果として決定する工程
を含む方法によって通信装置の少なくとも一つのプロセッサを制御するための命令を含む、コンピュータ読み取り可能媒体。 - 音声学的単位が音声学的単語モデルの単語サブモデルとして働き、各音声学的単語モデルが単語モデルベクトルのシーケンスを含み、および該単語モデルベクトルの成分が、音声学的単語モデルのそれぞれの位置で音声学的単位のそれぞれ一つを見いだす期待値を示す、請求項24記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
- 各尤度ベクトルが、選択言語の内部表現を使用してそれぞれの入力特徴ベクトルから計算される、請求項24の記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
- 内部言語表現が、特徴空間中の代表的特徴ベクトルの統計的分布を示す、音声学的単位の特徴ベクトルの代表的なものから計算された尤度分布を含む、請求項26記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
- 尤度分布の計算が、以下の工程を含む登録モードで実施される、請求項27記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
無ノイズ環境で異なる話者によって発声されたボイス入力サンプルを記録する工程;
選択言語で必要とされる音声学的単位に対応する、該ボイス入力サンプルの部分を選択する工程;および
選択部分から代表的特徴ベクトルを生成する工程。 - 現ユーザの話者特性適応ベクトルを決定する工程、および該話者特性適応ベクトルを代表的特徴ベクトル中に反映させることによって尤度分布を更新する工程
をさらに含む、請求項28記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。 - 通信装置環境中のノイズを計測する工程;
計測したノイズからノイズ特徴ベクトルを処理する工程;および
該ノイズ特徴ベクトルを代表的特徴ベクトルに関連させることによって尤度分布を更新する工程
をさらに含む、請求項28記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。 - ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、かつ尤度分布を更新する工程が、以下の工程を含む、請求項30記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
該話者特性適応ベクトルを各代表的特徴ベクトルで乗じて、第一の修正代表的特徴ベクトルを生成する工程;
該第一の修正代表的特徴ベクトルに該ノイズ特徴ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を更新尤度分布として決定する工程。 - 入力特徴ベクトル、ノイズ特徴ベクトル、話者特性適応ベクトルおよび代表的特徴ベクトルがスペクトルベクトルであり、該ノイズ特徴ベクトルおよび該代表的特徴ベクトルが非対数成分を有し、ならびに該入力特徴ベクトルおよび該話者特性適応ベクトルが対数成分を有し、かつ尤度分布を更新する工程が、以下の工程を含む、請求項記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
各代表的特徴ベクトルを該ノイズ特徴ベクトルに加えて、第一の修正代表的特徴ベクトルを生成する工程;
該第一の修正代表的特徴ベクトルの各成分を対数化する工程;
該第一の修正され、対数化された代表的特徴ベクトルに該話者特性適応ベクトルを加えて、第二の修正代表的特徴ベクトルを生成する工程;および
特徴空間中の該第二の修正代表的特徴ベクトルの統計的分布を尤度分布として決定する工程。 - 話者特性適応ベクトルを決定することが各代表的特徴ベクトルに関する話者特性適応ベクトルの計算を含み、以下の工程をさらに含む、請求項30記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体:
最良一致の音声学的単位を各入力特徴ベクトルに割り当てる工程;
各入力特徴ベクトルとそれぞれの代表的特徴ベクトルとの間の差分ベクトルを計算する工程;および
各それぞれの代表的特徴ベクトルに関して音素固有平均化差分ベクトルを話者特性適応ベクトルとして計算する工程。 - 話者特性適応ベクトルが音素固有平均化差分ベクトルの平均をとったものである、請求項33記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
- 最良一致の単語モデルから名前を合成する工程、およびその名前に対応する番号をダイヤルする工程
をさらに含む、請求項24記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。 - 音声学的単語モデルが、電話帳の中の名前から書記素・音素変換を使用して単語サブモデルのシーケンスとして生成される、請求項24記載の方法を使用してプロセッサを制御するコンピュータ読み取り可能媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US77357706P | 2006-02-14 | 2006-02-14 | |
PCT/US2007/003876 WO2007095277A2 (en) | 2006-02-14 | 2007-02-13 | Communication device having speaker independent speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009527024A true JP2009527024A (ja) | 2009-07-23 |
Family
ID=38328169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008555320A Pending JP2009527024A (ja) | 2006-02-14 | 2007-02-13 | 話者非依存的音声認識を有する通信装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070203701A1 (ja) |
EP (1) | EP1994529B1 (ja) |
JP (1) | JP2009527024A (ja) |
KR (1) | KR20080107376A (ja) |
CN (1) | CN101385073A (ja) |
AT (1) | ATE536611T1 (ja) |
WO (1) | WO2007095277A2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070225049A1 (en) * | 2006-03-23 | 2007-09-27 | Andrada Mauricio P | Voice controlled push to talk system |
US8521235B2 (en) * | 2008-03-27 | 2013-08-27 | General Motors Llc | Address book sharing system and method for non-verbally adding address book contents using the same |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
WO2013167934A1 (en) | 2012-05-07 | 2013-11-14 | Mls Multimedia S.A. | Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages |
EP2876220B1 (en) | 2012-07-19 | 2021-01-06 | Sumitomo (S.H.I.) Construction Machinery Co., Ltd. | Excavator |
US9401140B1 (en) * | 2012-08-22 | 2016-07-26 | Amazon Technologies, Inc. | Unsupervised acoustic model training |
US10354657B2 (en) * | 2015-02-11 | 2019-07-16 | Bang & Olufsen A/S | Speaker recognition in multimedia system |
KR101684554B1 (ko) * | 2015-08-20 | 2016-12-08 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 그 방법 |
JP7173049B2 (ja) * | 2018-01-10 | 2022-11-16 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
CN113673235A (zh) * | 2020-08-27 | 2021-11-19 | 谷歌有限责任公司 | 基于能量的语言模型 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202385A (ja) * | 1995-01-26 | 1996-08-09 | Nec Corp | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
JPH1165590A (ja) * | 1997-08-25 | 1999-03-09 | Nec Corp | 音声認識ダイアル装置 |
US5930751A (en) * | 1997-05-30 | 1999-07-27 | Lucent Technologies Inc. | Method of implicit confirmation for automatic speech recognition |
EP1327976A1 (en) * | 2001-12-21 | 2003-07-16 | Cortologic AG | Method and system for recognition of speech in a noisy environment |
US20030156723A1 (en) * | 2000-09-01 | 2003-08-21 | Dietmar Ruwisch | Process and apparatus for eliminating loudspeaker interference from microphone signals |
EP1369847A1 (en) * | 2002-06-04 | 2003-12-10 | Cortologic AG | Speech recognition method and system |
JP2004109464A (ja) * | 2002-09-18 | 2004-04-08 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5353376A (en) * | 1992-03-20 | 1994-10-04 | Texas Instruments Incorporated | System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5758021A (en) * | 1992-06-12 | 1998-05-26 | Alcatel N.V. | Speech recognition combining dynamic programming and neural network techniques |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
FI972723A0 (fi) * | 1997-06-24 | 1997-06-24 | Nokia Mobile Phones Ltd | Mobila kommunikationsanordningar |
KR100277105B1 (ko) * | 1998-02-27 | 2001-01-15 | 윤종용 | 음성 인식 데이터 결정 장치 및 방법 |
US6321195B1 (en) * | 1998-04-28 | 2001-11-20 | Lg Electronics Inc. | Speech recognition method |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6418411B1 (en) * | 1999-03-12 | 2002-07-09 | Texas Instruments Incorporated | Method and system for adaptive speech recognition in a noisy environment |
US6487530B1 (en) * | 1999-03-30 | 2002-11-26 | Nortel Networks Limited | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
FI114051B (fi) * | 2001-11-12 | 2004-07-30 | Nokia Corp | Menetelmä sanakirjatiedon kompressoimiseksi |
US20050197837A1 (en) * | 2004-03-08 | 2005-09-08 | Janne Suontausta | Enhanced multilingual speech recognition system |
JP4551915B2 (ja) | 2007-07-03 | 2010-09-29 | ホシデン株式会社 | 複合操作型入力装置 |
-
2007
- 2007-02-13 CN CNA2007800054635A patent/CN101385073A/zh active Pending
- 2007-02-13 JP JP2008555320A patent/JP2009527024A/ja active Pending
- 2007-02-13 US US11/674,424 patent/US20070203701A1/en not_active Abandoned
- 2007-02-13 EP EP07750697A patent/EP1994529B1/en not_active Not-in-force
- 2007-02-13 AT AT07750697T patent/ATE536611T1/de active
- 2007-02-13 KR KR1020087020244A patent/KR20080107376A/ko not_active Application Discontinuation
- 2007-02-13 WO PCT/US2007/003876 patent/WO2007095277A2/en active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202385A (ja) * | 1995-01-26 | 1996-08-09 | Nec Corp | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
US5930751A (en) * | 1997-05-30 | 1999-07-27 | Lucent Technologies Inc. | Method of implicit confirmation for automatic speech recognition |
JPH1165590A (ja) * | 1997-08-25 | 1999-03-09 | Nec Corp | 音声認識ダイアル装置 |
US20030156723A1 (en) * | 2000-09-01 | 2003-08-21 | Dietmar Ruwisch | Process and apparatus for eliminating loudspeaker interference from microphone signals |
EP1327976A1 (en) * | 2001-12-21 | 2003-07-16 | Cortologic AG | Method and system for recognition of speech in a noisy environment |
EP1369847A1 (en) * | 2002-06-04 | 2003-12-10 | Cortologic AG | Speech recognition method and system |
JP2004109464A (ja) * | 2002-09-18 | 2004-04-08 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20080107376A (ko) | 2008-12-10 |
WO2007095277A3 (en) | 2007-10-11 |
EP1994529A2 (en) | 2008-11-26 |
ATE536611T1 (de) | 2011-12-15 |
WO2007095277A2 (en) | 2007-08-23 |
CN101385073A (zh) | 2009-03-11 |
EP1994529B1 (en) | 2011-12-07 |
US20070203701A1 (en) | 2007-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1994529B1 (en) | Communication device having speaker independent speech recognition | |
US6260012B1 (en) | Mobile phone having speaker dependent voice recognition method and apparatus | |
US7689417B2 (en) | Method, system and apparatus for improved voice recognition | |
KR100984528B1 (ko) | 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법 | |
US20060215821A1 (en) | Voice nametag audio feedback for dialing a telephone call | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
EP1262954A1 (en) | Method and apparatus for verbal entry of digits or commands | |
US20070005206A1 (en) | Automobile interface | |
JPH07210190A (ja) | 音声認識方法及びシステム | |
JP4520596B2 (ja) | 音声認識方法および音声認識装置 | |
JPH09106296A (ja) | 音声認識装置及び方法 | |
US20050273334A1 (en) | Method for automatic speech recognition | |
CN101345055A (zh) | 语音处理器和通信终端设备 | |
EP1110207B1 (en) | A method and a system for voice dialling | |
US20050049858A1 (en) | Methods and systems for improving alphabetic speech recognition accuracy | |
US20020069064A1 (en) | Method and apparatus for testing user interface integrity of speech-enabled devices | |
KR100467593B1 (ko) | 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체 | |
WO2007067837A2 (en) | Voice quality control for high quality speech reconstruction | |
KR100433550B1 (ko) | 스피드 음성 다이얼 장치와 방법 | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
EP1385148B1 (en) | Method for improving the recognition rate of a speech recognition system, and voice server using this method | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
KR20190041108A (ko) | 차량의 음성생성 시스템 및 방법 | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 | |
CN101165776A (zh) | 用于生成语音谱的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20100727 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111013 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111221 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120406 |