JPH06175696A - 音声コード化装置及びその方法並びに音声認識装置及びその方法 - Google Patents
音声コード化装置及びその方法並びに音声認識装置及びその方法Info
- Publication number
- JPH06175696A JPH06175696A JP5201795A JP20179593A JPH06175696A JP H06175696 A JPH06175696 A JP H06175696A JP 5201795 A JP5201795 A JP 5201795A JP 20179593 A JP20179593 A JP 20179593A JP H06175696 A JPH06175696 A JP H06175696A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vector signal
- feature vector
- transition
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 379
- 230000007704 transition Effects 0.000 claims abstract description 288
- 230000003044 adaptive effect Effects 0.000 description 18
- 230000001419 dependent effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【目的】高速音響照合のための音声コード化装置及びそ
の方法を提案する。 【構成】音声コード化装置は原型ベクトル信号のパラメ
ータ値に対する1つの発音の特徴ベクトル信号の特徴値
の近さを比較することにより特徴ベクトル信号及び各原
型ベクトル信号についての複数の原型照合評点を得、音
声遷移を表す複数の音声遷移モデルを記憶する。第1の
特徴ベクトル信号及び各音声遷移モデルについてのモデ
ル照合評点は第1の特徴ベクトル信号及び原型ベクトル
信号についての少なくとも1つの原型照合評点に関する
出力確率を含む。第1の特徴ベクトル信号及び各音声遷
移についての音声遷移照合評点は音声遷移を表すすべて
の音声遷移モデルと第1の特徴ベクトル信号とについて
の最良のモデル照合評点を含む。各音声遷移の識別値と
第1特徴ベクトル信号及び各音声遷移についての音声遷
移照合評点とは第1の特徴ベクトル信号のコード化され
た発音表現信号として出力される。
の方法を提案する。 【構成】音声コード化装置は原型ベクトル信号のパラメ
ータ値に対する1つの発音の特徴ベクトル信号の特徴値
の近さを比較することにより特徴ベクトル信号及び各原
型ベクトル信号についての複数の原型照合評点を得、音
声遷移を表す複数の音声遷移モデルを記憶する。第1の
特徴ベクトル信号及び各音声遷移モデルについてのモデ
ル照合評点は第1の特徴ベクトル信号及び原型ベクトル
信号についての少なくとも1つの原型照合評点に関する
出力確率を含む。第1の特徴ベクトル信号及び各音声遷
移についての音声遷移照合評点は音声遷移を表すすべて
の音声遷移モデルと第1の特徴ベクトル信号とについて
の最良のモデル照合評点を含む。各音声遷移の識別値と
第1特徴ベクトル信号及び各音声遷移についての音声遷
移照合評点とは第1の特徴ベクトル信号のコード化され
た発音表現信号として出力される。
Description
【0001】
【産業上の利用分野】本発明は音声コード化装置及びそ
の方法並びに音声認識装置及びその方法に関し、例えば
音声認識システム等のための音声コード化装置及び方法
に適用して好適なものである。
の方法並びに音声認識装置及びその方法に関し、例えば
音声認識システム等のための音声コード化装置及び方法
に適用して好適なものである。
【0002】
【従来の技術】音声認識システムにおいて文脈非依存又
は文脈依存の音響モデルを使用して語、音素、音素の一
部の発音をモデル化することは知られている。文脈依存
音響モデルは前後に発音される語又は語の一部に頼つて
語又は語の一部の発音をシミユレートする。従つて文脈
依存音響モデルは文脈非依存音響モデルよりも一段と正
確である。しかしながら文脈依存音響モデルを使用する
発音認識は、文脈非依存音響モデルを用いる発音認識に
比べ一段と多くの演算を必要とし、従つて一段と多くの
時間を必要とする。
は文脈依存の音響モデルを使用して語、音素、音素の一
部の発音をモデル化することは知られている。文脈依存
音響モデルは前後に発音される語又は語の一部に頼つて
語又は語の一部の発音をシミユレートする。従つて文脈
依存音響モデルは文脈非依存音響モデルよりも一段と正
確である。しかしながら文脈依存音響モデルを使用する
発音認識は、文脈非依存音響モデルを用いる発音認識に
比べ一段と多くの演算を必要とし、従つて一段と多くの
時間を必要とする。
【0003】また音声認識システムにおいて、高速音響
照合により候補語の選択候補名簿を迅速に選択した後
に、高速音響照合で選択した各候補語を詳細音響照合に
よつて一段と注意深く評価することも知られている。候
補語を迅速に選択するために高速音響照合に文脈非依存
音響モデルを使用することも知られている。高速音響照
合によつて選択した各候補語を一段と注意深く評価する
ために詳細音響照合に文脈依存音響モデルを使用するこ
とも知られている。
照合により候補語の選択候補名簿を迅速に選択した後
に、高速音響照合で選択した各候補語を詳細音響照合に
よつて一段と注意深く評価することも知られている。候
補語を迅速に選択するために高速音響照合に文脈非依存
音響モデルを使用することも知られている。高速音響照
合によつて選択した各候補語を一段と注意深く評価する
ために詳細音響照合に文脈依存音響モデルを使用するこ
とも知られている。
【0004】
【発明が解決しようとする課題】本発明の目的は詳細音
響照合に用いられるものと同じ文脈依存音響モデルを使
用する、高速音響照合用の音声コード化装置及び音声コ
ード化方法を提供することである。
響照合に用いられるものと同じ文脈依存音響モデルを使
用する、高速音響照合用の音声コード化装置及び音声コ
ード化方法を提供することである。
【0005】本発明の他の目的は詳細音響照合に用いら
れるものと同じ文脈依存音響モデルを使用する、高速音
響照合を有する音声認識装置及び音声認識方法を提供す
ることである。
れるものと同じ文脈依存音響モデルを使用する、高速音
響照合を有する音声認識装置及び音声認識方法を提供す
ることである。
【0006】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、一連の連続的な各時間間隔につい
て発音の少なくとも1つの特徴の値を測定することによ
り、特徴値を表す一連の特徴ベクトル信号を発生する手
段と、それぞれが少なくとも1つのパラメータ値を有す
る複数の原型ベクトル信号を記憶する手段と、原型ベク
トル信号のパラメータ値に対する第1の特徴ベクトル信
号の特徴値の近さを比較することにより第1の特徴ベク
トル信号及び各原型ベクトル信号についての原型照合評
点を得る手段と、識別値を有する音声遷移でなる語彙か
らの音声遷移をそれぞれ表す複数の音声遷移モデルを記
憶する手段と、第1の特徴ベクトル信号及び各音声遷移
モデルについてのモデル照合評点を生成する手段と、第
1の特徴ベクトル信号及び各音声遷移についての音声遷
移照合評点を生成する手段と、各音声遷移の識別値と第
1の特徴ベクトル信号及び各音声遷移についての音声遷
移照合評点とを第1の特徴ベクトル信号のコード化した
発音表現信号として出力する手段とを設け、少なくとも
1つの音声遷移は複数の異なるモデルによつて表され、
各音声遷移モデルは複数のモデル出力を有し、各モデル
出力は原型ベクトル信号についての原型照合評点を含
み、各音声遷移モデルは各モデル出力についての出力確
率を有し、各モデル照合評点は第1の特徴ベクトル及び
原型ベクトル信号についての少なくとも1つの原型照合
評点に関する出力確率を含み、各音声遷移照合評点は第
1の特徴ベクトル信号と音声遷移を表すすべての音声遷
移モデルとについての最良のモデル照合評点を含むよう
にする。
め本発明においては、一連の連続的な各時間間隔につい
て発音の少なくとも1つの特徴の値を測定することによ
り、特徴値を表す一連の特徴ベクトル信号を発生する手
段と、それぞれが少なくとも1つのパラメータ値を有す
る複数の原型ベクトル信号を記憶する手段と、原型ベク
トル信号のパラメータ値に対する第1の特徴ベクトル信
号の特徴値の近さを比較することにより第1の特徴ベク
トル信号及び各原型ベクトル信号についての原型照合評
点を得る手段と、識別値を有する音声遷移でなる語彙か
らの音声遷移をそれぞれ表す複数の音声遷移モデルを記
憶する手段と、第1の特徴ベクトル信号及び各音声遷移
モデルについてのモデル照合評点を生成する手段と、第
1の特徴ベクトル信号及び各音声遷移についての音声遷
移照合評点を生成する手段と、各音声遷移の識別値と第
1の特徴ベクトル信号及び各音声遷移についての音声遷
移照合評点とを第1の特徴ベクトル信号のコード化した
発音表現信号として出力する手段とを設け、少なくとも
1つの音声遷移は複数の異なるモデルによつて表され、
各音声遷移モデルは複数のモデル出力を有し、各モデル
出力は原型ベクトル信号についての原型照合評点を含
み、各音声遷移モデルは各モデル出力についての出力確
率を有し、各モデル照合評点は第1の特徴ベクトル及び
原型ベクトル信号についての少なくとも1つの原型照合
評点に関する出力確率を含み、各音声遷移照合評点は第
1の特徴ベクトル信号と音声遷移を表すすべての音声遷
移モデルとについての最良のモデル照合評点を含むよう
にする。
【0007】また本発明においては、一連の連続的な各
時間間隔について発音の少なくとも1つの特徴の値を測
定することにより、特徴値を表す一連の特徴ベクトル信
号を発生するステツプと、それぞれが少なくとも1つの
パラメータ値を有する複数の原型ベクトル信号をを記憶
するステツプと、原型ベクトル信号のパラメータ値に対
する第1の特徴ベクトル信号の特徴値の近さを比較する
ことにより第1の特徴ベクトル信号及び各原型ベクトル
信号についての原型照合評点を得るステツプと、識別値
を有する音声遷移でなる語彙からの音声遷移をそれぞれ
表す複数の音声遷移モデルを記憶し、少なくとも1つの
音声遷移は複数の異なるモデルによつて表され、各音声
遷移モデルは複数のモデル出力を有し、各モデル出力は
原型ベクトル信号についての原型照合評点を含み、各音
声遷移モデルは各モデル出力に関する出力確率を有する
ようにするステツプと、第1の特徴ベクトル信号及び各
音声遷移モデルについてのモデル照合評点を生成し、各
モデル照合評点は第1の特徴ベクトル信号及び原型ベク
トル信号についての少なくとも1つの原型照合評点に関
する出力確率を含むようにするステツプと、第1の特徴
ベクトル信号及び各音声遷移についての音声遷移照合評
点を生成し、各音声遷移照合評点は第1の特徴ベクトル
信号と音声遷移を表すすべての音声遷移モデルとについ
ての最良のモデル照合評点を含むようにするステツプ
と、各音声遷移の識別値と第1の特徴ベクトル信号及び
各音声遷移についての音声遷移照合評点とを第1の特徴
ベクトル信号のコード化した発音表現信号として出力す
るステツプとを含むようにする。
時間間隔について発音の少なくとも1つの特徴の値を測
定することにより、特徴値を表す一連の特徴ベクトル信
号を発生するステツプと、それぞれが少なくとも1つの
パラメータ値を有する複数の原型ベクトル信号をを記憶
するステツプと、原型ベクトル信号のパラメータ値に対
する第1の特徴ベクトル信号の特徴値の近さを比較する
ことにより第1の特徴ベクトル信号及び各原型ベクトル
信号についての原型照合評点を得るステツプと、識別値
を有する音声遷移でなる語彙からの音声遷移をそれぞれ
表す複数の音声遷移モデルを記憶し、少なくとも1つの
音声遷移は複数の異なるモデルによつて表され、各音声
遷移モデルは複数のモデル出力を有し、各モデル出力は
原型ベクトル信号についての原型照合評点を含み、各音
声遷移モデルは各モデル出力に関する出力確率を有する
ようにするステツプと、第1の特徴ベクトル信号及び各
音声遷移モデルについてのモデル照合評点を生成し、各
モデル照合評点は第1の特徴ベクトル信号及び原型ベク
トル信号についての少なくとも1つの原型照合評点に関
する出力確率を含むようにするステツプと、第1の特徴
ベクトル信号及び各音声遷移についての音声遷移照合評
点を生成し、各音声遷移照合評点は第1の特徴ベクトル
信号と音声遷移を表すすべての音声遷移モデルとについ
ての最良のモデル照合評点を含むようにするステツプ
と、各音声遷移の識別値と第1の特徴ベクトル信号及び
各音声遷移についての音声遷移照合評点とを第1の特徴
ベクトル信号のコード化した発音表現信号として出力す
るステツプとを含むようにする。
【0008】また本発明においては、一連の連続的な各
時間間隔について発音の少なくとも1つの特徴の値を測
定することにより、特徴値を表す一連の特徴ベクトル信
号を発生する手段と、それぞれが少なくとも1つのパラ
メータ値を有する複数の原型ベクトル信号を記憶する手
段と、原型ベクトル信号のパラメータ値に対する各特徴
ベクトル信号の特徴値の近さを比較することにより各特
徴ベクトル信号及び各原型ベクトル信号についての原型
照合評点を得る手段と、識別値を有する音声遷移でなる
語彙からの音声遷移をそれぞれ表す複数の音声遷移モデ
ルを記憶する手段と、各特徴ベクトル信号及び各音声遷
移モデルについてのモデル照合評点を生成する手段と、
各特徴ベクトル信号及び各音声遷移についての音声遷移
照合評点を生成する手段と、識別値を有する音声ユニツ
トをそれぞれ表す複数の音声ユニツトモデルを記憶する
手段と、各特徴ベクトル信号及び各音声ユニツトについ
ての音声ユニツト照合評点を生成する手段と、各音声ユ
ニツトの識別値と特徴ベクトル信号及び各音声ユニツト
についての音声ユニツト照合評点とを特徴ベクトル信号
のコード化した発音表現信号として出力する手段と、そ
れぞれが少なくとも1つの音声ユニツトモデルを含む複
数の語についての確率論的モデルを記憶する手段と、一
連の特徴ベクトル信号及び複数の各語についての語照合
評点を生成する手段と、最良の語照合評点を有する1つ
又は2つ以上の最良の候補語を識別する手段と、少なく
とも1つの最良の候補語を出力する手段とを設け、少な
くとも1つの音声遷移は複数の異なるモデルによつて表
され、各音声遷移モデルは複数のモデル出力を有し、各
モデル出力は原型ベクトル信号についての原型照合評点
を含み、各音声遷移モデルは各モデル出力に関する出力
確率を有し、特徴ベクトル信号についてのモデル照合評
点は特徴ベクトル信号及び原型ベクトル信号についての
少なくとも1つの原型照合評点に関する出力確率を含
み、特徴ベクトル信号についての音声遷移照合評点は特
徴ベクトル信号と音声遷移を表すすべての音声遷移モデ
ルとについての最良のモデル照合評点を含み、音声ユニ
ツトを表す各音声ユニツトモデルは2つ又は3つ以上の
音声遷移及び2つ又は3つ以上の音声遷移モデルを含
み、特徴ベクトル信号についての音声ユニツト照合評点
は特徴ベクトル信号と音声ユニツト内のすべての音声遷
移とについての最良の音声遷移照合評点を含み、各語モ
デルは開始状態と、終了状態と、開始状態から終了状態
への道の少なくとも一部で音声ユニツトモデルを通る複
数の経路とを有し、各語照合評点は一連の特徴ベクトル
信号と語のモデル内の一連の音声ユニツトモデルを通る
少なくとも1つの経路に沿う音声ユニツトとについての
音声ユニツト照合評点の組合せを含むようにする。
時間間隔について発音の少なくとも1つの特徴の値を測
定することにより、特徴値を表す一連の特徴ベクトル信
号を発生する手段と、それぞれが少なくとも1つのパラ
メータ値を有する複数の原型ベクトル信号を記憶する手
段と、原型ベクトル信号のパラメータ値に対する各特徴
ベクトル信号の特徴値の近さを比較することにより各特
徴ベクトル信号及び各原型ベクトル信号についての原型
照合評点を得る手段と、識別値を有する音声遷移でなる
語彙からの音声遷移をそれぞれ表す複数の音声遷移モデ
ルを記憶する手段と、各特徴ベクトル信号及び各音声遷
移モデルについてのモデル照合評点を生成する手段と、
各特徴ベクトル信号及び各音声遷移についての音声遷移
照合評点を生成する手段と、識別値を有する音声ユニツ
トをそれぞれ表す複数の音声ユニツトモデルを記憶する
手段と、各特徴ベクトル信号及び各音声ユニツトについ
ての音声ユニツト照合評点を生成する手段と、各音声ユ
ニツトの識別値と特徴ベクトル信号及び各音声ユニツト
についての音声ユニツト照合評点とを特徴ベクトル信号
のコード化した発音表現信号として出力する手段と、そ
れぞれが少なくとも1つの音声ユニツトモデルを含む複
数の語についての確率論的モデルを記憶する手段と、一
連の特徴ベクトル信号及び複数の各語についての語照合
評点を生成する手段と、最良の語照合評点を有する1つ
又は2つ以上の最良の候補語を識別する手段と、少なく
とも1つの最良の候補語を出力する手段とを設け、少な
くとも1つの音声遷移は複数の異なるモデルによつて表
され、各音声遷移モデルは複数のモデル出力を有し、各
モデル出力は原型ベクトル信号についての原型照合評点
を含み、各音声遷移モデルは各モデル出力に関する出力
確率を有し、特徴ベクトル信号についてのモデル照合評
点は特徴ベクトル信号及び原型ベクトル信号についての
少なくとも1つの原型照合評点に関する出力確率を含
み、特徴ベクトル信号についての音声遷移照合評点は特
徴ベクトル信号と音声遷移を表すすべての音声遷移モデ
ルとについての最良のモデル照合評点を含み、音声ユニ
ツトを表す各音声ユニツトモデルは2つ又は3つ以上の
音声遷移及び2つ又は3つ以上の音声遷移モデルを含
み、特徴ベクトル信号についての音声ユニツト照合評点
は特徴ベクトル信号と音声ユニツト内のすべての音声遷
移とについての最良の音声遷移照合評点を含み、各語モ
デルは開始状態と、終了状態と、開始状態から終了状態
への道の少なくとも一部で音声ユニツトモデルを通る複
数の経路とを有し、各語照合評点は一連の特徴ベクトル
信号と語のモデル内の一連の音声ユニツトモデルを通る
少なくとも1つの経路に沿う音声ユニツトとについての
音声ユニツト照合評点の組合せを含むようにする。
【0009】また本発明においては、一連の連続的な各
時間間隔について発音の少なくとも1つの特徴の値を測
定することにより、特徴値を表す一連の特徴ベクトル信
号を発生するステツプと、それぞれが少なくとも1つの
パラメータ値を有する複数の原型ベクトル信号を記憶す
るステツプと、原型ベクトル信号のパラメータ値に対す
る各特徴ベクトル信号の特徴値の近さを比較することに
より各特徴ベクトル信号及び各原型ベクトル信号につい
ての原型照合評点を得るステツプと、識別値を有する音
声遷移でなる語彙からの音声遷移を表す複数の音声遷移
モデルを記憶し、少なくとも1つの音声遷移は複数の異
なるモデルによつて表され、各音声遷移モデルは複数の
モデル出力を有し、各モデル出力は原型ベクトル信号に
ついての原型照合評点を含み、各音声遷移モデルは各モ
デル出力についての出力確率を有するようにするステツ
プと、各特徴ベクトル信号及び各音声遷移モデルについ
てのモデル照合評点を生成し、特徴ベクトル信号につい
てのモデル照合評点は特徴ベクトル信号及び原型ベクト
ル信号についての少なくとも1つの原型照合評点に関す
る出力確率を含むようにするステツプと、各特徴ベクト
ル信号及び各音声遷移についての音声遷移照合評点を生
成し、特徴ベクトル信号についての音声遷移照合評点は
特徴ベクトル信号と音声遷移を表すすべての音声遷移モ
デルとについての最良のモデル照合評点を含むようにす
るステツプと、識別値を有する音声ユニツトを表す複数
の音声ユニツトモデルを記憶し、各音声ユニツトモデル
は2つ又は3ツ以上の音声遷移及び2つ又は3つ以上の
音声遷移モデルを含むようにするステツプと、各特徴ベ
クトル信号及び各音声ユニツトについての音声ユニツト
照合評点を生成し、特徴ベクトル信号についての音声ユ
ニツト照合評点は特徴ベクトル信号と音声ユニツト内の
すべての音声遷移とについての最良の音声遷移照合評点
を含むようにするステツプと、各音声ユニツトの識別値
と特徴ベクトル信号及び各音声ユニツトについての音声
ユニツト照合評点とを特徴ベクトル信号のコード化した
発音表現信号として出力するステツプと、それぞれが少
なくとも1つの音声ユニツトモデルを含む複数の語につ
いての確率論的モデルを記憶し、各語モデルは開始状態
と、終了状態と、開始状態から終了状態への道の少なく
とも一部で音声ユニツトモデルを通る複数の経路とを有
するようにするステツプと、一連の特徴ベクトル信号及
び複数の各語についての語照合評点を生成し、各語照合
評点は一連の特徴ベクトル信号と語のモデル内の一連の
音声ユニツトモデルを通る少なくとも1つの経路に沿う
音声ユニツトとについての音声ユニツト照合評点の組合
せを含むようにするステツプと、最良の語照合評点を有
する1つ又は2つ以上の最良の候補語を識別するステツ
プと、少なくとも1つの最良の候補語を出力するステツ
プとを含むようにする。
時間間隔について発音の少なくとも1つの特徴の値を測
定することにより、特徴値を表す一連の特徴ベクトル信
号を発生するステツプと、それぞれが少なくとも1つの
パラメータ値を有する複数の原型ベクトル信号を記憶す
るステツプと、原型ベクトル信号のパラメータ値に対す
る各特徴ベクトル信号の特徴値の近さを比較することに
より各特徴ベクトル信号及び各原型ベクトル信号につい
ての原型照合評点を得るステツプと、識別値を有する音
声遷移でなる語彙からの音声遷移を表す複数の音声遷移
モデルを記憶し、少なくとも1つの音声遷移は複数の異
なるモデルによつて表され、各音声遷移モデルは複数の
モデル出力を有し、各モデル出力は原型ベクトル信号に
ついての原型照合評点を含み、各音声遷移モデルは各モ
デル出力についての出力確率を有するようにするステツ
プと、各特徴ベクトル信号及び各音声遷移モデルについ
てのモデル照合評点を生成し、特徴ベクトル信号につい
てのモデル照合評点は特徴ベクトル信号及び原型ベクト
ル信号についての少なくとも1つの原型照合評点に関す
る出力確率を含むようにするステツプと、各特徴ベクト
ル信号及び各音声遷移についての音声遷移照合評点を生
成し、特徴ベクトル信号についての音声遷移照合評点は
特徴ベクトル信号と音声遷移を表すすべての音声遷移モ
デルとについての最良のモデル照合評点を含むようにす
るステツプと、識別値を有する音声ユニツトを表す複数
の音声ユニツトモデルを記憶し、各音声ユニツトモデル
は2つ又は3ツ以上の音声遷移及び2つ又は3つ以上の
音声遷移モデルを含むようにするステツプと、各特徴ベ
クトル信号及び各音声ユニツトについての音声ユニツト
照合評点を生成し、特徴ベクトル信号についての音声ユ
ニツト照合評点は特徴ベクトル信号と音声ユニツト内の
すべての音声遷移とについての最良の音声遷移照合評点
を含むようにするステツプと、各音声ユニツトの識別値
と特徴ベクトル信号及び各音声ユニツトについての音声
ユニツト照合評点とを特徴ベクトル信号のコード化した
発音表現信号として出力するステツプと、それぞれが少
なくとも1つの音声ユニツトモデルを含む複数の語につ
いての確率論的モデルを記憶し、各語モデルは開始状態
と、終了状態と、開始状態から終了状態への道の少なく
とも一部で音声ユニツトモデルを通る複数の経路とを有
するようにするステツプと、一連の特徴ベクトル信号及
び複数の各語についての語照合評点を生成し、各語照合
評点は一連の特徴ベクトル信号と語のモデル内の一連の
音声ユニツトモデルを通る少なくとも1つの経路に沿う
音声ユニツトとについての音声ユニツト照合評点の組合
せを含むようにするステツプと、最良の語照合評点を有
する1つ又は2つ以上の最良の候補語を識別するステツ
プと、少なくとも1つの最良の候補語を出力するステツ
プとを含むようにする。
【0010】さらに本発明においては、一連の連続的な
各時間間隔について発音の少なくとも1つの特徴の値を
測定することにより、特徴値を表す一連の特徴ベクトル
信号を発生する手段と、それぞれが少なくとも1つのパ
ラメータ値を有する複数の原型ベクトル信号を記憶する
手段と、原型ベクトル信号のパラメータ値に対する第1
の特徴ベクトル信号の特徴値の近さを比較することによ
り第1の特徴ベクトル信号及び各原型ベクトル信号につ
いての原型照合評点を得る手段と、識別値を有する音声
遷移でなる語彙からの音声遷移を表す複数の音声遷移モ
デルを記憶する手段と、第1の特徴ベクトル信号及び各
音声遷移モデルについてのモデル照合評点を生成する手
段と、識別値を有する音声ユニツトを表す複数の音声ユ
ニツトモデルを記憶する手段と、第1の特徴ベクトル信
号及び各音声ユニツトについての音声ユニツト照合評点
を生成する手段とを設け、少なくとも1つの音声遷移は
複数の異なるモデルによつて表され、各音声遷移モデル
は複数のモデル出力を有し、各モデル出力は原型ベクト
ル信号についての原型照合評点を含み、各音声遷移モデ
ルは各モデル出力についての出力確率を有し、各モデル
照合評点は第1の特徴ベクトル信号及び原型ベクトル信
号についての少なくとも1つの原型照合評点に関する出
力確率を含み、各音声ユニツトモデルは2つ又は3つ以
上の音声遷移及び2つ又は3つ以上の音声遷移モデルを
含み、各音声ユニツト照合評点は第1の特徴ベクトル信
号と音声ユニツト内の音声遷移を表すすべての音声遷移
モデルとについての最良のモデル照合評点を含み、出力
手段は各音声ユニツトの識別値と第1の特徴ベクトル信
号及び各音声ユニツトについての音声ユニツト照合評点
とを第1の特徴ベクトル信号のコード化した発音表現信
号として出力するようにする。
各時間間隔について発音の少なくとも1つの特徴の値を
測定することにより、特徴値を表す一連の特徴ベクトル
信号を発生する手段と、それぞれが少なくとも1つのパ
ラメータ値を有する複数の原型ベクトル信号を記憶する
手段と、原型ベクトル信号のパラメータ値に対する第1
の特徴ベクトル信号の特徴値の近さを比較することによ
り第1の特徴ベクトル信号及び各原型ベクトル信号につ
いての原型照合評点を得る手段と、識別値を有する音声
遷移でなる語彙からの音声遷移を表す複数の音声遷移モ
デルを記憶する手段と、第1の特徴ベクトル信号及び各
音声遷移モデルについてのモデル照合評点を生成する手
段と、識別値を有する音声ユニツトを表す複数の音声ユ
ニツトモデルを記憶する手段と、第1の特徴ベクトル信
号及び各音声ユニツトについての音声ユニツト照合評点
を生成する手段とを設け、少なくとも1つの音声遷移は
複数の異なるモデルによつて表され、各音声遷移モデル
は複数のモデル出力を有し、各モデル出力は原型ベクト
ル信号についての原型照合評点を含み、各音声遷移モデ
ルは各モデル出力についての出力確率を有し、各モデル
照合評点は第1の特徴ベクトル信号及び原型ベクトル信
号についての少なくとも1つの原型照合評点に関する出
力確率を含み、各音声ユニツトモデルは2つ又は3つ以
上の音声遷移及び2つ又は3つ以上の音声遷移モデルを
含み、各音声ユニツト照合評点は第1の特徴ベクトル信
号と音声ユニツト内の音声遷移を表すすべての音声遷移
モデルとについての最良のモデル照合評点を含み、出力
手段は各音声ユニツトの識別値と第1の特徴ベクトル信
号及び各音声ユニツトについての音声ユニツト照合評点
とを第1の特徴ベクトル信号のコード化した発音表現信
号として出力するようにする。
【0011】
【作用】本発明の音声コード化装置は以下のような機能
を有する手段を含む。一連の各連続的な時間間隔につい
て発音の少なくとも1つの特徴の値を測定することによ
り、この特徴値を表す一連の特徴ベクトル信号を発生す
る手段を含む。複数の原型ベクトル信号を記憶する記憶
手段を含む。各原型ベクトル信号は少なくとも1つのパ
ラメータ値を有する。原型ベクトル信号のパラメータ値
に対する第1の特徴ベクトル信号の特徴値の近さを比較
することにより、第1の特徴ベクトル信号及び各原型ベ
クトル信号についての原型照合評点を得る比較手段を含
む。
を有する手段を含む。一連の各連続的な時間間隔につい
て発音の少なくとも1つの特徴の値を測定することによ
り、この特徴値を表す一連の特徴ベクトル信号を発生す
る手段を含む。複数の原型ベクトル信号を記憶する記憶
手段を含む。各原型ベクトル信号は少なくとも1つのパ
ラメータ値を有する。原型ベクトル信号のパラメータ値
に対する第1の特徴ベクトル信号の特徴値の近さを比較
することにより、第1の特徴ベクトル信号及び各原型ベ
クトル信号についての原型照合評点を得る比較手段を含
む。
【0012】複数の音声遷移モデルを記憶する記憶手段
を含む。各音声遷移モデルは音声遷移でなる語彙からの
音声遷移を表す。各音声遷移は識別値を有する。複数の
異なるモデルによつて少なくとも1つの音声遷移が表現
される。各音声遷移モデルは複数のモデル出力を有す
る。各モデル出力は原型ベクトル信号についての原型照
合評点を含む。また各音声遷移モデルは各モデル出力に
ついての出力確率も有する。
を含む。各音声遷移モデルは音声遷移でなる語彙からの
音声遷移を表す。各音声遷移は識別値を有する。複数の
異なるモデルによつて少なくとも1つの音声遷移が表現
される。各音声遷移モデルは複数のモデル出力を有す
る。各モデル出力は原型ベクトル信号についての原型照
合評点を含む。また各音声遷移モデルは各モデル出力に
ついての出力確率も有する。
【0013】第1の特徴ベクトル信号及び各音声遷移モ
デルについてのモデル照合評点を生成するモデル照合評
点手段を含む。各モデル照合評点は第1の特徴ベクトル
信号及び原型ベクトル信号についての少なくとも1つの
原型照合評点に関する出力確率を含む。
デルについてのモデル照合評点を生成するモデル照合評
点手段を含む。各モデル照合評点は第1の特徴ベクトル
信号及び原型ベクトル信号についての少なくとも1つの
原型照合評点に関する出力確率を含む。
【0014】第1の特徴ベクトル信号及び各音声遷移に
ついての音声遷移照合評点を生成する音声遷移照合評点
手段を含む。各音声遷移照合評点は第1の特徴ベクトル
信号と音声遷移を表すすべての音声遷移モデルとについ
ての最良のモデル照合評点を含む。
ついての音声遷移照合評点を生成する音声遷移照合評点
手段を含む。各音声遷移照合評点は第1の特徴ベクトル
信号と音声遷移を表すすべての音声遷移モデルとについ
ての最良のモデル照合評点を含む。
【0015】最後に、各音声遷移の識別値と第1の特徴
ベクトル信号及び各音声遷移についての音声遷移照合評
点とを第1の特徴ベクトル信号のコード化した発音表現
信号として出力する出力手段を含む。
ベクトル信号及び各音声遷移についての音声遷移照合評
点とを第1の特徴ベクトル信号のコード化した発音表現
信号として出力する出力手段を含む。
【0016】さらに本発明による音声コード化装置は以
下のような機能を有する手段を含む。複数の音声ユニツ
トモデルを記憶する記憶手段を含む。各音声ユニツトモ
デルは2つ又は3つ以上の音声遷移を含む音声ユニツト
を表す。各音声ユニツトモデルは2つ又は3つ以上の音
声遷移モデルを含む。各音声ユニツトは識別値を有す
る。
下のような機能を有する手段を含む。複数の音声ユニツ
トモデルを記憶する記憶手段を含む。各音声ユニツトモ
デルは2つ又は3つ以上の音声遷移を含む音声ユニツト
を表す。各音声ユニツトモデルは2つ又は3つ以上の音
声遷移モデルを含む。各音声ユニツトは識別値を有す
る。
【0017】第1の特徴ベクトル信号及び各音声ユニツ
トについての音声ユニツト照合評点を生成する音声ユニ
ツト照合評点手段を含む。各音声ユニツト照合評点は第
1の特徴ベクトル信号と音声ユニツト内のすべての音声
遷移とについての最良の音声遷移照合評点を含む。
トについての音声ユニツト照合評点を生成する音声ユニ
ツト照合評点手段を含む。各音声ユニツト照合評点は第
1の特徴ベクトル信号と音声ユニツト内のすべての音声
遷移とについての最良の音声遷移照合評点を含む。
【0018】本発明のこうした特徴において、上述の出
力手段は各音声ユニツトの識別値と第1の特徴ベクトル
信号及び各音声ユニツトについての音声ユニツト照合評
点とを第1の特徴ベクトル信号のコード化した発音表現
信号として出力する。
力手段は各音声ユニツトの識別値と第1の特徴ベクトル
信号及び各音声ユニツトについての音声ユニツト照合評
点とを第1の特徴ベクトル信号のコード化した発音表現
信号として出力する。
【0019】上述の比較手段は、例えば第1の特徴ベク
トル信号に対する各原型ベクトル信号の推定した近さの
順序に原型ベクトル信号をランク付けすることにより、
第1の特徴ベクトル信号及び各原型ベクトル信号につい
てのランク評点を得る。この場合、第1の特徴ベクトル
信号及び各原型ベクトルについての原型照合評点は第1
の特徴ベクトル信号及び各原型ベクトル信号についての
ランク評点を含む。
トル信号に対する各原型ベクトル信号の推定した近さの
順序に原型ベクトル信号をランク付けすることにより、
第1の特徴ベクトル信号及び各原型ベクトル信号につい
てのランク評点を得る。この場合、第1の特徴ベクトル
信号及び各原型ベクトルについての原型照合評点は第1
の特徴ベクトル信号及び各原型ベクトル信号についての
ランク評点を含む。
【0020】各音声遷移モデルは前後の音声遷移の独特
の文脈内に対応する音声遷移を表すのが好適である。各
音声ユニツトは音素であるのが好適であり、各音声遷移
は音素の一部であるのが好適である。
の文脈内に対応する音声遷移を表すのが好適である。各
音声ユニツトは音素であるのが好適であり、各音声遷移
は音素の一部であるのが好適である。
【0021】本発明による音声認識装置は、一連の各連
続的な時間間隔について発音の少なくとも1つの特徴の
値を測定することによりその特徴値を表す一連の特徴ベ
クトル信号を発生する手段と、複数の原型ベクトル信号
を記憶する手段と、原型ベクトル信号のパラメータ値に
対する各特徴ベクトル信号の特徴値の近さを比較するこ
とにより各特徴ベクトル信号及び各原型ベクトル信号に
ついての原型照合評点を得る比較手段と、複数の音声遷
移モデルを記憶する記憶手段と、各特徴ベクトル信号と
各音声遷移モデルとについてのモデル照合評点を生成す
るモデル照合評点手段と、各特徴ベクトル信号及び各音
声遷移についての音声遷移照合評点をモデル照合評点か
ら生成する音声遷移照合評点手段と、2つ又は3つ以上
の音声遷移モデルを含む複数の音声ユニツトモデルを記
憶する手段と、各特徴ベクトル信号及び各音声ユニツト
についての音声ユニツト照合評点を音声遷移照合評点か
ら生成する音声ユニツト照合評点手段と、各音声ユニツ
トの識別値と1つの特徴ベクトル信号及び各音声ユニツ
トについての音声ユニツト照合評点とを特徴ベクトル信
号のコード化した発音表現信号として出力する手段とを
含む。
続的な時間間隔について発音の少なくとも1つの特徴の
値を測定することによりその特徴値を表す一連の特徴ベ
クトル信号を発生する手段と、複数の原型ベクトル信号
を記憶する手段と、原型ベクトル信号のパラメータ値に
対する各特徴ベクトル信号の特徴値の近さを比較するこ
とにより各特徴ベクトル信号及び各原型ベクトル信号に
ついての原型照合評点を得る比較手段と、複数の音声遷
移モデルを記憶する記憶手段と、各特徴ベクトル信号と
各音声遷移モデルとについてのモデル照合評点を生成す
るモデル照合評点手段と、各特徴ベクトル信号及び各音
声遷移についての音声遷移照合評点をモデル照合評点か
ら生成する音声遷移照合評点手段と、2つ又は3つ以上
の音声遷移モデルを含む複数の音声ユニツトモデルを記
憶する手段と、各特徴ベクトル信号及び各音声ユニツト
についての音声ユニツト照合評点を音声遷移照合評点か
ら生成する音声ユニツト照合評点手段と、各音声ユニツ
トの識別値と1つの特徴ベクトル信号及び各音声ユニツ
トについての音声ユニツト照合評点とを特徴ベクトル信
号のコード化した発音表現信号として出力する手段とを
含む。
【0022】さらに本発明の音声認識装置は以下のよう
な機能を有する手段を含む。複数の語についての確率論
的モデルを記憶する記憶手段を含む。各語モデルは少な
くとも1つの音声ユニツトモデルを含む。各語モデルは
開始状態と、終了状態と、開始状態から終了状態への道
の少なくとも一部で音声ユニツトモデルを通る複数の経
路とを有する。一連の特徴ベクトル信号及び複数の各語
についての語照合評点を生成する語照合評点手段を含
む。各語照合評点は一連の特徴ベクトル信号と語のモデ
ル内の一連の音声ユニツトモデルを通る少なくとも1つ
の経路に沿う音声ユニツトとについての音声ユニツト照
合評点の組合せを含む。最良の語照合評点を有する1つ
又は2つ以上の最良の候補語を識別する最良候補手段を
含む。少なくとも1つの最良の候補語を出力する出力手
段を含む。
な機能を有する手段を含む。複数の語についての確率論
的モデルを記憶する記憶手段を含む。各語モデルは少な
くとも1つの音声ユニツトモデルを含む。各語モデルは
開始状態と、終了状態と、開始状態から終了状態への道
の少なくとも一部で音声ユニツトモデルを通る複数の経
路とを有する。一連の特徴ベクトル信号及び複数の各語
についての語照合評点を生成する語照合評点手段を含
む。各語照合評点は一連の特徴ベクトル信号と語のモデ
ル内の一連の音声ユニツトモデルを通る少なくとも1つ
の経路に沿う音声ユニツトとについての音声ユニツト照
合評点の組合せを含む。最良の語照合評点を有する1つ
又は2つ以上の最良の候補語を識別する最良候補手段を
含む。少なくとも1つの最良の候補語を出力する出力手
段を含む。
【0023】本発明に従つて各音声遷移についての照合
評点としてその音声遷移のすべてのモデルについての最
良の照合評点を選択することにより、音声コード化及び
音声認識のための装置及び方法は詳細音響照合において
使用しているものと同じ文脈依存音響モデルを高速音響
照合に使用することができる。
評点としてその音声遷移のすべてのモデルについての最
良の照合評点を選択することにより、音声コード化及び
音声認識のための装置及び方法は詳細音響照合において
使用しているものと同じ文脈依存音響モデルを高速音響
照合に使用することができる。
【0024】
【実施例】以下図面について、本発明の一実施例を詳述
する。
する。
【0025】図1は本発明による音声コード化装置の一
例を示すブロツク図である。この音声コード化装置は一
連の連続的な各時間間隔について発音の少なくとも1つ
の特徴の値を測定することにより、その特徴値を表す一
連の特徴ベクトル信号を発生する音響特徴値測定装置1
0を含む。次表(1)は間隔をおいた時間(t)1、
2、3、4及び5にそれぞれ対応する仮想の一連の一次
元特徴ベクトル信号を示す。
例を示すブロツク図である。この音声コード化装置は一
連の連続的な各時間間隔について発音の少なくとも1つ
の特徴の値を測定することにより、その特徴値を表す一
連の特徴ベクトル信号を発生する音響特徴値測定装置1
0を含む。次表(1)は間隔をおいた時間(t)1、
2、3、4及び5にそれぞれ対応する仮想の一連の一次
元特徴ベクトル信号を示す。
【0026】
【表1】
【0027】以下に詳細に説明するように、この時間間
隔は10〔msec〕ごとに取る持続時間20〔msec〕のサンプ
ルであるのが好ましい。
隔は10〔msec〕ごとに取る持続時間20〔msec〕のサンプ
ルであるのが好ましい。
【0028】さらに音声コード化装置は複数の原型ベク
トル信号を記憶する原型ベクトル信号記憶装置12を含
む。各原型ベクトル信号は少なくとも1つのパラメータ
値を有する。
トル信号を記憶する原型ベクトル信号記憶装置12を含
む。各原型ベクトル信号は少なくとも1つのパラメータ
値を有する。
【0029】次表(2)はそれぞれが1つのパラメータ
値を有する、9つの仮想の原型ベクトル信号の例PV1
a、PV1b、PV1c、PV2a、PV2b、PV3
a、PV3b、PV3c及びPV3dを示す。
値を有する、9つの仮想の原型ベクトル信号の例PV1
a、PV1b、PV1c、PV2a、PV2b、PV3
a、PV3b、PV3c及びPV3dを示す。
【0030】
【表2】
【0031】比較プロセツサ14は原型ベクトル信号の
パラメータ値に対する第1の特徴ベクトル信号の特徴値
の近さを比較することにより、第1の特徴ベクトル信号
及び各原型ベクトル信号についての原型照合評点を得
る。
パラメータ値に対する第1の特徴ベクトル信号の特徴値
の近さを比較することにより、第1の特徴ベクトル信号
及び各原型ベクトル信号についての原型照合評点を得
る。
【0032】上記の表(2)は原型ベクトル信号のパラ
メータ値に対する表(1)の特徴ベクトルFV(1)の
近さの仮想の例を示す。この仮想の例に示すように、原
型ベクトル信号PV2aは特徴ベクトル信号FV(1)
に最も近い原型ベクトル信号である。最も近い原型ベク
トル信号に対する原型照合評点が「1」に定義され、他
のすべての原型ベクトル信号に対する原型照合評点が
「0」に定義されると、「2進」の原型照合評点「1」
が原型ベクトル信号PV2aに対して割り当てられる。
他のすべての原型ベクトル信号には「2進」の原型照合
評点「0」が割り当てられる。
メータ値に対する表(1)の特徴ベクトルFV(1)の
近さの仮想の例を示す。この仮想の例に示すように、原
型ベクトル信号PV2aは特徴ベクトル信号FV(1)
に最も近い原型ベクトル信号である。最も近い原型ベク
トル信号に対する原型照合評点が「1」に定義され、他
のすべての原型ベクトル信号に対する原型照合評点が
「0」に定義されると、「2進」の原型照合評点「1」
が原型ベクトル信号PV2aに対して割り当てられる。
他のすべての原型ベクトル信号には「2進」の原型照合
評点「0」が割り当てられる。
【0033】またこれ以外の原型照合評点を使用しても
よい。例えば比較プロセツサ14は、第1の特徴ベクト
ル信号に対する各原型ベクトル信号の推定近さの順序に
複数の原型ベクトル信号をランク付けすることにより第
1の特徴ベクトル信号及び各原型ベクトル信号について
のランク評点を得るランク付け手段を含んでもよい。こ
れにより、第1の特徴ベクトル信号及び各原型ベクトル
信号についての原型照合評点は第1の特徴ベクトル信号
及び各原型ベクトル信号についてのランク評点を含む。
よい。例えば比較プロセツサ14は、第1の特徴ベクト
ル信号に対する各原型ベクトル信号の推定近さの順序に
複数の原型ベクトル信号をランク付けすることにより第
1の特徴ベクトル信号及び各原型ベクトル信号について
のランク評点を得るランク付け手段を含んでもよい。こ
れにより、第1の特徴ベクトル信号及び各原型ベクトル
信号についての原型照合評点は第1の特徴ベクトル信号
及び各原型ベクトル信号についてのランク評点を含む。
【0034】表(2)は「2進」原型照合評点に加え
て、個別ランク原型照合評点及び群ランク原型照合評点
の例をも示す。
て、個別ランク原型照合評点及び群ランク原型照合評点
の例をも示す。
【0035】この仮想の例においては、特徴ベクトル信
号及び原型ベクトル信号が1つの次元だけを有し、この
次元についてのただ1つのパラメータ値だけを有するも
のとして示した。しかしながら実際には、特徴ベクトル
信号及び原型ベクトル信号が例えば50の次元を有するこ
とがある。各次元は各原型ベクトル信号について2つの
パラメータ値を有することができる。各次元の2つのパ
ラメータ値は、例えば平均値及び標準偏差(分散)値で
あつてよい。
号及び原型ベクトル信号が1つの次元だけを有し、この
次元についてのただ1つのパラメータ値だけを有するも
のとして示した。しかしながら実際には、特徴ベクトル
信号及び原型ベクトル信号が例えば50の次元を有するこ
とがある。各次元は各原型ベクトル信号について2つの
パラメータ値を有することができる。各次元の2つのパ
ラメータ値は、例えば平均値及び標準偏差(分散)値で
あつてよい。
【0036】再度図1を参照する。さらに音声コード化
装置は複数の音声遷移モデルを記憶する音声遷移モデル
記憶装置16を含む。各音声遷移モデルは音声遷移でな
る語彙からの音声遷移を表す。各音声遷移は1つの識別
値を有する。複数の異なるモデルによつて少なくとも1
つの音声遷移が表される。各音声遷移モデルは複数のモ
デル出力を有する。各モデル出力は原型ベクトル信号に
ついての原型照合評点を含む。各音声遷移モデルは各モ
デル出力についての出力確率を有する。
装置は複数の音声遷移モデルを記憶する音声遷移モデル
記憶装置16を含む。各音声遷移モデルは音声遷移でな
る語彙からの音声遷移を表す。各音声遷移は1つの識別
値を有する。複数の異なるモデルによつて少なくとも1
つの音声遷移が表される。各音声遷移モデルは複数のモ
デル出力を有する。各モデル出力は原型ベクトル信号に
ついての原型照合評点を含む。各音声遷移モデルは各モ
デル出力についての出力確率を有する。
【0037】次表(3)は仮想の例として3つの音声遷
移ST1、ST2及びST3を示す。これらは複数の異
なる音声遷移モデルによつて表される。音声遷移ST1
は音声遷移モデルTM1及びTM3によつてモデル化さ
れる。音声遷移ST2は音声遷移モデルTM4、TM
5、TM6、TM7及びTM8によつてモデル化され
る。音声遷移ST3は音声遷移モデルTM9及びTM1
0によつてモデル化される。
移ST1、ST2及びST3を示す。これらは複数の異
なる音声遷移モデルによつて表される。音声遷移ST1
は音声遷移モデルTM1及びTM3によつてモデル化さ
れる。音声遷移ST2は音声遷移モデルTM4、TM
5、TM6、TM7及びTM8によつてモデル化され
る。音声遷移ST3は音声遷移モデルTM9及びTM1
0によつてモデル化される。
【0038】
【表3】
【0039】次表(4)は音声遷移モデルTM1〜TM
10の仮想の例を示す。この仮想の例の中の各音声遷移
モデルはゼロでない出力確率を有する2つのモデル出力
を含む。各出力は1つの原型ベクトル信号についての原
型照合評点を含む。他のすべての原型ベクトル信号につ
いてのすべての原型照合評点はゼロの出力確率を有す
る。
10の仮想の例を示す。この仮想の例の中の各音声遷移
モデルはゼロでない出力確率を有する2つのモデル出力
を含む。各出力は1つの原型ベクトル信号についての原
型照合評点を含む。他のすべての原型ベクトル信号につ
いてのすべての原型照合評点はゼロの出力確率を有す
る。
【0040】
【表4】
【0041】記憶しておく音声遷移モデルは、例えばマ
ルコフモデル又は他の動的プログラミングモデルであつ
てよい。音声遷移モデルのパラメータは、例えば順方向
−逆方向アルゴリズムにより得られる平滑化パラメータ
によつて、周知の発音訓練テキストから推定してよい
(例えば、1976年4月発行、IEEE会報、第64巻、第
4号「統計的手法による連続的音声認識」第 532〜 536
頁を参照)。
ルコフモデル又は他の動的プログラミングモデルであつ
てよい。音声遷移モデルのパラメータは、例えば順方向
−逆方向アルゴリズムにより得られる平滑化パラメータ
によつて、周知の発音訓練テキストから推定してよい
(例えば、1976年4月発行、IEEE会報、第64巻、第
4号「統計的手法による連続的音声認識」第 532〜 536
頁を参照)。
【0042】各音声遷移モデルは前後の音声遷移又は音
素の独特の文脈の中の対応する音声遷移を表す。文脈依
存音声遷移モデルは、例えば先ず文脈非依存モデルを構
成することによつて作成することができる。これは、音
素のモデルから手動によつて構成してもよく、例えば米
国特許第 4,759,068号「複数の音声から語のマルコフモ
デルを構成する方法」に述べられている方法によつて自
動的に構成してもよく、また文脈非依存モデルを作成す
る他の周知の方法によつて構成してもよい。
素の独特の文脈の中の対応する音声遷移を表す。文脈依
存音声遷移モデルは、例えば先ず文脈非依存モデルを構
成することによつて作成することができる。これは、音
素のモデルから手動によつて構成してもよく、例えば米
国特許第 4,759,068号「複数の音声から語のマルコフモ
デルを構成する方法」に述べられている方法によつて自
動的に構成してもよく、また文脈非依存モデルを作成す
る他の周知の方法によつて構成してもよい。
【0043】次に音声遷移の発音を文脈依存語彙にグル
ープ化することによつて文脈依存モデルを作成すること
ができる。文脈を手動で選択することができるし、又は
音声遷移に対応する各特徴ベクトル信号にその文脈をも
つてタグを付け、この特徴ベクトル信号をこれらの文脈
に従つてグループ化することにより選択した評価関数を
最適化することによつて自動的に選択することもでき
る。
ープ化することによつて文脈依存モデルを作成すること
ができる。文脈を手動で選択することができるし、又は
音声遷移に対応する各特徴ベクトル信号にその文脈をも
つてタグを付け、この特徴ベクトル信号をこれらの文脈
に従つてグループ化することにより選択した評価関数を
最適化することによつて自動的に選択することもでき
る。
【0044】再び図1を参照する。さらに音声コード化
装置は、第1の特徴ベクトル信号及び各音声遷移モデル
についてのモデル照合評点を生成するモデル照合評点プ
ロセツサ18を含む。各モデル照合評点は第1の特徴ベ
クトル信号及び原型ベクトル信号についての少なくとも
1つの原型照合評点に関する出力確率を含む。
装置は、第1の特徴ベクトル信号及び各音声遷移モデル
についてのモデル照合評点を生成するモデル照合評点プ
ロセツサ18を含む。各モデル照合評点は第1の特徴ベ
クトル信号及び原型ベクトル信号についての少なくとも
1つの原型照合評点に関する出力確率を含む。
【0045】次表(5)は表(2)の2進原型照合評点
を使用して、特徴ベクトル信号FV(1)及び表(4)
に示した各音声遷移モデルについてのモデル照合評点の
仮想の例を示す。表(4)に示すように、2進原型照合
評点が「1」である原型ベクトル信号PV2aの出力確
率はTM3及びTM7以外のすべての音声遷移モデルに
ついてはゼロである。
を使用して、特徴ベクトル信号FV(1)及び表(4)
に示した各音声遷移モデルについてのモデル照合評点の
仮想の例を示す。表(4)に示すように、2進原型照合
評点が「1」である原型ベクトル信号PV2aの出力確
率はTM3及びTM7以外のすべての音声遷移モデルに
ついてはゼロである。
【0046】
【表5】
【0047】さらに音声コード化装置は音声遷移照合評
点プロセツサ20を含む。音声遷移照合評点プロセツサ
20は第1の特徴ベクトル信号及び各音声遷移について
の音声遷移照合評点を生成する。各音声遷移照合評点は
第1の特徴ベクトル信号と音声遷移を表すすべての音声
遷移モデルとについての最良のモデル照合評点を含む。
点プロセツサ20を含む。音声遷移照合評点プロセツサ
20は第1の特徴ベクトル信号及び各音声遷移について
の音声遷移照合評点を生成する。各音声遷移照合評点は
第1の特徴ベクトル信号と音声遷移を表すすべての音声
遷移モデルとについての最良のモデル照合評点を含む。
【0048】次表(6)は特徴ベクトル信号FV(1)
及び各音声遷移についての音声遷移照合評点の仮想の例
を示す。表(5)に示すように、特徴ベクトル信号FV
(1)及び音声遷移ST1についての最良のモデル照合
評点は、音声遷移モデルTM3に対する 0.318のモデル
照合評点である。特徴ベクトル信号FV(1)及び音声
遷移ST2についての最良のモデル照合評点は音声遷移
モデルTM7に対する0.152のモデル照合評点である。
同様に特徴ベクトル信号FV(1)及び音声遷移ST3
についての最良のモデル照合評点はゼロである。
及び各音声遷移についての音声遷移照合評点の仮想の例
を示す。表(5)に示すように、特徴ベクトル信号FV
(1)及び音声遷移ST1についての最良のモデル照合
評点は、音声遷移モデルTM3に対する 0.318のモデル
照合評点である。特徴ベクトル信号FV(1)及び音声
遷移ST2についての最良のモデル照合評点は音声遷移
モデルTM7に対する0.152のモデル照合評点である。
同様に特徴ベクトル信号FV(1)及び音声遷移ST3
についての最良のモデル照合評点はゼロである。
【0049】
【表6】
【0050】図1に示す音声コード化装置は、各音声遷
移の識別値と第1の特徴ベクトル信号及び各音声遷移に
ついての音声遷移照合評点とを第1の特徴ベクトル信号
のコード化した発音表現信号として出力するコード化出
力手段22を含む。表(6)は特徴ベクトル信号FV
(1)に対するコード化出力の仮想の例を示す。
移の識別値と第1の特徴ベクトル信号及び各音声遷移に
ついての音声遷移照合評点とを第1の特徴ベクトル信号
のコード化した発音表現信号として出力するコード化出
力手段22を含む。表(6)は特徴ベクトル信号FV
(1)に対するコード化出力の仮想の例を示す。
【0051】図2は本発明による音声コード化装置の他
の例を示すブロツク図である。この実施例における音響
特徴値測定装置10、原型ベクトル信号記憶装置12、
比較プロセツサ14、モデル照合評点プロセツサ18及
び音声遷移照合評点プロセツサ20は図1に関連して述
べた要素と同じである。しかしながら、この実施例にお
いて音声コード化装置は複数の音声ユニツトモデルを記
憶する音声ユニツトモデル記憶装置24を含む。各音声
ユニツトモデルは2つ又は3つ以上の音声遷移を含む音
声ユニツトを表す。各音声ユニツトモデルは2つ又は3
つ以上の音声遷移モデルを含む。各音声ユニツトは識別
値を有する。各音声ユニツトは音素であり、各音声遷移
は音素の一部であるのが好ましい。
の例を示すブロツク図である。この実施例における音響
特徴値測定装置10、原型ベクトル信号記憶装置12、
比較プロセツサ14、モデル照合評点プロセツサ18及
び音声遷移照合評点プロセツサ20は図1に関連して述
べた要素と同じである。しかしながら、この実施例にお
いて音声コード化装置は複数の音声ユニツトモデルを記
憶する音声ユニツトモデル記憶装置24を含む。各音声
ユニツトモデルは2つ又は3つ以上の音声遷移を含む音
声ユニツトを表す。各音声ユニツトモデルは2つ又は3
つ以上の音声遷移モデルを含む。各音声ユニツトは識別
値を有する。各音声ユニツトは音素であり、各音声遷移
は音素の一部であるのが好ましい。
【0052】次表(7)は音声ユニツト(音素)P1及
びP2にそれぞれ対応する音声ユニツトモデルSU1及
びSU2の仮想の例を示す。音声ユニツトP1は音声遷
移ST1及び音声遷移ST3を含む。音声ユニツトP2
は音声遷移ST2及び音声遷移ST3を含む。
びP2にそれぞれ対応する音声ユニツトモデルSU1及
びSU2の仮想の例を示す。音声ユニツトP1は音声遷
移ST1及び音声遷移ST3を含む。音声ユニツトP2
は音声遷移ST2及び音声遷移ST3を含む。
【0053】
【表7】
【0054】再度図2を参照すると、さらに音声コード
化装置は音声ユニツト照合評点プロセツサ26を含む。
音声ユニツト照合評点プロセツサ26は第1の特徴ベク
トル信号及び各音声ユニツトについての音声ユニツト照
合評点を生成する。各音声ユニツト照合評点は第1の特
徴ベクトル信号と音声ユニツト内のすべての音声遷移と
についての最良の音声遷移照合評点を含む。
化装置は音声ユニツト照合評点プロセツサ26を含む。
音声ユニツト照合評点プロセツサ26は第1の特徴ベク
トル信号及び各音声ユニツトについての音声ユニツト照
合評点を生成する。各音声ユニツト照合評点は第1の特
徴ベクトル信号と音声ユニツト内のすべての音声遷移と
についての最良の音声遷移照合評点を含む。
【0055】本発明による音声コード化装置のこの実施
例において、コード化出力手段22は各音声ユニツトの
識別値と第1の特徴ベクトル信号及び各音声ユニツトに
ついての音声ユニツト照合評点とを第1の特徴ベクトル
信号のコード化した発音表現信号として出力する。
例において、コード化出力手段22は各音声ユニツトの
識別値と第1の特徴ベクトル信号及び各音声ユニツトに
ついての音声ユニツト照合評点とを第1の特徴ベクトル
信号のコード化した発音表現信号として出力する。
【0056】表(7)の仮想の例に示すように、特徴ベ
クトル信号FV(1)についてのコード化した発音表現
信号は、音声ユニツトP1及びP2についての識別値と
それぞれ 0.318及び 0.152の音声ユニツト照合評点とを
含む。
クトル信号FV(1)についてのコード化した発音表現
信号は、音声ユニツトP1及びP2についての識別値と
それぞれ 0.318及び 0.152の音声ユニツト照合評点とを
含む。
【0057】図3は本発明の音声コード化装置を用いる
本発明による音声認識装置の一実施例のブロツク図であ
る。この音声認識装置は音声コード化装置28を含み、
音声コード化装置28は図2に示すすべての要素を含
む。さらに音声認識装置は複数の語についての確率論的
モデルを記憶する語モデル記憶装置30を含む。各語モ
デルは少なくとも1つの音声ユニツトモデルを含む。各
語モデルは開始状態と、終了状態と、開始状態から終了
状態への道の少なくとも一部に音声ユニツトモデルを通
る複数の経路とを有する。
本発明による音声認識装置の一実施例のブロツク図であ
る。この音声認識装置は音声コード化装置28を含み、
音声コード化装置28は図2に示すすべての要素を含
む。さらに音声認識装置は複数の語についての確率論的
モデルを記憶する語モデル記憶装置30を含む。各語モ
デルは少なくとも1つの音声ユニツトモデルを含む。各
語モデルは開始状態と、終了状態と、開始状態から終了
状態への道の少なくとも一部に音声ユニツトモデルを通
る複数の経路とを有する。
【0058】図4は語又は語の一部についての音響モデ
ルの仮想の例を示す。図4に示す仮想モデルは開始状態
S1、終了状態S4及び開始状態S1から終了状態S4
への道の少なくとも一部に複数の経路を含む。図4に示
す仮想モデルは音声ユニツトのモデルP1、P2及びP
3を含む。
ルの仮想の例を示す。図4に示す仮想モデルは開始状態
S1、終了状態S4及び開始状態S1から終了状態S4
への道の少なくとも一部に複数の経路を含む。図4に示
す仮想モデルは音声ユニツトのモデルP1、P2及びP
3を含む。
【0059】図5は音素についての音響モデルの仮想の
例を示す。この例において、音響モデルは遷移T1の3
つの発生セグメント、遷移T2の4つの発生セグメント
及び遷移T3の3つの発生セグメントを含む。破線で示
す発生セグメントは空白遷移である。実線で示した各遷
移は原型ベクトル信号についての原型照合評点を含むモ
デル出力を有する音声遷移モデルでモデル化される。各
モデル出力は1つの出力確率を有する。各空白遷移は出
力をもつていない遷移モデルでモデル化される。
例を示す。この例において、音響モデルは遷移T1の3
つの発生セグメント、遷移T2の4つの発生セグメント
及び遷移T3の3つの発生セグメントを含む。破線で示
す発生セグメントは空白遷移である。実線で示した各遷
移は原型ベクトル信号についての原型照合評点を含むモ
デル出力を有する音声遷移モデルでモデル化される。各
モデル出力は1つの出力確率を有する。各空白遷移は出
力をもつていない遷移モデルでモデル化される。
【0060】上述の手法で各語の複数の発音から自動的
に語モデルを構成するか又は音声モデルから手動で構成
しても良い。
に語モデルを構成するか又は音声モデルから手動で構成
しても良い。
【0061】図3に戻り、さらに音声認識装置は語照合
評点プロセツサ32を含む。語照合評点プロセツサ32
は一連の特徴ベクトル信号及び複数の各語についての語
照合評点を生成する。各語照合評点は一連の音声ユニツ
トモデルを通る少なくとも1つの経路に沿う音声ユニツ
ト及び一連の特徴ベクトル信号についての音声ユニツト
照合評点と語のモデルとの組合せを含む。
評点プロセツサ32を含む。語照合評点プロセツサ32
は一連の特徴ベクトル信号及び複数の各語についての語
照合評点を生成する。各語照合評点は一連の音声ユニツ
トモデルを通る少なくとも1つの経路に沿う音声ユニツ
ト及び一連の特徴ベクトル信号についての音声ユニツト
照合評点と語のモデルとの組合せを含む。
【0062】次表(8)は特徴ベクトルFV(1)、F
V(2)及びFV(3)と音声ユニツトP1、P2及び
P3とについての音声ユニツト照合評点の仮想の例を示
す。
V(2)及びFV(3)と音声ユニツトP1、P2及び
P3とについての音声ユニツト照合評点の仮想の例を示
す。
【0063】
【表8】
【0064】次表(9)は図4に示す仮想の音響モデル
の遷移についての遷移確率の仮想の例を示す。
の遷移についての遷移確率の仮想の例を示す。
【0065】
【表9】
【0066】次表(10)は図4の音響モデルの各遷移
についての特徴ベクトルFV(1)、FV(2)及びF
V(3)の遷移確率の仮想の例を示す。
についての特徴ベクトルFV(1)、FV(2)及びF
V(3)の遷移確率の仮想の例を示す。
【0067】
【表10】
【0068】図6は図4の音響モデルを通る経路と表
(8)、表(9)及び表(10)の仮想パラメータを使
用してのこのモデル及び一連の特徴ベクトル信号につい
ての語照合評点の生成との仮想の例を示する。図6にお
いて変数Pは各ノードへの到達の確率(すなわち、各時
間における各状態への到達の確率)である。
(8)、表(9)及び表(10)の仮想パラメータを使
用してのこのモデル及び一連の特徴ベクトル信号につい
ての語照合評点の生成との仮想の例を示する。図6にお
いて変数Pは各ノードへの到達の確率(すなわち、各時
間における各状態への到達の確率)である。
【0069】図3に戻り、さらに音声認識装置は最良の
語照合評点を有する1つ又は2つ以上の最良の候補語を
識別する最良候補語識別装置34を含む。語出力装置3
6は少なくとも1つの最良の候補語を出力する。
語照合評点を有する1つ又は2つ以上の最良の候補語を
識別する最良候補語識別装置34を含む。語出力装置3
6は少なくとも1つの最良の候補語を出力する。
【0070】専用又は汎用のデイジタルコンピユータシ
ステムのいずれかを適切にプログラミングすることによ
つて本発明による音声コード化装置及び音声認識装置を
作ることができる。さらに詳細に述べれば、専用又は汎
用のデイジタルプロセツサのいずれかを適切にプログラ
ミングすることによつて比較プロセツサ14、モデル照
合評点プロセツサ18、音声遷移照合評点プロセツサ2
0、音声ユニツト照合評点プロセツサ26、語照合評点
プロセツサ32及び最良候補語識別装置34を作ること
ができる。原型ベクトル信号記憶装置12、音声遷移モ
デル記憶装置16、音声ユニツトモデル記憶装置24及
び語モデル記憶装置30は電子計算機のメモリであつて
よい。語出力装置36は、例えば陰極線管、液晶表示装
置又はプリンタ等のビデオ表示装置であつてよい。また
語出力装置36はスピーカ又はヘツドホンを有する音声
合成装置等のオーデイオ出力装置であつてもよい。
ステムのいずれかを適切にプログラミングすることによ
つて本発明による音声コード化装置及び音声認識装置を
作ることができる。さらに詳細に述べれば、専用又は汎
用のデイジタルプロセツサのいずれかを適切にプログラ
ミングすることによつて比較プロセツサ14、モデル照
合評点プロセツサ18、音声遷移照合評点プロセツサ2
0、音声ユニツト照合評点プロセツサ26、語照合評点
プロセツサ32及び最良候補語識別装置34を作ること
ができる。原型ベクトル信号記憶装置12、音声遷移モ
デル記憶装置16、音声ユニツトモデル記憶装置24及
び語モデル記憶装置30は電子計算機のメモリであつて
よい。語出力装置36は、例えば陰極線管、液晶表示装
置又はプリンタ等のビデオ表示装置であつてよい。また
語出力装置36はスピーカ又はヘツドホンを有する音声
合成装置等のオーデイオ出力装置であつてもよい。
【0071】図7は音響特徴値測定装置の一例を示す。
この測定手段は発音に対応するアナログ電気信号を発生
するマイクロホン38を含む。マイクロホン38のアナ
ログ電気信号はアナログ−デイジタル変換器40によつ
てデイジタル電気信号に変換される。この目的を達成す
るために、アナログ−デイジタル変換器40が例えば20
〔kHz 〕のレートでアナログ信号をサンプリングする。
この測定手段は発音に対応するアナログ電気信号を発生
するマイクロホン38を含む。マイクロホン38のアナ
ログ電気信号はアナログ−デイジタル変換器40によつ
てデイジタル電気信号に変換される。この目的を達成す
るために、アナログ−デイジタル変換器40が例えば20
〔kHz 〕のレートでアナログ信号をサンプリングする。
【0072】ウインドウ発生器42は、例えばアナログ
−デイジタル変換器40からの持続時間20〔msec〕のデ
イジタル信号のサンプルを10〔msec〕(1センチ秒)ご
とに得る。持続時間20〔msec〕のデイジタル信号の各サ
ンプルをスペクトル分析器44によつて分析することに
より、例えば20の各周波数帯におけるこのデイジタル信
号のサンプルの大きさを得る。またスペクトル分析器4
4はこの20〔msec〕のデイジタル信号サンプルの合計の
大きさすなわちトータルパワーを表わす21次元信号を発
生するのが好適である。スペクトル分析器44は例えば
高速フーリエ変換プロセツサであつてよい。またスペク
トル分析器44は20個の帯域フイルタのバンクであつて
もよい。
−デイジタル変換器40からの持続時間20〔msec〕のデ
イジタル信号のサンプルを10〔msec〕(1センチ秒)ご
とに得る。持続時間20〔msec〕のデイジタル信号の各サ
ンプルをスペクトル分析器44によつて分析することに
より、例えば20の各周波数帯におけるこのデイジタル信
号のサンプルの大きさを得る。またスペクトル分析器4
4はこの20〔msec〕のデイジタル信号サンプルの合計の
大きさすなわちトータルパワーを表わす21次元信号を発
生するのが好適である。スペクトル分析器44は例えば
高速フーリエ変換プロセツサであつてよい。またスペク
トル分析器44は20個の帯域フイルタのバンクであつて
もよい。
【0073】適応性を有する雑音消去プロセツサ46に
よつて背景雑音を除去するようにスペクトル分析器44
が発生する21次元ベクトル信号を適合させることができ
る。雑音消去プロセツサ46は雑音消去プロセツサ内に
与えられる特徴ベクトルF(t)入力から雑音ベクトル
N(t)を減算することにより、特徴ベクトルF′
(t)を出力として発生する。雑音消去プロセツサ46
は前の特徴ベクトルF(t−1)を雑音又は無音である
と識別したならばいつでも、雑音ベクトルN(t)を定
期的に更新することによつて雑音レベルを変更するよう
に適合される。雑音ベクトルN(t)を次式(1)に従
つて更新する。
よつて背景雑音を除去するようにスペクトル分析器44
が発生する21次元ベクトル信号を適合させることができ
る。雑音消去プロセツサ46は雑音消去プロセツサ内に
与えられる特徴ベクトルF(t)入力から雑音ベクトル
N(t)を減算することにより、特徴ベクトルF′
(t)を出力として発生する。雑音消去プロセツサ46
は前の特徴ベクトルF(t−1)を雑音又は無音である
と識別したならばいつでも、雑音ベクトルN(t)を定
期的に更新することによつて雑音レベルを変更するよう
に適合される。雑音ベクトルN(t)を次式(1)に従
つて更新する。
【0074】
【数1】
【0075】ここで、N(t)は時間(t)における雑
音ベクトル、N(t−1)は時間(t−1)における雑
音ベクトル、kは適応性雑音消去モデルの固定パラメー
タ、F(t−1)は時間(t−1)における雑音消去プ
ロセツサ46内への特徴ベクトル入力であり雑音又は無
音を表し、Fp(t−1)は特徴ベクトルF(t−1)
に最も近い、記憶装置48からの1つの無音又は雑音原
型ベクトルである。
音ベクトル、N(t−1)は時間(t−1)における雑
音ベクトル、kは適応性雑音消去モデルの固定パラメー
タ、F(t−1)は時間(t−1)における雑音消去プ
ロセツサ46内への特徴ベクトル入力であり雑音又は無
音を表し、Fp(t−1)は特徴ベクトルF(t−1)
に最も近い、記憶装置48からの1つの無音又は雑音原
型ベクトルである。
【0076】(A)ベクトルの総エネルギーがスレシヨ
ルドを下回るか又は(B)適応性原型ベクトル記憶装置
50内の、特徴ベクトルに最も近い原型ベクトルが雑音
又は無音を表す原型のとき、前の特徴ベクトルF(t−
1)は雑音又は無音として認識される。特徴ベクトルの
総エネルギーを分析するこうした目的のためには、スレ
シヨルドは、例えば特徴ベクトルが評価される前の2秒
間で生成された(音声及び無音の双方に対応する)すべ
ての特徴ベクトルの5パーセント点であつてよい。
ルドを下回るか又は(B)適応性原型ベクトル記憶装置
50内の、特徴ベクトルに最も近い原型ベクトルが雑音
又は無音を表す原型のとき、前の特徴ベクトルF(t−
1)は雑音又は無音として認識される。特徴ベクトルの
総エネルギーを分析するこうした目的のためには、スレ
シヨルドは、例えば特徴ベクトルが評価される前の2秒
間で生成された(音声及び無音の双方に対応する)すべ
ての特徴ベクトルの5パーセント点であつてよい。
【0077】雑音消去の後、特徴ベクトルF′(t)を
正規化することにより短期間平均正規化プロセツサ52
によつて入力音声の大きさの変動を調整する。正規化プ
ロセツサ52は21次元特徴ベクトルF′(t)を正規化
することにより20次元の正規化された特徴ベクトルX
(t)を発生する。合計の大きさすなわちトータルパワ
ーを表す、特徴ベクトルF′(t)の21次元目は放棄さ
れる。正規化された特徴ベクトルX(t)の時間tにお
ける各成分iは、例えば次式(2)によつて対数ドメイ
ンで与えられる。
正規化することにより短期間平均正規化プロセツサ52
によつて入力音声の大きさの変動を調整する。正規化プ
ロセツサ52は21次元特徴ベクトルF′(t)を正規化
することにより20次元の正規化された特徴ベクトルX
(t)を発生する。合計の大きさすなわちトータルパワ
ーを表す、特徴ベクトルF′(t)の21次元目は放棄さ
れる。正規化された特徴ベクトルX(t)の時間tにお
ける各成分iは、例えば次式(2)によつて対数ドメイ
ンで与えられる。
【0078】
【数2】
【0079】ここでF′(t)は正規化されていないベ
クトルの時間(t)におけるi番目の成分、Z(t)は
F′(t)の成分及び次式(3)及び次式(4)による
Z(t−1)の加重平均である。
クトルの時間(t)におけるi番目の成分、Z(t)は
F′(t)の成分及び次式(3)及び次式(4)による
Z(t−1)の加重平均である。
【0080】
【数3】
【0081】
【数4】
【0082】正規化された20次元特徴ベクトルX(t)
を適応性ラベラ54でさらに処理することにより音声の
発音の変動に適合させることができる。適応性ラベラ5
4の入力端に供給された20次元特徴ベクトルX(t)か
ら20次元適応ベクトルA(t)を減算することによつ
て、適合された20次元特徴ベクトルX′(t)が発生さ
れる。時間(t)における適応性ベクトルA(t)は例
えば次式(5)から得ることができる。
を適応性ラベラ54でさらに処理することにより音声の
発音の変動に適合させることができる。適応性ラベラ5
4の入力端に供給された20次元特徴ベクトルX(t)か
ら20次元適応ベクトルA(t)を減算することによつ
て、適合された20次元特徴ベクトルX′(t)が発生さ
れる。時間(t)における適応性ベクトルA(t)は例
えば次式(5)から得ることができる。
【0083】
【数5】
【0084】ここでkは適応性ラベリングモデルの固定
パラメータ、X(t−1)は時間(t−1)における適
応性ラベラ54への正規化された20次元ベクトル入力、
Xp(t−1)は時間(t−1)における20次元特徴ベ
クトルX(t−1)に最も近い(適応性原型記憶装置5
0からの)適応性原型ベクトル、A(t−1)は時間
(t−1)における適応性ベクトルである。
パラメータ、X(t−1)は時間(t−1)における適
応性ラベラ54への正規化された20次元ベクトル入力、
Xp(t−1)は時間(t−1)における20次元特徴ベ
クトルX(t−1)に最も近い(適応性原型記憶装置5
0からの)適応性原型ベクトル、A(t−1)は時間
(t−1)における適応性ベクトルである。
【0085】適応性ラベラ54からの20次元の適合され
た特徴ベクトルX′(t)は聴覚モデル56に供給され
る。例えば、聴覚モデル56は人の聴覚システムがいか
にして音響信号を知覚するかのモデルを提供する。米国
特許第 4,980,918号「音韻論的グラフの効率的記憶及び
高速アセンブリを伴う音声認識システム」に聴覚モデル
の一例が述べられている。
た特徴ベクトルX′(t)は聴覚モデル56に供給され
る。例えば、聴覚モデル56は人の聴覚システムがいか
にして音響信号を知覚するかのモデルを提供する。米国
特許第 4,980,918号「音韻論的グラフの効率的記憶及び
高速アセンブリを伴う音声認識システム」に聴覚モデル
の一例が述べられている。
【0086】本発明によると、聴覚モデル56は時間
〔t〕における適合された特徴ベクトル信号X′(t)
の各周波数帯iについて、次式(6)及び次式(7)に
従つて新しいパラメータEi(t)を算出する。
〔t〕における適合された特徴ベクトル信号X′(t)
の各周波数帯iについて、次式(6)及び次式(7)に
従つて新しいパラメータEi(t)を算出する。
【0087】
【数6】
【0088】
【数7】
【0089】ここで、K1 、K2 及びK3 は聴覚モデル
の固定パラメータである。
の固定パラメータである。
【0090】センチ秒の各時間間隔について聴覚モデル
56の出力は修正された20次元の特徴ベクトル信号であ
る。この特徴ベクトルには、他の20の次元の値を2乗し
たものの合計の平方根に等しい値を有する21番目の次元
が付加される。
56の出力は修正された20次元の特徴ベクトル信号であ
る。この特徴ベクトルには、他の20の次元の値を2乗し
たものの合計の平方根に等しい値を有する21番目の次元
が付加される。
【0091】センチ秒の各時間間隔について結合器58
は、1つの現在のセンチ秒時間間隔と、4つの先行する
センチ秒時間間隔と、4つの後続のセンチ秒時間間隔と
を表す9個の21次元特徴ベクトルを結合することによ
り、単一の 189次元の接続されたベクトルを形成する。
ロテータ60で各 189次元の接続した結合ベクトルに回
転行列を掛けることにより、この接続したベクトルを回
転させてこの接続したベクトルを50次元に減らす。
は、1つの現在のセンチ秒時間間隔と、4つの先行する
センチ秒時間間隔と、4つの後続のセンチ秒時間間隔と
を表す9個の21次元特徴ベクトルを結合することによ
り、単一の 189次元の接続されたベクトルを形成する。
ロテータ60で各 189次元の接続した結合ベクトルに回
転行列を掛けることにより、この接続したベクトルを回
転させてこの接続したベクトルを50次元に減らす。
【0092】訓練セツシヨンの期間中に得られる 189次
元の接続したベクトルのセツトを例えばM個のクラスに
分類することによつて、ロテータ60で使用する回転行
列を得ることができる。訓練セツト内のすべての接続し
たベクトルについての共分散行列に、M個のすべてのク
ラス内における接続したベクトルのすべてについてのク
ラス内の共分散行列の逆を掛ける。その結果得られる行
列の最初の50個の固有ベクトルが回転行列を形成する。
(一例として、1989年12月発行、IBMテクニカル・デ
イスクロージヤ・ブリテイン、第32巻、第7号「離散パ
ラメータ音素に基づいたマルコフ語モデルを使用する音
声認識システム用のベクトル量子化手順」 320頁及び 3
21頁参照)。
元の接続したベクトルのセツトを例えばM個のクラスに
分類することによつて、ロテータ60で使用する回転行
列を得ることができる。訓練セツト内のすべての接続し
たベクトルについての共分散行列に、M個のすべてのク
ラス内における接続したベクトルのすべてについてのク
ラス内の共分散行列の逆を掛ける。その結果得られる行
列の最初の50個の固有ベクトルが回転行列を形成する。
(一例として、1989年12月発行、IBMテクニカル・デ
イスクロージヤ・ブリテイン、第32巻、第7号「離散パ
ラメータ音素に基づいたマルコフ語モデルを使用する音
声認識システム用のベクトル量子化手順」 320頁及び 3
21頁参照)。
【0093】ウインドウ発生器42、スペクトル分析器
44、適応性を有する雑音消去プロセツサ46、短期間
平均正規化プロセツサ52、適応性を有するラベラ5
4、聴覚モデル56、結合器58及びロテータ60は適
切にプログラムされた専用又は汎用のデイジタル信号プ
ロセツサであつてよい。原型記憶装置48及び50は上
述の形式の電子計算機のメモリであつてよい。
44、適応性を有する雑音消去プロセツサ46、短期間
平均正規化プロセツサ52、適応性を有するラベラ5
4、聴覚モデル56、結合器58及びロテータ60は適
切にプログラムされた専用又は汎用のデイジタル信号プ
ロセツサであつてよい。原型記憶装置48及び50は上
述の形式の電子計算機のメモリであつてよい。
【0094】例えば、訓練セツトからの特徴ベクトル信
号を複数のクラスタにクラスタ化し、次に各クラスタに
ついての平均偏差及び標準偏差を算出して原型ベクトル
のパラメータ値を形成することによつて、原型記憶装置
48の原型ベクトルを得ることができる。訓練用のスク
リプトが一連の語セグメントモデル(一連の語のモデル
を形成する)を含み、各語セグメントモデルが語セグメ
ントモデル内に特定の記憶場所を有する一連の基本モデ
ルを含むとき、各クラスタが単一の語セグメントモデル
内の1つの記憶場所の単一の基本モデルに対応すること
を指定することによつて、特徴ベクトル信号をクラスタ
化することができる。この方法は、1991年7月16日出
願、米国特許出願第 730,714号「自動音声認識用の音響
原型を引き出す高速アルゴリズム」に一段と詳細に述べ
られている。
号を複数のクラスタにクラスタ化し、次に各クラスタに
ついての平均偏差及び標準偏差を算出して原型ベクトル
のパラメータ値を形成することによつて、原型記憶装置
48の原型ベクトルを得ることができる。訓練用のスク
リプトが一連の語セグメントモデル(一連の語のモデル
を形成する)を含み、各語セグメントモデルが語セグメ
ントモデル内に特定の記憶場所を有する一連の基本モデ
ルを含むとき、各クラスタが単一の語セグメントモデル
内の1つの記憶場所の単一の基本モデルに対応すること
を指定することによつて、特徴ベクトル信号をクラスタ
化することができる。この方法は、1991年7月16日出
願、米国特許出願第 730,714号「自動音声認識用の音響
原型を引き出す高速アルゴリズム」に一段と詳細に述べ
られている。
【0095】また訓練用テキストの発音によつて生成さ
れ、所与の基本モデルに対応するすべての音響特徴ベク
トルを、K−平均ユークリツドクラスタ化又はK−平均
ガウスクラスタ化又はこれらの双方によつてクラスタ化
することもできる。この方法の一例は、1991年3月22日
出願、米国特許出願第 673,810号「話者非依存型のラベ
ルコード化装置」に述べられている。
れ、所与の基本モデルに対応するすべての音響特徴ベク
トルを、K−平均ユークリツドクラスタ化又はK−平均
ガウスクラスタ化又はこれらの双方によつてクラスタ化
することもできる。この方法の一例は、1991年3月22日
出願、米国特許出願第 673,810号「話者非依存型のラベ
ルコード化装置」に述べられている。
【0096】
【発明の効果】上述のように本発明によれば、音声コー
ド化装置は、原型ベクトル信号のパラメータ値に対する
発音の特徴ベクトル信号の特徴値の近さを比較すること
により特徴ベクトル信号及び各原型ベクトル信号につい
ての複数の原型照合評点を得、音声遷移を表す複数の音
声遷移モデルを記憶する。第1の特徴ベクトル信号及び
各音声遷移モデルについてのモデル照合評点は第1の特
徴ベクトル信号及び原型ベクトル信号についての少なく
とも1つの原型照合評点に関する出力確率を含む。第1
の特徴ベクトル信号及び各音声遷移についての音声遷移
照合評点は音声遷移を表すすべての音声遷移モデルと第
1の特徴ベクトル信号とについての最良のモデル照合評
点を含む。各音声遷移の識別値と第1の特徴ベクトル信
号及び各音声遷移についての音声遷移照合評点とは第1
の特徴ベクトル信号のコード化した発音表現信号として
出力される。これにより詳細音響照合で使用されるもの
と同じ文脈依存音響モデルを使用する、高速音響照合用
の音声コード化装置を提供することができる。
ド化装置は、原型ベクトル信号のパラメータ値に対する
発音の特徴ベクトル信号の特徴値の近さを比較すること
により特徴ベクトル信号及び各原型ベクトル信号につい
ての複数の原型照合評点を得、音声遷移を表す複数の音
声遷移モデルを記憶する。第1の特徴ベクトル信号及び
各音声遷移モデルについてのモデル照合評点は第1の特
徴ベクトル信号及び原型ベクトル信号についての少なく
とも1つの原型照合評点に関する出力確率を含む。第1
の特徴ベクトル信号及び各音声遷移についての音声遷移
照合評点は音声遷移を表すすべての音声遷移モデルと第
1の特徴ベクトル信号とについての最良のモデル照合評
点を含む。各音声遷移の識別値と第1の特徴ベクトル信
号及び各音声遷移についての音声遷移照合評点とは第1
の特徴ベクトル信号のコード化した発音表現信号として
出力される。これにより詳細音響照合で使用されるもの
と同じ文脈依存音響モデルを使用する、高速音響照合用
の音声コード化装置を提供することができる。
【図1】図1は本発明による音声コード化装置の一実施
例を示すブロツク図である。
例を示すブロツク図である。
【図2】図2は本発明による音声コード化装置の他の実
施例を示すブロツク図である。
施例を示すブロツク図である。
【図3】図3は本発明による音声コード化装置を用いた
本発明の音声認識装置の一実施例を示すブロツク図であ
る。
本発明の音声認識装置の一実施例を示すブロツク図であ
る。
【図4】図4は語又は語についての一部の音響モデルの
仮想の例を示す略線図である。
仮想の例を示す略線図である。
【図5】図5は音素についての音響モデルの仮想の例を
示す略線図である。
示す略線図である。
【図6】図6は図4の音響モデルを通る完全な経路及び
部分的な経路の仮想の例を示す略線図である。
部分的な経路の仮想の例を示す略線図である。
【図7】図7は本発明による音声コード化装置及び音声
認識装置に使用される音響特徴値測定装置の一実施例を
示すブロツク図である。
認識装置に使用される音響特徴値測定装置の一実施例を
示すブロツク図である。
10……音響特徴測定装置、12……原型ベクトル信号
記憶装置、14……比較プロセツサ、16……音声遷移
モデル記憶装置、18……モデル照合評点プロセツサ、
20……音声遷移照合評点プロセツサ、22……コート
化出力手段、24……音声ユニツトモデル記憶装置、2
6……音声ユニツト照合評点プロセツサ、28……音声
コード化装置、30……語モデル記憶装置、32……語
照合評点プロセツサ、34……最良候補語識別装置、3
6……語出力装置、38……マイクロホン、40……ア
ナログ−デイジタル変換器、42……ウインドウ発生
器、44……スペクトル分析器、46……適応性を有す
る雑音消去プロセツサ、48……無音又は雑音原型ベク
トル記憶装置、50……適応性原型ベクトル記憶装置、
52……平均正規化プロセツサ、54……適応性を有す
るラベラ、56……聴覚モデル、58……結合器、60
……ロテータ。
記憶装置、14……比較プロセツサ、16……音声遷移
モデル記憶装置、18……モデル照合評点プロセツサ、
20……音声遷移照合評点プロセツサ、22……コート
化出力手段、24……音声ユニツトモデル記憶装置、2
6……音声ユニツト照合評点プロセツサ、28……音声
コード化装置、30……語モデル記憶装置、32……語
照合評点プロセツサ、34……最良候補語識別装置、3
6……語出力装置、38……マイクロホン、40……ア
ナログ−デイジタル変換器、42……ウインドウ発生
器、44……スペクトル分析器、46……適応性を有す
る雑音消去プロセツサ、48……無音又は雑音原型ベク
トル記憶装置、50……適応性原型ベクトル記憶装置、
52……平均正規化プロセツサ、54……適応性を有す
るラベラ、56……聴覚モデル、58……結合器、60
……ロテータ。
フロントページの続き (72)発明者 ラリツト・アール・バール アメリカ合衆国、ニユーヨーク州10501、 アマウオーク、エリシヤ・パーデイ・ロー ド、ボツクス28、アールデイー1(番地な し) (72)発明者 ピーター・ビンセント・ドウソウザ アメリカ合衆国、カリフオルニア州95124、 サン・ジヨウズ、ビスタ・ループ 6001番 地 (72)発明者 ポナニ・エス・ゴパラクリシユナン アメリカ合衆国、ニユーヨーク州10520、 クロトン−オン−ハドソン、シーニツク・ ドライブ 25ジエイ番地 (72)発明者 マイケル・アラン・ピチエニー アメリカ合衆国、ニユーヨーク州10404、 ホワイト・プレーンズ、ラルフ・アベニユ 118番地
Claims (9)
- 【請求項1】一連の連続的な各時間間隔について発音の
少なくとも1つの特徴の値を測定することにより上記特
徴値を表す一連の特徴ベクトル信号を発生する手段と、 それぞれが少なくとも1つのパラメータ値を有する複数
の原型ベクトル信号を記憶する手段と、 原型ベクトル信号のパラメータ値に対する第1の特徴ベ
クトル信号の特徴値の近さを比較することにより第1の
特徴ベクトル信号及び各原型ベクトル信号についての原
型照合評点を得る手段と、 識別値を有する音声遷移でなる語彙からの音声遷移をそ
れぞれ表す複数の音声遷移モデルを記憶する手段と、 第1の特徴ベクトル信号及び各音声遷移モデルについて
のモデル照合評点を生成する手段と、 第1の特徴ベクトル信号及び各音声遷移についての音声
遷移照合評点を生成する手段と、 各音声遷移の識別値と第1の特徴ベクトル信号及び各音
声遷移についての音声遷移照合評点とを第1の特徴ベク
トル信号のコード化した発音表現信号として出力する手
段とを具え、 少なくとも1つの音声遷移は複数の異なるモデルによつ
て表され、各音声遷移モデルは複数のモデル出力を有
し、各モデル出力は原型ベクトル信号についての原型照
合評点を含み、各音声遷移モデルは各モデル出力につい
ての出力確率を有し、 各モデル照合評点は第1の特徴ベクトル及び原型ベクト
ル信号についての少なくとも1つの原型照合評点に関す
る出力確率を含み、 各音声遷移照合評点は第1の特徴ベクトル信号と音声遷
移を表すすべての音声遷移モデルとについての最良のモ
デル照合評点を含むことを特徴とする音声コード化装
置。 - 【請求項2】さらに、 識別値を有する音声ユニツトを表す複数の音声ユニツト
モデルを記憶する手段と、 第1の特徴ベクトル信号及び各音声ユニツトについての
音声ユニツト照合評点を生成する手段とを具え、 各音声ユニツトモデルは2つ又は3つ以上の音声遷移及
び2つ又は3つ以上の音声遷移モデルを含み、 各音声ユニツト照合評点は第1の特徴ベクトル信号と音
声ユニツト内のすべての音声遷移とについての最良の音
声遷移照合評点を含み、 各音声遷移の識別値と第1の特徴ベクトル信号及び各音
声遷移についての音声遷移照合評点とを第1の特徴ベク
トル信号のコード化した発音表現信号として出力する上
記手段は、各音声ユニツトの識別値と第1の特徴ベクト
ル信号及び各音声ユニツトについての音声ユニツト照合
評点とを第1の特徴ベクトル信号のコード化した発音表
現信号として出力することを特徴とする請求項1に記載
の音声コード化装置。 - 【請求項3】一連の連続的な各時間間隔について発音の
少なくとも1つの特徴の値を測定することにより上記特
徴値を表す一連の特徴ベクトル信号を発生するステツプ
と、 それぞれが少なくとも1つのパラメータ値を有する複数
の原型ベクトル信号をを記憶するステツプと、 原型ベクトル信号のパラメータ値に対する第1の特徴ベ
クトル信号の特徴値の近さを比較することにより第1の
特徴ベクトル信号及び各原型ベクトル信号についての原
型照合評点を得るステツプと、 識別値を有する音声遷移でなる語彙からの音声遷移をそ
れぞれ表す複数の音声遷移モデルを記憶し、少なくとも
1つの音声遷移は複数の異なるモデルによつて表され、
各音声遷移モデルは複数のモデル出力を有し、各モデル
出力は原型ベクトル信号についての原型照合評点を含
み、各音声遷移モデルは各モデル出力に関する出力確率
を有するようにするステツプと、 第1の特徴ベクトル信号及び各音声遷移モデルについて
のモデル照合評点を生成し、各モデル照合評点は第1の
特徴ベクトル信号及び原型ベクトル信号についての少な
くとも1つの原型照合評点に関する出力確率を含むよう
にするステツプと、 第1の特徴ベクトル信号及び各音声遷移についての音声
遷移照合評点を生成し、各音声遷移照合評点は第1の特
徴ベクトル信号と音声遷移を表すすべての音声遷移モデ
ルとについての最良のモデル照合評点を含むようにする
ステツプと、 各音声遷移の識別値と第1の特徴ベクトル信号及び各音
声遷移についての音声遷移照合評点とを第1の特徴ベク
トル信号のコード化した発音表現信号として出力するス
テツプとを含むことを特徴とする音声コード化方法。 - 【請求項4】さらに、 識別値を有する音声ユニツトを表す複数の音声ユニツト
モデルを記憶し、各音声ユニツトモデルは2つ又は3つ
以上の音声遷移及び2つ又は3つ以上の音声遷移モデル
を含むようにするステツプと、 第1の特徴ベクトル信号及び各音声ユニツトについての
音声ユニツト照合評点を生成し、各音声ユニツト照合評
点は第1の特徴ベクトル信号と音声ユニツト内のすべて
の音声遷移とについての最良の音声遷移照合評点を含む
ようにするステツプとを含み、 各音声遷移の識別値と第1の特徴ベクトル信号及び各音
声遷移についての音声遷移照合評点とを第1の特徴ベク
トル信号のコード化した発音表現信号として出力する上
記出力ステツプは、各音声ユニツトの識別値と第1の特
徴ベクトル信号及び各音声ユニツトについての音声ユニ
ツト照合評点とを第1の特徴ベクトル信号のコード化し
た発音表現信号として出力することを特徴とする請求項
3に記載の音声コード化方法。 - 【請求項5】一連の連続的な各時間間隔について発音の
少なくとも1つの特徴の値を測定することにより上記特
徴値を表す一連の特徴ベクトル信号を発生する手段と、 それぞれが少なくとも1つのパラメータ値を有する複数
の原型ベクトル信号を記憶する手段と、 原型ベクトル信号のパラメータ値に対する各特徴ベクト
ル信号の特徴値の近さを比較することにより各特徴ベク
トル信号及び各原型ベクトル信号についての原型照合評
点を得る手段と、 識別値を有する音声遷移でなる語彙からの音声遷移をそ
れぞれ表す複数の音声遷移モデルを記憶する手段と、 各特徴ベクトル信号及び各音声遷移モデルについてのモ
デル照合評点を生成する手段と、 各特徴ベクトル信号及び各音声遷移についての音声遷移
照合評点を生成する手段と、 識別値を有する音声ユニツトをそれぞれ表す複数の音声
ユニツトモデルを記憶する手段と、 各特徴ベクトル信号及び各音声ユニツトについての音声
ユニツト照合評点を生成する手段と、 各音声ユニツトの識別値と特徴ベクトル信号及び各音声
ユニツトについての音声ユニツト照合評点とを特徴ベク
トル信号のコード化した発音表現信号として出力する手
段と、 それぞれが少なくとも1つの音声ユニツトモデルを含む
複数の語についての確率論的モデルを記憶する手段と、 一連の特徴ベクトル信号及び複数の各語についての語照
合評点を生成する手段と、 最良の語照合評点を有する1つ又は2つ以上の最良の候
補語を識別する手段と、 少なくとも1つの最良の候補語を出力する手段とを具
え、 少なくとも1つの音声遷移は複数の異なるモデルによつ
て表され、各音声遷移モデルは複数のモデル出力を有
し、各モデル出力は原型ベクトル信号についての原型照
合評点を含み、各音声遷移モデルは各モデル出力に関す
る出力確率を有し、 特徴ベクトル信号についてのモデル照合評点は特徴ベク
トル信号及び原型ベクトル信号についての少なくとも1
つの原型照合評点に関する出力確率を含み、 特徴ベクトル信号についての音声遷移照合評点は特徴ベ
クトル信号と音声遷移を表すすべての音声遷移モデルと
についての最良のモデル照合評点を含み、 音声ユニツトを表す各音声ユニツトモデルは2つ又は3
つ以上の音声遷移及び2つ又は3つ以上の音声遷移モデ
ルを含み、 特徴ベクトル信号についての音声ユニツト照合評点は特
徴ベクトル信号と音声ユニツト内のすべての音声遷移と
についての最良の音声遷移照合評点を含み、 各語モデルは開始状態と、終了状態と、上記開始状態か
ら上記終了状態への道の少なくとも一部で音声ユニツト
モデルを通る複数の経路とを有し、 各語照合評点は一連の特徴ベクトル信号と語のモデル内
の一連の音声ユニツトモデルを通る少なくとも1つの経
路に沿う音声ユニツトとについての音声ユニツト照合評
点の組合せを含むことを特徴とする音声認識装置。 - 【請求項6】原型ベクトル信号のパラメータ値に対する
各特徴ベクトル信号の特徴値の近さを比較することによ
り各特徴ベクトル信号及び各原型ベクトル信号について
の原型照合評点を得る上記手段は、各特徴ベクトル信号
に対する各原型ベクトル信号の推定した近さの順序に原
型ベクトル信号をランク付けすることにより各特徴ベク
トル信号及び各原型ベクトル信号についてのランク評点
を得、 特徴ベクトル信号及び各原型ベクトル信号についての原
型照合評点は特徴ベクトル信号及び原型ベクトル信号に
ついてのランク評点を含むことを特徴とする請求項5に
記載の音声認識装置。 - 【請求項7】一連の連続的な各時間間隔について発音の
少なくとも1つの特徴の値を測定することにより上記特
徴値を表す一連の特徴ベクトル信号を発生するステツプ
と、 それぞれが少なくとも1つのパラメータ値を有する複数
の原型ベクトル信号を記憶するステツプと、 原型ベクトル信号のパラメータ値に対する各特徴ベクト
ル信号の特徴値の近さを比較することにより各特徴ベク
トル信号及び各原型ベクトル信号についての原型照合評
点を得るステツプと、 識別値を有する音声遷移でなる語彙からの音声遷移を表
す複数の音声遷移モデルを記憶し、少なくとも1つの音
声遷移は複数の異なるモデルによつて表され、各音声遷
移モデルは複数のモデル出力を有し、各モデル出力は原
型ベクトル信号についての原型照合評点を含み、各音声
遷移モデルは各モデル出力についての出力確率を有する
ようにするステツプと、 各特徴ベクトル信号及び各音声遷移モデルについてのモ
デル照合評点を生成し、特徴ベクトル信号についてのモ
デル照合評点は特徴ベクトル信号及び原型ベクトル信号
についての少なくとも1つの原型照合評点に関する出力
確率を含むようにするステツプと、 各特徴ベクトル信号及び各音声遷移についての音声遷移
照合評点を生成し、特徴ベクトル信号についての音声遷
移照合評点は特徴ベクトル信号と音声遷移を表すすべて
の音声遷移モデルとについての最良のモデル照合評点を
含むようにするステツプと、 識別値を有する音声ユニツトを表す複数の音声ユニツト
モデルを記憶し、各音声ユニツトモデルは2つ又は3ツ
以上の音声遷移及び2つ又は3つ以上の音声遷移モデル
を含むようにするステツプと、 各特徴ベクトル信号及び各音声ユニツトについての音声
ユニツト照合評点を生成し、特徴ベクトル信号について
の音声ユニツト照合評点は特徴ベクトル信号と音声ユニ
ツト内のすべての音声遷移とについての最良の音声遷移
照合評点を含むようにするステツプと、 各音声ユニツトの識別値と特徴ベクトル信号及び各音声
ユニツトについての音声ユニツト照合評点とを特徴ベク
トル信号のコード化した発音表現信号として出力するス
テツプと、 それぞれが少なくとも1つの音声ユニツトモデルを含む
複数の語についての確率論的モデルを記憶し、各語モデ
ルは開始状態と、終了状態と、上記開始状態から上記終
了状態への道の少なくとも一部で音声ユニツトモデルを
通る複数の経路とを有するようにするステツプと、 一連の特徴ベクトル信号及び複数の各語についての語照
合評点を生成し、各語照合評点は一連の特徴ベクトル信
号と語のモデル内の一連の音声ユニツトモデルを通る少
なくとも1つの経路に沿う音声ユニツトとについての音
声ユニツト照合評点の組合せを含むようにするステツプ
と、 最良の語照合評点を有する1つ又は2つ以上の最良の候
補語を識別するステツプと、 少なくとも1つの最良の候補語を出力するステツプとを
含むことを特徴とする音声認識方法。 - 【請求項8】原型ベクトル信号のパラメータ値に対する
各特徴ベクトル信号の特徴値の近さを比較することによ
り各特徴ベクトル信号及び各原型ベクトル信号について
の原型照合評点を得る上記ステツプは、各特徴ベクトル
信号に対する各原型ベクトル信号の推定した近さの順序
に原型ベクトル信号をランク付けすることにより各特徴
ベクトル信号及び各原型ベクトル信号についてのランク
評点を得、 特徴ベクトル信号及び各原型ベクトル信号についての原
型照合評点は特徴ベクトル信号及び原型ベクトル信号に
ついてのランク評点を含むことを特徴とする請求項7に
記載の音声認識方法。 - 【請求項9】一連の連続的な各時間間隔について発音の
少なくとも1つの特徴の値を測定することにより上記特
徴値を表す一連の特徴ベクトル信号を発生する手段と、 それぞれが少なくとも1つのパラメータ値を有する複数
の原型ベクトル信号を記憶する手段と、 原型ベクトル信号のパラメータ値に対する第1の特徴ベ
クトル信号の特徴値の近さを比較することにより第1の
特徴ベクトル信号及び各原型ベクトル信号についての原
型照合評点を得る手段と、 識別値を有する音声遷移でなる語彙からの音声遷移を表
す複数の音声遷移モデルを記憶する手段と、 第1の特徴ベクトル信号及び各音声遷移モデルについて
のモデル照合評点を生成する手段と、 識別値を有する音声ユニツトを表す複数の音声ユニツト
モデルを記憶する手段と、 第1の特徴ベクトル信号及び各音声ユニツトについての
音声ユニツト照合評点を生成する手段とを具え、 少なくとも1つの音声遷移は複数の異なるモデルによつ
て表され、各音声遷移モデルは複数のモデル出力を有
し、各モデル出力は原型ベクトル信号についての原型照
合評点を含み、各音声遷移モデルは各モデル出力につい
ての出力確率を有し、 各モデル照合評点は第1の特徴ベクトル信号及び原型ベ
クトル信号についての少なくとも1つの原型照合評点に
関する出力確率を含み、 各音声ユニツトモデルは2つ又は3つ以上の音声遷移及
び2つ又は3つ以上の音声遷移モデルを含み、 各音声ユニツト照合評点は第1の特徴ベクトル信号と音
声ユニツト内の音声遷移を表すすべての音声遷移モデル
とについての最良のモデル照合評点を含み、 出力手段は各音声ユニツトの識別値と第1の特徴ベクト
ル信号及び各音声ユニツトについての音声ユニツト照合
評点とを第1の特徴ベクトル信号のコード化した発音表
現信号として出力することを特徴とする音声コード化装
置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/942862 | 1992-09-10 | ||
US07/942,862 US5333236A (en) | 1992-09-10 | 1992-09-10 | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06175696A true JPH06175696A (ja) | 1994-06-24 |
JP2986313B2 JP2986313B2 (ja) | 1999-12-06 |
Family
ID=25478721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5201795A Expired - Lifetime JP2986313B2 (ja) | 1992-09-10 | 1993-07-22 | 音声コード化装置及びその方法並びに音声認識装置及びその方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5333236A (ja) |
JP (1) | JP2986313B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7155390B2 (en) | 2000-03-31 | 2006-12-26 | Canon Kabushiki Kaisha | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
Families Citing this family (165)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2696036B1 (fr) * | 1992-09-24 | 1994-10-14 | France Telecom | Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé. |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
JP3321976B2 (ja) * | 1994-04-01 | 2002-09-09 | 富士通株式会社 | 信号処理装置および信号処理方法 |
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
JPH0863478A (ja) * | 1994-08-26 | 1996-03-08 | Toshiba Corp | 言語処理方法及び言語処理装置 |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5909662A (en) * | 1995-08-11 | 1999-06-01 | Fujitsu Limited | Speech processing coder, decoder and command recognizer |
US5737433A (en) * | 1996-01-16 | 1998-04-07 | Gardner; William A. | Sound environment control apparatus |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7089184B2 (en) | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7680659B2 (en) * | 2005-06-01 | 2010-03-16 | Microsoft Corporation | Discriminative training for language modeling |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120309363A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8990142B2 (en) | 2009-10-30 | 2015-03-24 | The Nielsen Company (Us), Llc | Distributed audience measurement systems and methods |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144395A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | User training by intelligent digital assistant |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN109658938B (zh) * | 2018-12-07 | 2020-03-17 | 百度在线网络技术(北京)有限公司 | 语音与文本匹配的方法、装置、设备及计算机可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60179799A (ja) * | 1984-02-27 | 1985-09-13 | 松下電器産業株式会社 | 音声認識装置 |
JPH04223498A (ja) * | 1990-04-04 | 1992-08-13 | Texas Instr Inc <Ti> | 音声分析の方法と装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
-
1992
- 1992-09-10 US US07/942,862 patent/US5333236A/en not_active Expired - Fee Related
-
1993
- 1993-07-22 JP JP5201795A patent/JP2986313B2/ja not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60179799A (ja) * | 1984-02-27 | 1985-09-13 | 松下電器産業株式会社 | 音声認識装置 |
JPH04223498A (ja) * | 1990-04-04 | 1992-08-13 | Texas Instr Inc <Ti> | 音声分析の方法と装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7155390B2 (en) | 2000-03-31 | 2006-12-26 | Canon Kabushiki Kaisha | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
Also Published As
Publication number | Publication date |
---|---|
US5333236A (en) | 1994-07-26 |
JP2986313B2 (ja) | 1999-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2986313B2 (ja) | 音声コード化装置及びその方法並びに音声認識装置及びその方法 | |
JP3037864B2 (ja) | 音声コード化装置及び方法 | |
US5278942A (en) | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data | |
JP2823469B2 (ja) | 文脈依存型音声認識装置および方法 | |
US5033087A (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
JP5768093B2 (ja) | 音声処理システム | |
US5222146A (en) | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks | |
US6243680B1 (en) | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
EP1647970A1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
JP3110948B2 (ja) | 音声符号化装置および方法 | |
JPH0581918B2 (ja) | ||
JP2986037B2 (ja) | 音声符号化方法及び装置 | |
JPH086587A (ja) | 動的特徴を使用した音声認識方法及び装置 | |
EP0562138A1 (en) | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary | |
US5764851A (en) | Fast speech recognition method for mandarin words | |
US11282495B2 (en) | Speech processing using embedding data | |
Liu et al. | State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition | |
Dong et al. | Pitch contour model for Chinese text-to-speech using CART and statistical model | |
JP3231365B2 (ja) | 音声認識装置 | |
JP2994443B2 (ja) | 音声認識方式 | |
Mohamed et al. | Automatic speech annotation based on enhanced wavelet Packets Best Tree Encoding (EWPBTE) feature | |
Qingwei et al. | RESEARCH ON INTER-SYLLABLE CONTEXT-DEPENDENT ACOUSTIC UNIT FOR MANDARIN CONTINUOUS SPEECH RECOGNITION | |
Intelligence | Speaker-Dependent Speech Recognition Based on Phone-Like Units Models| Application to Voice Dialing |