JP3049259B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP3049259B2 JP3049259B2 JP7502266A JP50226694A JP3049259B2 JP 3049259 B2 JP3049259 B2 JP 3049259B2 JP 7502266 A JP7502266 A JP 7502266A JP 50226694 A JP50226694 A JP 50226694A JP 3049259 B2 JP3049259 B2 JP 3049259B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- candidates
- speech
- network
- allophone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000007704 transition Effects 0.000 claims description 62
- 239000013598 vector Substances 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 背景技術 音声認識において認識語彙を相互接続されたノード間
のネットワークとして表すことはよく知られている。ノ
ードの間の分岐は、ワード、音素または異音(同じ音素
に属する異なる音)の一部である。異音モデルは、コン
テキスト依存音素モデルである。異音および音素はしば
しば隠れマルコフ・モデル(以下HMM)によって表され
る。したがっていかなる語彙ワードも連鎖状のHMMのチ
ェーンとして表すことができる。未知の音声を認識する
には、HMM鎖の中の状態の最尤シーケンスを計算しなく
てはならないが、中型から大型の語彙音声認識システム
にとって、これは非常に大きな計算負荷となる。
のネットワークとして表すことはよく知られている。ノ
ードの間の分岐は、ワード、音素または異音(同じ音素
に属する異なる音)の一部である。異音モデルは、コン
テキスト依存音素モデルである。異音および音素はしば
しば隠れマルコフ・モデル(以下HMM)によって表され
る。したがっていかなる語彙ワードも連鎖状のHMMのチ
ェーンとして表すことができる。未知の音声を認識する
には、HMM鎖の中の状態の最尤シーケンスを計算しなく
てはならないが、中型から大型の語彙音声認識システム
にとって、これは非常に大きな計算負荷となる。
良く知られているビタビ法では、トレリスを確立する
ことによって、語彙ネットワークの蓋然性を計算する。
あるトレリスは語彙ネットワーク中の各分岐と関連す
る。トレリスは、横座標に軸フレーム番号、縦座標にモ
デル状態を有する。トレリスは、対応する異音モデル中
の状態数と同様に多くの関連する状態を有する。例え
ば、10の状態を有する異音モデルでは、そのラベルを有
する語彙ネットワーク中のあらゆる分岐に関連する10の
状態を有する。各トレリスの1フレームあたりの処理総
数は、対応モデル中の全遷移数に比例する。したがって
30の遷移を有する10の状態の異音モデル中では、ビタビ
法に含まれる全処理数は、約50(30の遷移を見積もるた
めの和30と、各状態で最適な遷移を決定するための最大
20との和)となる。
ことによって、語彙ネットワークの蓋然性を計算する。
あるトレリスは語彙ネットワーク中の各分岐と関連す
る。トレリスは、横座標に軸フレーム番号、縦座標にモ
デル状態を有する。トレリスは、対応する異音モデル中
の状態数と同様に多くの関連する状態を有する。例え
ば、10の状態を有する異音モデルでは、そのラベルを有
する語彙ネットワーク中のあらゆる分岐に関連する10の
状態を有する。各トレリスの1フレームあたりの処理総
数は、対応モデル中の全遷移数に比例する。したがって
30の遷移を有する10の状態の異音モデル中では、ビタビ
法に含まれる全処理数は、約50(30の遷移を見積もるた
めの和30と、各状態で最適な遷移を決定するための最大
20との和)となる。
この良く知られたビタビ法を用い、所与の音声につい
て語彙ネットワーク全体で最尤経路を見つけることが可
能である。しかしビタビ法には2つの問題がある。ひと
つは計算が複雑なことである。これは、全語彙ネットワ
ークの全分岐においてあらゆる遷移が計算されるためで
あり、したがって、ハードウェアのコストは非常に高価
になる。計算の複雑さは音声認識のチャネル当たりのコ
ストに影響する。第2に、ビタビ法ではただ一つの選択
しか行われず、他の選択を行うにはさらなる計算および
メモリが必要となる。また選択が一つであるため、後処
理による修正も限られるために、認識の正確さを高める
ことも不可能である。
て語彙ネットワーク全体で最尤経路を見つけることが可
能である。しかしビタビ法には2つの問題がある。ひと
つは計算が複雑なことである。これは、全語彙ネットワ
ークの全分岐においてあらゆる遷移が計算されるためで
あり、したがって、ハードウェアのコストは非常に高価
になる。計算の複雑さは音声認識のチャネル当たりのコ
ストに影響する。第2に、ビタビ法ではただ一つの選択
しか行われず、他の選択を行うにはさらなる計算および
メモリが必要となる。また選択が一つであるため、後処
理による修正も限られるために、認識の正確さを高める
ことも不可能である。
そこで1モデル当たり50もの処理を要する計算の負荷
を減らすため、いくつかの提言がなされている。Bahl他
(出典:1989年、A Fast Approximate Acoustic Match f
or@Large Vocabulary Speech Recognition、Proceedin
gs of Eurospeech 89:European Conference Speech Com
munication and Techno1ogy、Paris、156〜158頁)によ
れば、各HMMモデルにつき1つの遷移確率を用いて(す
なわち最尤遷移を選択して)、各遷移毎に計算を追加す
る。したがって、3つのトレリス遷移における異なった
対数観測確率を加えた後に最大をとるのではなく、初め
に3つのトレリス値全体の最大をとった後に対数観測確
率が加られる。これにより各遷移につき5を要した計算
が3へ、あるいは10の状態のモデルにおいては50を要し
ていた計算が30へ減少する。しかし計算は減少するが、
許容された遅延の後の応答が不十分である。
を減らすため、いくつかの提言がなされている。Bahl他
(出典:1989年、A Fast Approximate Acoustic Match f
or@Large Vocabulary Speech Recognition、Proceedin
gs of Eurospeech 89:European Conference Speech Com
munication and Techno1ogy、Paris、156〜158頁)によ
れば、各HMMモデルにつき1つの遷移確率を用いて(す
なわち最尤遷移を選択して)、各遷移毎に計算を追加す
る。したがって、3つのトレリス遷移における異なった
対数観測確率を加えた後に最大をとるのではなく、初め
に3つのトレリス値全体の最大をとった後に対数観測確
率が加られる。これにより各遷移につき5を要した計算
が3へ、あるいは10の状態のモデルにおいては50を要し
ていた計算が30へ減少する。しかし計算は減少するが、
許容された遅延の後の応答が不十分である。
Bahl他のもう一つの提案(出典:1992年、Constructin
g Candidate Word Lists Using Acoustically Similar
Word Groups、IEEE Transactions on Signal Processin
g、第40巻、11、2814〜2816頁)においても計算負荷を
減らす試みがなされている。この方法では、より複雑な
卜ポロジを用いないで、3状態モデルを用いて初めにビ
タビ法で計算を行い、その後複雑なトポロジで再計算を
行う。しかし、この方法では実際には計算負荷が増える
ことがある。例えば、新たに編成された3状態が、複雑
なトポロジと同様の内容を有すれば、同数の対数観測確
率の計算が2回行われることになる。すなわち3状態モ
デルに1回、複雑なトポロジに1回である。同様に2セ
ットのモデルをストアする全必要メモリも増加する。
g Candidate Word Lists Using Acoustically Similar
Word Groups、IEEE Transactions on Signal Processin
g、第40巻、11、2814〜2816頁)においても計算負荷を
減らす試みがなされている。この方法では、より複雑な
卜ポロジを用いないで、3状態モデルを用いて初めにビ
タビ法で計算を行い、その後複雑なトポロジで再計算を
行う。しかし、この方法では実際には計算負荷が増える
ことがある。例えば、新たに編成された3状態が、複雑
なトポロジと同様の内容を有すれば、同数の対数観測確
率の計算が2回行われることになる。すなわち3状態モ
デルに1回、複雑なトポロジに1回である。同様に2セ
ットのモデルをストアする全必要メモリも増加する。
最尤経路を検出し、それにより未知の音声の語彙ワー
ドを一致させるのに要する時間は音声認識システムの認
識の遅れとなる。許容遅延内で低コストのハードウェア
計算プラットホームを使用して応答するには、より簡素
な認識方法が必要となる。このような方法は計算負荷を
減少させるはずであり、結果として時間の遅れは、認識
の正確さを損なうことなく先行技術にくらべて大幅に改
善される。
ドを一致させるのに要する時間は音声認識システムの認
識の遅れとなる。許容遅延内で低コストのハードウェア
計算プラットホームを使用して応答するには、より簡素
な認識方法が必要となる。このような方法は計算負荷を
減少させるはずであり、結果として時間の遅れは、認識
の正確さを損なうことなく先行技術にくらべて大幅に改
善される。
発明の概要 本発明の目的は、音声認識方法の改善にある。本発明
の一見地によれば本発明の音声認識方法は、第1組の異
音モデルを第1型の音声パラメータベクトルと共に用い
るために供給し;第2組の異音モデルを第2型の音声パ
ラメータベクトルと共に用いるために供給し;認識語彙
を表すネットワークを供給し、そこで、ネットワークの
各分岐は異音モデルの1つであり、ネットワークを通じ
る各全経路は認識語彙中のワードを表わすモデルのシー
ケンスであり;第1および第2型の各音声パラメータベ
クトルに対して音声パラメータベクトルのフレームシー
ケンスを生成するために未知の音声を分析し;ネットワ
ークの全経路で最尤経路を決定するために減少トレリス
を供給し;第1型の音声パラメータベクトルの各フレー
ムのモデル距離を第1組の全ての異音モデルについて計
算し;第1組の各モデルの最小モデル距離を算出し;各
異音モデルは2フレームの最小区間を有する1状態モデ
ルであり、および遷移確率がその最小モデル距離に等し
いと仮定して、全てのフレームについて減少トレリスを
更新し;語彙ネットワークを通じて各経路のトレリスか
ら最終値をソートし;最も高い最終値を有する第1の複
数の認識候補を選択し;語彙ネッ卜ワークに対応するビ
タビ法のトレリスを用いて第1組の異音モデルに対して
算出されたモデル距離でこの第1の複数候補の再計算を
行い;計算値が大きい順に候補をソートし;第1の複数
候補から第1の候補よりも少ない数の第2の複数候補を
選択して、さらに第2組の異音モデルおよび第2型の音
声パラメータベクトルを用いて再計算し;第2型の音声
パラメータベクトルのモデル距離計算に対するフレーム
を認識するために第1型の音声パラメータベクトルを用
いて異音セグメンテーションを検出し;第2の複数候補
中に検出される第2組の異音モデルに対して認識される
第2型の音声パラメータベクトルのフレームのモデル距
離を計算し;ビタビ法を用いて第2組の異音モデルに対
し計算されたモデル距離で第2の複数候補を再計算し:
第1および第2型の音声パラメータベクトルに対する第
2の複数候補の計算値を比較して認識候補を選択するス
テップを含む。
の一見地によれば本発明の音声認識方法は、第1組の異
音モデルを第1型の音声パラメータベクトルと共に用い
るために供給し;第2組の異音モデルを第2型の音声パ
ラメータベクトルと共に用いるために供給し;認識語彙
を表すネットワークを供給し、そこで、ネットワークの
各分岐は異音モデルの1つであり、ネットワークを通じ
る各全経路は認識語彙中のワードを表わすモデルのシー
ケンスであり;第1および第2型の各音声パラメータベ
クトルに対して音声パラメータベクトルのフレームシー
ケンスを生成するために未知の音声を分析し;ネットワ
ークの全経路で最尤経路を決定するために減少トレリス
を供給し;第1型の音声パラメータベクトルの各フレー
ムのモデル距離を第1組の全ての異音モデルについて計
算し;第1組の各モデルの最小モデル距離を算出し;各
異音モデルは2フレームの最小区間を有する1状態モデ
ルであり、および遷移確率がその最小モデル距離に等し
いと仮定して、全てのフレームについて減少トレリスを
更新し;語彙ネットワークを通じて各経路のトレリスか
ら最終値をソートし;最も高い最終値を有する第1の複
数の認識候補を選択し;語彙ネッ卜ワークに対応するビ
タビ法のトレリスを用いて第1組の異音モデルに対して
算出されたモデル距離でこの第1の複数候補の再計算を
行い;計算値が大きい順に候補をソートし;第1の複数
候補から第1の候補よりも少ない数の第2の複数候補を
選択して、さらに第2組の異音モデルおよび第2型の音
声パラメータベクトルを用いて再計算し;第2型の音声
パラメータベクトルのモデル距離計算に対するフレーム
を認識するために第1型の音声パラメータベクトルを用
いて異音セグメンテーションを検出し;第2の複数候補
中に検出される第2組の異音モデルに対して認識される
第2型の音声パラメータベクトルのフレームのモデル距
離を計算し;ビタビ法を用いて第2組の異音モデルに対
し計算されたモデル距離で第2の複数候補を再計算し:
第1および第2型の音声パラメータベクトルに対する第
2の複数候補の計算値を比較して認識候補を選択するス
テップを含む。
本発明の他の見地によれば、本発明の音声認識方法
は、第1組の異音モデルをケプストラムパラメータベク
トルと共に用いるために供給し;第2組の異音モデルを
LSPパラメータベクトルと共に用いるために供給し;認
識語彙を表すネットワークを供給し、そこで、ネットワ
ークの各分岐は異音モデルの1つであり、ネットワーク
を通じる各全経路は認識語彙中のワードを表わすモデル
のシーケンスであり;ネットワークの全経路で最尤経路
を決定するために減少トレリスを供給し;ケプストラム
およびLSPパラメータベクトルのフレームシーケンスを
生成するために未知の音声を分析し;全てのケプストラ
ム異音モデルに対してフレーム毎にケプストラムモデル
距離を計算し;各モデルに対して最小モデル距離を算出
し;2フレームの最小区間を有する1状態モデルおよび遷
移確率がその最小モデル距離に等しいと仮定して、全て
のフレームについて減少トレリスを更新し;減少トレリ
スに対して各語彙ネットワーク経路の最終値をソート
し;上位nの値を選択しnの認識候補を供給し;ビタビ
法のトレリスを用いて、算出されたモデル距離で上位n
の候補を再計算し;計算値が大きい順に候補をソート
し;LSPパラメータベクトルを用いて、さらに再計算を行
うために上位m(m<n)を選択し;LSPパラメータに対
しモデル距離の計算に必要なフレームを認識するため、
ケプストラムパラメータを用いて異音セグメンテーショ
ンを検出し;認識されたフレームおよびm候補中で検出
されたLSPモデルに対してLSPモデル距離を計算し;ビタ
ビ法を用いて算出されたLSPモデル距離でmの候補を再
計算し;ケプストラムおよびLSPパラメータに対して上
位mの候補の計算値を比較して認識候補を選択するステ
ップを含む。
は、第1組の異音モデルをケプストラムパラメータベク
トルと共に用いるために供給し;第2組の異音モデルを
LSPパラメータベクトルと共に用いるために供給し;認
識語彙を表すネットワークを供給し、そこで、ネットワ
ークの各分岐は異音モデルの1つであり、ネットワーク
を通じる各全経路は認識語彙中のワードを表わすモデル
のシーケンスであり;ネットワークの全経路で最尤経路
を決定するために減少トレリスを供給し;ケプストラム
およびLSPパラメータベクトルのフレームシーケンスを
生成するために未知の音声を分析し;全てのケプストラ
ム異音モデルに対してフレーム毎にケプストラムモデル
距離を計算し;各モデルに対して最小モデル距離を算出
し;2フレームの最小区間を有する1状態モデルおよび遷
移確率がその最小モデル距離に等しいと仮定して、全て
のフレームについて減少トレリスを更新し;減少トレリ
スに対して各語彙ネットワーク経路の最終値をソート
し;上位nの値を選択しnの認識候補を供給し;ビタビ
法のトレリスを用いて、算出されたモデル距離で上位n
の候補を再計算し;計算値が大きい順に候補をソート
し;LSPパラメータベクトルを用いて、さらに再計算を行
うために上位m(m<n)を選択し;LSPパラメータに対
しモデル距離の計算に必要なフレームを認識するため、
ケプストラムパラメータを用いて異音セグメンテーショ
ンを検出し;認識されたフレームおよびm候補中で検出
されたLSPモデルに対してLSPモデル距離を計算し;ビタ
ビ法を用いて算出されたLSPモデル距離でmの候補を再
計算し;ケプストラムおよびLSPパラメータに対して上
位mの候補の計算値を比較して認識候補を選択するステ
ップを含む。
本発明によれば、2段階検索が用いられる。第1段階
は減少1状態モデルを用い、その遷移確率は対応の異音
モデルの観測確率に対して算出された最大値に割り当て
られる。この減少モデルとそれに対応する異音モデルの
間には1対1の関係がある。この減少された1状態モデ
ルの最小区間は数フレームに限定される。便宜的には、
2あるいは3フレームの最小区間が用いられる。
は減少1状態モデルを用い、その遷移確率は対応の異音
モデルの観測確率に対して算出された最大値に割り当て
られる。この減少モデルとそれに対応する異音モデルの
間には1対1の関係がある。この減少された1状態モデ
ルの最小区間は数フレームに限定される。便宜的には、
2あるいは3フレームの最小区間が用いられる。
本発明の利点は、低コスト処理ハードウェアを用いて
認識の正確さを損なうことなく認識方法の煩雑さを簡素
化したことにある。
認識の正確さを損なうことなく認識方法の煩雑さを簡素
化したことにある。
図面の簡単な説明 本発明を、図面を参照しながら以下に説明する。
図1aおよび1bは本発明の実施の形態の語彙ネットワー
ク部を示す図である。
ク部を示す図である。
図2は本発明の実施の形態の異音を表わす4状態の隠
れマルコフモデル(HMM)を示す図である。
れマルコフモデル(HMM)を示す図である。
図3は本発明の実施の形態の音声認識方法を示すチャ
ート図である。
ート図である。
図4は図3の減少トレリスを視覚的に示す図である。
図5はケプストラムパラメータからの異音セグメンテ
ーションおよび図3のLSPモデル距離の算出に使用され
るフレームを視覚的に示す図である。
ーションおよび図3のLSPモデル距離の算出に使用され
るフレームを視覚的に示す図である。
図6は本発明の実施の形態の音声認識方法による典型
的な音声認識装置を示すブロック図である。
的な音声認識装置を示すブロック図である。
実施の形態 図1aおよび1bは本発明の実施の形態の語彙ネットワー
ク部を示す図である。図1aにおいて各経路10、12、およ
び14は、エントリノード16より始まる。経路10の分岐18
はノード16からノード20で異音rを表し、分岐22はノー
ド20からノード24で異音aを表し、分岐26はノード24か
らノード28で異音bを表し、分岐30はノード28からノー
ド32で異音iを表し、分岐34はノード32から出口ノード
36で異音dを表す。
ク部を示す図である。図1aにおいて各経路10、12、およ
び14は、エントリノード16より始まる。経路10の分岐18
はノード16からノード20で異音rを表し、分岐22はノー
ド20からノード24で異音aを表し、分岐26はノード24か
らノード28で異音bを表し、分岐30はノード28からノー
ド32で異音iを表し、分岐34はノード32から出口ノード
36で異音dを表す。
同様に経路12は、分岐38、ノード40、分岐42、ノード
44、分岐46、ノード48、分岐50および出口ノード52から
なり、経路14は、分岐54、ノード56、分岐58、ノード6
0、分岐62、ノード64、分岐66、および出口ノード68か
らなる。
44、分岐46、ノード48、分岐50および出口ノード52から
なり、経路14は、分岐54、ノード56、分岐58、ノード6
0、分岐62、ノード64、分岐66、および出口ノード68か
らなる。
語彙ネットワークは、図1aで示されるように、一般に
木構造を有する。しかし「record」という語の2つの異
音の転移を表す図1bが示すように2つの枝が再び合流す
る経路を有してもよい。
木構造を有する。しかし「record」という語の2つの異
音の転移を表す図1bが示すように2つの枝が再び合流す
る経路を有してもよい。
「record」の転移は、エントリノード68、分岐70、ノ
ード72、分岐74、ノード76、分岐78、ノード80、分岐8
2、ノード84、分岐86、ノード88、分岐90、出口ノード9
2、およびエントリノード68、分岐70、ノード72、分岐9
6、ノード98、分岐100、ノード102、分岐104、ノード8
8、分岐90、出口ノード92からなる。
ード72、分岐74、ノード76、分岐78、ノード80、分岐8
2、ノード84、分岐86、ノード88、分岐90、出口ノード9
2、およびエントリノード68、分岐70、ノード72、分岐9
6、ノード98、分岐100、ノード102、分岐104、ノード8
8、分岐90、出口ノード92からなる。
語彙ネットワークの各分岐は、隠れマルコフモデルに
よって表される。図2は本発明の実施の形態による異音
を表す4状態の隠れマルコフモデル(HHM)を示す。4
状態のHMMは第1、第2、第3、第4状態を含み、それ
ぞれ110、112、114、116で示されている。ある状態から
の遷移には大方3形式がある。すなわち、それ自身への
遷移、次状態への遷移、そして一つ飛び遷移である。第
1状態110においては、それ自身への遷移は遷移118、次
状態への遷移は遷移120、一つ飛び遷移は遷移122で示さ
れる。同様に、第2状態112においては、それ自身への
遷移は遷移124、次状態への遷移は遷移126、一つ飛び遷
移は遷移128で示される。第4状態116は出口状態である
ので、第3状態は一つ飛び状態を有さない。したがっ
て、第3状態114は、それ自身への遷移は遷移130、次状
態への遷移は遷移132を有する。第4状態は出口状態で
あるので、モデル間遷移136を有するのみである。同様
に第1状態は開始状態であるのでモデル間遷移138を有
する。これらモデル間遷移136、138により複数のモデル
が語彙ワードを表わす一つのチェーンヘ収斂する。
よって表される。図2は本発明の実施の形態による異音
を表す4状態の隠れマルコフモデル(HHM)を示す。4
状態のHMMは第1、第2、第3、第4状態を含み、それ
ぞれ110、112、114、116で示されている。ある状態から
の遷移には大方3形式がある。すなわち、それ自身への
遷移、次状態への遷移、そして一つ飛び遷移である。第
1状態110においては、それ自身への遷移は遷移118、次
状態への遷移は遷移120、一つ飛び遷移は遷移122で示さ
れる。同様に、第2状態112においては、それ自身への
遷移は遷移124、次状態への遷移は遷移126、一つ飛び遷
移は遷移128で示される。第4状態116は出口状態である
ので、第3状態は一つ飛び状態を有さない。したがっ
て、第3状態114は、それ自身への遷移は遷移130、次状
態への遷移は遷移132を有する。第4状態は出口状態で
あるので、モデル間遷移136を有するのみである。同様
に第1状態は開始状態であるのでモデル間遷移138を有
する。これらモデル間遷移136、138により複数のモデル
が語彙ワードを表わす一つのチェーンヘ収斂する。
図3は本発明の実施の形態の音声認識方法を示すチャ
ート図である。このチャートは2つのタイムフレーム中
に行われるステップおよび動作を示す。すなわち第1の
タイムフレームは入力音声に関してリアルタイムであ
り、「A)フレーム同期」と表される。第2のタイムフ
レームは音声受信に続く処理時間であって「B)認識遅
延」と表される。
ート図である。このチャートは2つのタイムフレーム中
に行われるステップおよび動作を示す。すなわち第1の
タイムフレームは入力音声に関してリアルタイムであ
り、「A)フレーム同期」と表される。第2のタイムフ
レームは音声受信に続く処理時間であって「B)認識遅
延」と表される。
A)部には7ステップが含まれる。ステップ1)エン
ドポインタを用いてワードおよびフレーズの始めを認識
し、減少トレリスを初期化することによりフレーム同期
検索方法を開始する。ステップ2)ケプストラムモデル
距離を全ての異音モデルについてフレーム毎に計算す
る。ステップ3)各モデルの最小モデル距離を検出する
(例えば、130のモデルにおいて130の最小値検出され
る)。ステップ4)2フレームの最小区間を有する1状
態モデルを仮定し、各フレームについて減少トレリスを
更新する。このモデルの遷移確率は、ステップ3で計算
された最小モデル距離に一致する。ステップ5)エンド
ポインタを用いて音声の終了を認識し減少トレリスの更
新を終える。ステップ6)各語彙ネットワーク経路の最
終値を減少トレリスに対してソートする。スッテプ7)
上位n値を選択し認識のためnの候補を供給する。例え
ば、このnの典型的な値は30である。このようにして本
発明の音声認識のフレーム同期検索部が完了する。
ドポインタを用いてワードおよびフレーズの始めを認識
し、減少トレリスを初期化することによりフレーム同期
検索方法を開始する。ステップ2)ケプストラムモデル
距離を全ての異音モデルについてフレーム毎に計算す
る。ステップ3)各モデルの最小モデル距離を検出する
(例えば、130のモデルにおいて130の最小値検出され
る)。ステップ4)2フレームの最小区間を有する1状
態モデルを仮定し、各フレームについて減少トレリスを
更新する。このモデルの遷移確率は、ステップ3で計算
された最小モデル距離に一致する。ステップ5)エンド
ポインタを用いて音声の終了を認識し減少トレリスの更
新を終える。ステップ6)各語彙ネットワーク経路の最
終値を減少トレリスに対してソートする。スッテプ7)
上位n値を選択し認識のためnの候補を供給する。例え
ば、このnの典型的な値は30である。このようにして本
発明の音声認識のフレーム同期検索部が完了する。
B)部には7つのステップ(ステップ8〜14)が含ま
れ、さらに認識の正確さを高めるために、あるいはそれ
以上の追加ステップ(ステップ15によって表される)が
含まれることもある。ステップ8)ビタビ法を用いて
(ステップ2)で計算されたモデル距離で上位n候補を
再計算する。フレーム同期処理であらゆる語彙ワードの
認識候補数がnの候補へ減らされたので、計算が複雑な
ビタビ法が能率的に使用され、これら各々のn候補を
(ステップ2)で算出されたモデル距離の完全なセット
を用いて再計算することが可能となる。ステップ9)計
算値の大きい順に候補をソートする。ステップ10)例え
ば、LSPパラメータのようなパラメータを使用してさら
に再計算を行うため上位mの候補を選択する。このよう
なmの典型的な値は3である。ステップ11)ケプストラ
ムパラメータを使用して異音セグメンテーションを検出
する。これらのセグメント境界は、ステップ12のモデル
距離計算に必要なフレームを限定するために使用され
る。モデル距離の計算による負荷のため、ステップ11で
認識されたフレームおよびステップ10で認識された候補
を限定しない限り、代替パラメータの使用によって許容
できない遅延がおこる。ステップ12)m候補についてLS
Pモデル距離を計算する。例えば、図5において上部の
括弧はケプストラムを用いて生成されたセグメンテーシ
ョンを示し、下部の括弧はLSPモデル距離の計算に必要
なフレームを示す。ステップ13)ステップ12で計算され
たLSPモデル距離を用いてビタビ法によってm候補を再
計算する。セグメント境界は、ステップ11)で得られた
セグメント境界のうち230ミリセカンド(18フレーム)
以内に制限される。ステップ14)ケプストラムおよびLS
Pパラメータに対して上位m候補の計算値を比較する。
またステップ14)好ましくは、各々の候補についてケプ
ストラムおよびLSPパラメータより結果として得られる
確率を乗算してもよい。例えば、m=3のとき: (P1Cep)×(P1LSP)=P1Combined} (P2Cep)×(P2LSP)=P2Combined} (P3Cep)×(P3LSP)=P3Combined} のうち、もっとも大きな確率組み合わせを有するワード
を選択をする。ステップ15)追加オプションの後処理で
あり、選択の正確さを高めるものである。ここで唯一
2、3の候補が残っているだけなので、計算負荷の実質
的な追加をすることなく、さらにオプション後処理が認
識方法に含まれてもよい。したがって認識の遅れの実質
的増加となることもない。例えば、オプション後処理と
して異音の区間を制限し認識の正確さを高めることが挙
げられる。
れ、さらに認識の正確さを高めるために、あるいはそれ
以上の追加ステップ(ステップ15によって表される)が
含まれることもある。ステップ8)ビタビ法を用いて
(ステップ2)で計算されたモデル距離で上位n候補を
再計算する。フレーム同期処理であらゆる語彙ワードの
認識候補数がnの候補へ減らされたので、計算が複雑な
ビタビ法が能率的に使用され、これら各々のn候補を
(ステップ2)で算出されたモデル距離の完全なセット
を用いて再計算することが可能となる。ステップ9)計
算値の大きい順に候補をソートする。ステップ10)例え
ば、LSPパラメータのようなパラメータを使用してさら
に再計算を行うため上位mの候補を選択する。このよう
なmの典型的な値は3である。ステップ11)ケプストラ
ムパラメータを使用して異音セグメンテーションを検出
する。これらのセグメント境界は、ステップ12のモデル
距離計算に必要なフレームを限定するために使用され
る。モデル距離の計算による負荷のため、ステップ11で
認識されたフレームおよびステップ10で認識された候補
を限定しない限り、代替パラメータの使用によって許容
できない遅延がおこる。ステップ12)m候補についてLS
Pモデル距離を計算する。例えば、図5において上部の
括弧はケプストラムを用いて生成されたセグメンテーシ
ョンを示し、下部の括弧はLSPモデル距離の計算に必要
なフレームを示す。ステップ13)ステップ12で計算され
たLSPモデル距離を用いてビタビ法によってm候補を再
計算する。セグメント境界は、ステップ11)で得られた
セグメント境界のうち230ミリセカンド(18フレーム)
以内に制限される。ステップ14)ケプストラムおよびLS
Pパラメータに対して上位m候補の計算値を比較する。
またステップ14)好ましくは、各々の候補についてケプ
ストラムおよびLSPパラメータより結果として得られる
確率を乗算してもよい。例えば、m=3のとき: (P1Cep)×(P1LSP)=P1Combined} (P2Cep)×(P2LSP)=P2Combined} (P3Cep)×(P3LSP)=P3Combined} のうち、もっとも大きな確率組み合わせを有するワード
を選択をする。ステップ15)追加オプションの後処理で
あり、選択の正確さを高めるものである。ここで唯一
2、3の候補が残っているだけなので、計算負荷の実質
的な追加をすることなく、さらにオプション後処理が認
識方法に含まれてもよい。したがって認識の遅れの実質
的増加となることもない。例えば、オプション後処理と
して異音の区間を制限し認識の正確さを高めることが挙
げられる。
以上の実施の形態では、2フレーム最小区間の1状態
モデルをフレーム同期検索に用いた。
モデルをフレーム同期検索に用いた。
表Aは、最小区間を2〜3とし、4321語のテストを行
った場合の正しい選択の包含率を示す。表Bは、4321語
のテストで上位n候補をビタビ法を用いて再計算した後
の認識の正確さを示す。
った場合の正しい選択の包含率を示す。表Bは、4321語
のテストで上位n候補をビタビ法を用いて再計算した後
の認識の正確さを示す。
表Aから明らかなように、正しい選択の包含率は2フ
レームよりも3フレームの最小区間において高くなる。
しかし表Bから明らかなように、ビタビ法を使用して上
位nの候補を再計算した後では、双方の認識の正確さは
ほとんど同一である。よって、2フレーム認識装置の方
が少ない計算ですむために好ましい。もし再計算法のパ
フォーマンスがビタビ法よりも優れるならば、3フレー
ム区間の高包含率のメリットによって、3フレーム区間
に高い計算負荷を課すことが望ましい。
レームよりも3フレームの最小区間において高くなる。
しかし表Bから明らかなように、ビタビ法を使用して上
位nの候補を再計算した後では、双方の認識の正確さは
ほとんど同一である。よって、2フレーム認識装置の方
が少ない計算ですむために好ましい。もし再計算法のパ
フォーマンスがビタビ法よりも優れるならば、3フレー
ム区間の高包含率のメリットによって、3フレーム区間
に高い計算負荷を課すことが望ましい。
図4は図3のステップ4に示された減少トレリスを視
覚的に示す図である。減少トレリスを生成するには、2
フレームの区間を有する1状態モデルを用いる。一例と
して、「for」という語の異音の転移が垂直にプロット
されている。各々の異音は軸上の2点に割り当てられ
る。各々の異音モデルに用いられる遷移確率は、実際の
モデル距離計算の間に得られた最大尤度である。したが
って、減少トレリスのための1状態モデルではモデル距
離の追加計算が不要となり、各モデルについて計算され
たこれら距離の最小値を決定するだけである。これらモ
デル距離は第2段階で使用するためにストアされる。
覚的に示す図である。減少トレリスを生成するには、2
フレームの区間を有する1状態モデルを用いる。一例と
して、「for」という語の異音の転移が垂直にプロット
されている。各々の異音は軸上の2点に割り当てられ
る。各々の異音モデルに用いられる遷移確率は、実際の
モデル距離計算の間に得られた最大尤度である。したが
って、減少トレリスのための1状態モデルではモデル距
離の追加計算が不要となり、各モデルについて計算され
たこれら距離の最小値を決定するだけである。これらモ
デル距離は第2段階で使用するためにストアされる。
トレリスの初期条件がセットされ、各フレーム毎に、
最大遷移確率を語彙ネットワークの各分岐中の各遷移に
対して加えることによって、トレリスが更新される。
最大遷移確率を語彙ネットワークの各分岐中の各遷移に
対して加えることによって、トレリスが更新される。
簡単な例として「for」という語彙ワードの異音の転
移を考える。初期状態を設定するために、語彙ネットワ
ークにおいて、確率「1」を無音モデル({)の初期状
態150およびモデル(f)の初期状態154に割り当て、確
率「0」を他の全てのトレリス縦軸156〜168に割り当て
る。語彙ネットワーク中の各分岐(異音モデル)につい
て3動作、すなわち乗算2回、比較1回を実行し、トレ
リスを更新する。したがってトレリス更新のステップ
は、転移の各異音について初期確率と最大遷移確率を乗
算することからなる。例では、遷移170、172で乗算一つ
として最大遷移確率(p{)が初期値「1」にかけられ
る。遷移174で確率(p{)は初期値「0」にかけられ
る。これら遷移の170、172、174によってそれぞれ3つ
の新状態176、178、180が生ずる。比較は次の異音の初
期状態を表わす状態で行われ、本例では状態180であ
る。遷移174の結果として得られた状態180の確率値は、
異音(f)の初期状態154からの遷移182の結果として得
られた値と比較される。これらのうちどちらか大きい確
率値を有する方が状態180に保持され、次回のトレリス
更新の反復に用いられる。無音モデル({)の場合のよ
うに(f)モデルの遷移が計算される。遷移182、184の
それぞれにおいて、状態154の初期値「1」と異音
(f)の最大遷移確率(pf)の乗算が行われる。遷移18
6で状態156の初期値「0」と異音(f)の最大遷移確率
(pf)の乗算が行われる。これら遷移182、184、186に
よってそれぞれ3つの新状態180、188、190が生ずる。
同様に新状態192〜202についても計算が行われる。各ト
レリス更新のサイクルは、状態176〜202の値を状態150
〜169に複写して完結する。その後に次フレームの処理
が開始される。
移を考える。初期状態を設定するために、語彙ネットワ
ークにおいて、確率「1」を無音モデル({)の初期状
態150およびモデル(f)の初期状態154に割り当て、確
率「0」を他の全てのトレリス縦軸156〜168に割り当て
る。語彙ネットワーク中の各分岐(異音モデル)につい
て3動作、すなわち乗算2回、比較1回を実行し、トレ
リスを更新する。したがってトレリス更新のステップ
は、転移の各異音について初期確率と最大遷移確率を乗
算することからなる。例では、遷移170、172で乗算一つ
として最大遷移確率(p{)が初期値「1」にかけられ
る。遷移174で確率(p{)は初期値「0」にかけられ
る。これら遷移の170、172、174によってそれぞれ3つ
の新状態176、178、180が生ずる。比較は次の異音の初
期状態を表わす状態で行われ、本例では状態180であ
る。遷移174の結果として得られた状態180の確率値は、
異音(f)の初期状態154からの遷移182の結果として得
られた値と比較される。これらのうちどちらか大きい確
率値を有する方が状態180に保持され、次回のトレリス
更新の反復に用いられる。無音モデル({)の場合のよ
うに(f)モデルの遷移が計算される。遷移182、184の
それぞれにおいて、状態154の初期値「1」と異音
(f)の最大遷移確率(pf)の乗算が行われる。遷移18
6で状態156の初期値「0」と異音(f)の最大遷移確率
(pf)の乗算が行われる。これら遷移182、184、186に
よってそれぞれ3つの新状態180、188、190が生ずる。
同様に新状態192〜202についても計算が行われる。各ト
レリス更新のサイクルは、状態176〜202の値を状態150
〜169に複写して完結する。その後に次フレームの処理
が開始される。
初期状態150および154の初期確率1はワード「for」
が最初の無音あるいは息継ぎを含むことを示している。
同様に、状態164から202への遷移204は、最後の無音あ
るいは息継ぎが選択的に存在することを示している。状
態202において、現在フレームの最尤値が保持される。
が最初の無音あるいは息継ぎを含むことを示している。
同様に、状態164から202への遷移204は、最後の無音あ
るいは息継ぎが選択的に存在することを示している。状
態202において、現在フレームの最尤値が保持される。
これら記述によれば、遷移確率は「0」と「1」の間
に位置し、トレリス更新の新しい値は現在値と次への遷
移確率を乗算することにより得られる。しかし音声認識
技術の通例では、典型的には遷移確率は対数演算によっ
て表されるので、確率の乗算は計算が簡単な加算によっ
て行われる。
に位置し、トレリス更新の新しい値は現在値と次への遷
移確率を乗算することにより得られる。しかし音声認識
技術の通例では、典型的には遷移確率は対数演算によっ
て表されるので、確率の乗算は計算が簡単な加算によっ
て行われる。
モデル距離の計算は複雑な作業であり、それゆえに計
算機に大きな負荷がかかる。LSPモデル距離を音声認識
方法の「認識遅延」の部分で許容を越えて遅延を増加さ
せないで計算するには、計算に必要なフレーム数を制限
しなくてはならない。
算機に大きな負荷がかかる。LSPモデル距離を音声認識
方法の「認識遅延」の部分で許容を越えて遅延を増加さ
せないで計算するには、計算に必要なフレーム数を制限
しなくてはならない。
ケプストラムパラメータを用いて異音セグメンテーシ
ョンを検出するステップおよびLSPモデル距離を計算す
るステップを図5を参照して説明する。一例として、語
彙ワード「for」の異音の転移が図5に視覚的に示され
ている。横軸は音声のフレームを表す。ケプストラムパ
ラメータの異音セグメントは、縦線210、212、214およ
び216によって示され、異音のセグメンテーションf、
o、rは括弧218、220、222によってそれぞれ表され
る。これは図3のステップ11に対応する。図5の例にお
いては、モデル距離が計算されることとなる異音のフレ
ームは、ケプストラムパラメータを用いて決定されたセ
グメント境界の18フレーム(230ミリセカンド)以内に
制限される。したがって、LSPモデル距離の計算を異音
f、o、rについて行うとき、それらの計算はそれぞれ
括弧224、226、228によって示されるフレームで実行さ
れる。
ョンを検出するステップおよびLSPモデル距離を計算す
るステップを図5を参照して説明する。一例として、語
彙ワード「for」の異音の転移が図5に視覚的に示され
ている。横軸は音声のフレームを表す。ケプストラムパ
ラメータの異音セグメントは、縦線210、212、214およ
び216によって示され、異音のセグメンテーションf、
o、rは括弧218、220、222によってそれぞれ表され
る。これは図3のステップ11に対応する。図5の例にお
いては、モデル距離が計算されることとなる異音のフレ
ームは、ケプストラムパラメータを用いて決定されたセ
グメント境界の18フレーム(230ミリセカンド)以内に
制限される。したがって、LSPモデル距離の計算を異音
f、o、rについて行うとき、それらの計算はそれぞれ
括弧224、226、228によって示されるフレームで実行さ
れる。
図6は本発明の音声認識方法を用いるために構成され
た典型的な音声認識装置を示すブロック図である。音声
認識装置は音声入力290、ケプストラムおよびLSPパラメ
ータ各解析器292、294を有し、各パラメータの出力29
6、298を入力データバッファ302入力する。入力データ
バッファは、データバス304に接続される。また、この
データバスに接続されるのは、処理装置306、認識デー
タテーブル記憶装置308、中間結果記憶装置310、および
出力314を有する認識結果出力ブロック312である。
た典型的な音声認識装置を示すブロック図である。音声
認識装置は音声入力290、ケプストラムおよびLSPパラメ
ータ各解析器292、294を有し、各パラメータの出力29
6、298を入力データバッファ302入力する。入力データ
バッファは、データバス304に接続される。また、この
データバスに接続されるのは、処理装置306、認識デー
タテーブル記憶装置308、中間結果記憶装置310、および
出力314を有する認識結果出力ブロック312である。
動作を説明すると、入力290に印加された音声はケプ
ストラム分析器292およびLSP分析器294で分析され、ケ
プストラムおよびLSPパラメータベクトル出力を、それ
ぞれ296、298を介して12.75ミリセカンド毎に入力デー
タバッファ302に対して生成する。フレーム同期計算の
ため、処理装置306は、音声データのフレーム毎に認識
データテーブル記憶装置308にストアされたすべてのケ
プストラム異音モデルについてモデル距離を計算する。
計算されたモデル距離は中間結果記憶装置310にストア
され、後にビタビ法において上位nの選択を再計算する
際に使用される。トレリスは中間結果記憶装置310で形
成され、フレーム毎に更新される。第1段階で上位nが
決定されると、音声認識方法の「認識遅延」部分が始ま
る。ストアされたケプストラムモデル距離は、ビタビ法
によって使用され、中間結果記憶装置310にストアされ
た命令リストによって、上位nの選択を再計算する。上
位nの選択はさらにビタビ法を用いて再計算される。そ
の後、上位mの選択は入力データバッファ302からのLSP
パラメータを使用して再計算される。LSPモデル距離
は、処理装置306によって上位mの選択で検出されたLSP
異音モデルに対して計算され、その際に認識データテー
ブル記憶装置308にストアされたモデル距離が使用され
る。各異音モデルに対しては、ケプストラムセグメンテ
ーションにより供給されるフレームのみが使用される。
算出されたモデル距離は中間結果記憶装置310にストア
され、上位mの選択を再計算するためにビタビ法で使用
される。ケプストラムおよびLSPの上位mの選択の比較
を行い、認識結果出力ブロック312にその認識結果をス
トアする。その結果は出力314を介し、「認識」として
アプリケーションに送られる。上に述べたように、さら
に後処理を行い認識の正確さを高める。
ストラム分析器292およびLSP分析器294で分析され、ケ
プストラムおよびLSPパラメータベクトル出力を、それ
ぞれ296、298を介して12.75ミリセカンド毎に入力デー
タバッファ302に対して生成する。フレーム同期計算の
ため、処理装置306は、音声データのフレーム毎に認識
データテーブル記憶装置308にストアされたすべてのケ
プストラム異音モデルについてモデル距離を計算する。
計算されたモデル距離は中間結果記憶装置310にストア
され、後にビタビ法において上位nの選択を再計算する
際に使用される。トレリスは中間結果記憶装置310で形
成され、フレーム毎に更新される。第1段階で上位nが
決定されると、音声認識方法の「認識遅延」部分が始ま
る。ストアされたケプストラムモデル距離は、ビタビ法
によって使用され、中間結果記憶装置310にストアされ
た命令リストによって、上位nの選択を再計算する。上
位nの選択はさらにビタビ法を用いて再計算される。そ
の後、上位mの選択は入力データバッファ302からのLSP
パラメータを使用して再計算される。LSPモデル距離
は、処理装置306によって上位mの選択で検出されたLSP
異音モデルに対して計算され、その際に認識データテー
ブル記憶装置308にストアされたモデル距離が使用され
る。各異音モデルに対しては、ケプストラムセグメンテ
ーションにより供給されるフレームのみが使用される。
算出されたモデル距離は中間結果記憶装置310にストア
され、上位mの選択を再計算するためにビタビ法で使用
される。ケプストラムおよびLSPの上位mの選択の比較
を行い、認識結果出力ブロック312にその認識結果をス
トアする。その結果は出力314を介し、「認識」として
アプリケーションに送られる。上に述べたように、さら
に後処理を行い認識の正確さを高める。
図6の音声認識装置のハードウェアは、テキサスイン
スツルメンツ社のマイクロプロセッサTMS320C31を6つ
用いて処理装置306を構成し、入力データバッファ302、
認識データテーブル記憶装置308および中間結果記憶装
置310を構成するために約16メガバイトのメモリが使用
されている。
スツルメンツ社のマイクロプロセッサTMS320C31を6つ
用いて処理装置306を構成し、入力データバッファ302、
認識データテーブル記憶装置308および中間結果記憶装
置310を構成するために約16メガバイトのメモリが使用
されている。
上に述べた本発明の実施の形態について、請求項にお
いて定義された本発明の主旨から逸れることなく様々な
変更、バリエーション、適用を加えることが可能であ
る。
いて定義された本発明の主旨から逸れることなく様々な
変更、バリエーション、適用を加えることが可能であ
る。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 レニグ・マシュー カナダ国,エイチ3ゼット 1ジェイ 1,ケベック,ウェストマウント,ウィ ンチェスター アベニュー 2 (56)参考文献 米国特許5515475(US,A) 欧州特許705473(EP,B1) Journal of the Ac oustical Society o f America,84(6),Dec ember 1988,Gupta et al,”Fast search st rategy in a large vocabulary word re cognizer”,p.2007−2017 Proceedings of 1988 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Paliwal,”SIO.22 A study of line spe ctrum pair frequen cies for speech re cognition”,p.485−488 Signal Processing IV:Theories and A pplications,Vol.3, 1988,Paliwal,”A stud y of line spectrum pair frequencies for vowel recognit ion”,p.1189−1192 Journal of the Ac oustical Society o f America,86(2),Aug ust 1989,Deng et a l,”Use of vowel du ration information in a large vocabu lary word recogniz er”,p.540−548 Proceedings of 1993 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.2,Kenny et a l.,”A new match fo r very large vocab urary continuous s peech recognitio n”,p.▲II▼.656−▲II▼. 659 Proceedings of 1990 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Liu et al.,”S5.6 Study of line spe ctrum pair frequen cies for speaker r ecognition”,p.277−280 電子情報通信学会技術研究報告 Vo l.91 No.170 DSP91−29 河 野他「状態ネットワークを用いた音声認 識」p.7−9,1991 日本シミュレーション学会第10回シミ ュレーション・テクノロジー・コンファ レンス発表論文集 松田他「7−2 信 号処理手法とパターン認識手法による時 系列データの予測に関する検討」p. 103−106(1991年6月) 1991年電子情報通信学会全国大会講演 論文集 菅原他「A−225 状態遷移ネ ットワークを用いた音声認識」p.1− 225 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/28 JICSTファイル(JOIS) INSPEC(DIALOG) WPI(DIALOG)
Claims (8)
- 【請求項1】2つの検索段階を有し、 第1検索段階は: 第1組の異音モデルを第1型の音声パラメータベクトル
と共に用いるために供給し; 第2組の異音モデルを第2型の音声パラメータベクトル
と共に用いるために供給し; 認識語彙を表すネットワークを供給し、そこで、ネット
ワークの各分岐は異音モデルの1つであり、ネットワー
クを通じる各全経路は認識語彙中のワードを表わすモデ
ルのシーケンスであり; 第1および第2型の各音声パラメータベクトルに対して
音声パラメータベクトルのフレームシーケンスを生成す
るために未知の音声を分析し; ネットワークの全経路で最尤経路を決定するために減少
トレリスを供給し; 第1型の音声パラメータベクトルの各フレームのモデル
距離を第1組の全ての異音モデルについて計算し; 第1組の各モデルの最小モデル距離を算出し; 各異音モデルは2フレームの最小区間を有する1状態モ
デルであり、および遷移確率がその最小モデル距離に等
しいと仮定して、全てのフレームについて減少トレリス
を更新し; 語彙ネットワークを通じて各経路のトレリスから最終値
をソートし; 最も高い最終値を有する第1の複数の認識候補を選択
し; 第2検索段階は: 語彙ネットワークに対応するビタビ法のトレリスを用い
て第1組の異音モデルに対して算出されたモデル距離で
この第1の複数候補の再計算を行い; 計算値が大きい順に候補をソートし; 第1の複数候補から第1の候補よりも少ない数の第2の
複数候補を選択して、さらに第2組の異音モデルおよび
第2型の音声パラメータベクトルを用いて再計算し; 第2型の音声パラメータベクトルのモデル距離計算に対
するフレームを認識するために第1型の音声パラメータ
ベクトルを用いて異音セグメンテーションを検出し; 第2の複数候補中に検出される第2組の異音モデルに対
して認識される第2型の音声パラメータベクトルのフレ
ームのモデル距離を計算し; ビタビ法を用いて第2組の異音モデルに対し計算された
モデル距離で第2の複数候補を再計算し; 第1および第2型の音声パラメータベクトルに対する第
2の複数候補の計算値を比較して認識候補を選択するス
テップを含むことを特徴とする音声認識方法。 - 【請求項2】請求項1の音声認識方法において: 第1型の音声パラメータベクトルは、ケプストラムパラ
メータベクトルを含むことを特徴とする音声認識方法。 - 【請求項3】請求項2の音声認識方法において: 第2型の音声パラメータベクトルは、LSPパラメータベ
クトルを含むことを特徴とする音声認識方法。 - 【請求項4】請求項1の音声認識方法において:さらに エンドポインタを用いて減少トレリスを供給するステッ
プの前に、ワードおよびフレーズの始めを認識し; エンドポインタを用いて音声の終了を認識し、減少トレ
リスの更新を止めることを特徴とする音声認識方法。 - 【請求項5】2つの検索段階を有し、 第1検索段階は: 第1組の異音モデルをケプストラムパラメータベクトル
と共に用いるために供給し; 第2組の異音モデルをLSPパラメータベクトルと共に用
いるために供給し; 認識語彙を表すネットワークを供給し、そこで、ネット
ワークの各分岐は異音モデルの1つであり、ネットワー
クを通じる各全経路は認識語彙中のワードを表わすモデ
ルのシーケンスであり; ネットワークの全経路で最尤経路を決定するために減少
トレリスを供給し; ケプストラムおよびLSPパラメータベクトルのフレーム
シーケンスを生成するために未知の音声を分析し; 全てのケプストラム異音モデルに対してフレーム毎にケ
プストラムモデル距離を計算し; 各モデルに対して最小モデル距離を算出し; 2フレームの最小区間を有する1状態モデルおよび遷移
確率がその最小モデル距離に等しいと仮定して、全ての
フレームについて減少トレリスを更新し; 減少トレリスに対して各語彙ネットワーク経路の最終値
をソートし; 上位nの値を選択しnの認識候補を供給し; 第2検索段階は: ビタビ法のトレリスを用いて、算出されたモデル距離で
上位nの候補を再計算し; 計算値が大きい順に候補をソートし; LSPパラメータベクトルを用いて、さらに再計算を行う
ために上位m(m<n)を選択し; LSPパラメータに対しモデル距離の計算に必要なフレー
ムを認識するため、ケプストラムパラメータを用いて異
音セグメンテーションを検出し; 認識されたフレームおよびm候補中で検出されたLSPモ
デルに対してLSPモデル距離を計算し; ビタビ法を用いて算出されたLSPモデル距離でmの候補
を再計算し; ケプストラムおよびLSPパラメータに対して上位mの候
補の計算値を比較して認識候補を選択するステップを含
むことを特徴とする音声認識方法。 - 【請求項6】請求項5の音声認識方法において:さらに エンドポインタを用いて減少トレリスを供給するステッ
プの前に、ワードおよびフレーズの始めを認識し; エンドポインタを用いて音声の終了を認識し、減少トレ
リスの更新を止めることを特徴とする音声認識方法。 - 【請求項7】請求項6の音声認識方法において: 上位mの候補を比較するステップは、各々の候補に対し
てケプストラムおよびLSPパラメータから得られる確率
を共に乗算し、最も高い組み合わせ確率を有する候補を
認識候補として選択するステップを含むことを特徴とす
る音声認識方法。 - 【請求項8】請求項7の音声認識方法において: ケプストラムパラメータを用いて検出されるセグメント
境界の18フレーム以内にフレームが制限されることを特
徴とする音声認識方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US080,543 | 1993-06-24 | ||
US08/080,543 | 1993-06-24 | ||
US08/080,543 US5515475A (en) | 1993-06-24 | 1993-06-24 | Speech recognition method using a two-pass search |
PCT/CA1994/000284 WO1995000949A1 (en) | 1993-06-24 | 1994-05-18 | Speech recognition method using a two-pass search |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08506430A JPH08506430A (ja) | 1996-07-09 |
JP3049259B2 true JP3049259B2 (ja) | 2000-06-05 |
Family
ID=22158066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7502266A Expired - Lifetime JP3049259B2 (ja) | 1993-06-24 | 1994-05-18 | 音声認識方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5515475A (ja) |
EP (1) | EP0705473B1 (ja) |
JP (1) | JP3049259B2 (ja) |
CA (1) | CA2163017C (ja) |
DE (1) | DE69420842T2 (ja) |
WO (1) | WO1995000949A1 (ja) |
Families Citing this family (207)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
US5987414A (en) * | 1996-10-31 | 1999-11-16 | Nortel Networks Corporation | Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance |
US5839107A (en) * | 1996-11-29 | 1998-11-17 | Northern Telecom Limited | Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing |
US5987408A (en) * | 1996-12-16 | 1999-11-16 | Nortel Networks Corporation | Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
US6236715B1 (en) | 1997-04-15 | 2001-05-22 | Nortel Networks Corporation | Method and apparatus for using the control channel in telecommunications systems for voice dialing |
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6018708A (en) * | 1997-08-26 | 2000-01-25 | Nortel Networks Corporation | Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies |
US5995929A (en) * | 1997-09-12 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for generating an a priori advisor for a speech recognition dictionary |
US6122361A (en) * | 1997-09-12 | 2000-09-19 | Nortel Networks Corporation | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6253178B1 (en) | 1997-09-22 | 2001-06-26 | Nortel Networks Limited | Search and rescoring method for a speech recognition system |
FR2769118B1 (fr) * | 1997-09-29 | 1999-12-03 | Matra Communication | Procede de reconnaissance de parole |
US6253173B1 (en) | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
WO1999028898A1 (fr) * | 1997-11-27 | 1999-06-10 | Hitachi, Ltd. | Systeme et procede de reconnaissance vocale |
US6182038B1 (en) * | 1997-12-01 | 2001-01-30 | Motorola, Inc. | Context dependent phoneme networks for encoding speech information |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6052443A (en) * | 1998-05-14 | 2000-04-18 | Motorola | Alphanumeric message composing method using telephone keypad |
US6137867A (en) * | 1998-05-14 | 2000-10-24 | Motorola, Inc. | Alphanumeric message composing method using telephone keypad |
US5974121A (en) * | 1998-05-14 | 1999-10-26 | Motorola, Inc. | Alphanumeric message composing method using telephone keypad |
US6208964B1 (en) | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
SE9802990L (sv) * | 1998-09-04 | 2000-03-05 | Ericsson Telefon Ab L M | Förfarande och system för taligenkänning |
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
DE69941999D1 (de) * | 1998-10-09 | 2010-03-25 | Sony Corp | Erkennungsvorrichtung, Erkennungsverfahren und Aufzeichnungsmedium |
US6148285A (en) * | 1998-10-30 | 2000-11-14 | Nortel Networks Corporation | Allophonic text-to-speech generator |
JP3420965B2 (ja) * | 1999-02-25 | 2003-06-30 | 日本電信電話株式会社 | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US6480827B1 (en) * | 2000-03-07 | 2002-11-12 | Motorola, Inc. | Method and apparatus for voice communication |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR100446289B1 (ko) * | 2000-10-13 | 2004-09-01 | 삼성전자주식회사 | 역 히든 마르코브 모델(ihmm)을 이용한 정보 탐색방법및 장치 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
AU2002247891A1 (en) * | 2002-03-27 | 2003-10-20 | Nokia Corporation | Pattern recognition |
EP1575031A3 (en) * | 2002-05-15 | 2010-08-11 | Pioneer Corporation | Voice recognition apparatus |
US7191130B1 (en) * | 2002-09-27 | 2007-03-13 | Nuance Communications | Method and system for automatically optimizing recognition configuration parameters for speech recognition systems |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
DE102004001212A1 (de) * | 2004-01-06 | 2005-07-28 | Deutsche Thomson-Brandt Gmbh | Verfahren und Vorrichtung zum Durchsuchen einer Datenbank in zwei Suchschritten |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070132834A1 (en) * | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Speech disambiguation in a composite services enablement environment |
US7877256B2 (en) * | 2006-02-17 | 2011-01-25 | Microsoft Corporation | Time synchronous decoding for long-span hidden trajectory model |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR101415534B1 (ko) * | 2007-02-23 | 2014-07-07 | 삼성전자주식회사 | 다단계 음성인식장치 및 방법 |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US20160265332A1 (en) | 2013-09-13 | 2016-09-15 | Production Plus Energy Services Inc. | Systems and apparatuses for separating wellbore fluids and solids during production |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9135911B2 (en) * | 2014-02-07 | 2015-09-15 | NexGen Flight LLC | Automated generation of phonemic lexicon for voice activated cockpit management systems |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US9484022B2 (en) | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN116959420A (zh) * | 2018-04-16 | 2023-10-27 | 谷歌有限责任公司 | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 |
WO2019203794A1 (en) | 2018-04-16 | 2019-10-24 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
CN112786035A (zh) * | 2019-11-08 | 2021-05-11 | 珠海市一微半导体有限公司 | 清洁机器人的语音识别方法、系统和芯片 |
CN111754987A (zh) * | 2020-06-23 | 2020-10-09 | 国投(宁夏)大数据产业发展有限公司 | 一种大数据分析语音识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
EP0438662A2 (en) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
US5386492A (en) * | 1992-06-29 | 1995-01-31 | Kurzweil Applied Intelligence, Inc. | Speech recognition system utilizing vocabulary model preselection |
-
1993
- 1993-06-24 US US08/080,543 patent/US5515475A/en not_active Expired - Lifetime
-
1994
- 1994-05-18 CA CA002163017A patent/CA2163017C/en not_active Expired - Fee Related
- 1994-05-18 WO PCT/CA1994/000284 patent/WO1995000949A1/en active IP Right Grant
- 1994-05-18 DE DE69420842T patent/DE69420842T2/de not_active Expired - Fee Related
- 1994-05-18 JP JP7502266A patent/JP3049259B2/ja not_active Expired - Lifetime
- 1994-05-18 EP EP94916113A patent/EP0705473B1/en not_active Expired - Lifetime
Non-Patent Citations (9)
Title |
---|
1991年電子情報通信学会全国大会講演論文集 菅原他「A−225 状態遷移ネットワークを用いた音声認識」p.1−225 |
Journal of the Acoustical Society of America,84(6),December 1988,Gupta et al,"Fast search strategy in a large vocabulary word recognizer",p.2007−2017 |
Journal of the Acoustical Society of America,86(2),August 1989,Deng et al,"Use of vowel duration information in a large vocabulary word recognizer",p.540−548 |
Proceedings of 1988 IEEE International Conference on Acoustics,Speech and Signal Processing,Paliwal,"SIO.22 A study of line spectrum pair frequencies for speech recognition",p.485−488 |
Proceedings of 1990 IEEE International Conference on Acoustics,Speech and Signal Processing,Liu et al.,"S5.6 Study of line spectrum pair frequencies for speaker recognition",p.277−280 |
Proceedings of 1993 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.2,Kenny et al.,"A new match for very large vocaburary continuous speech recognition",p.▲II▼.656−▲II▼.659 |
Signal Processing IV:Theories and Applications,Vol.3,1988,Paliwal,"A study of line spectrum pair frequencies for vowel recognition",p.1189−1192 |
日本シミュレーション学会第10回シミュレーション・テクノロジー・コンファレンス発表論文集 松田他「7−2 信号処理手法とパターン認識手法による時系列データの予測に関する検討」p.103−106(1991年6月) |
電子情報通信学会技術研究報告 Vol.91 No.170 DSP91−29 河野他「状態ネットワークを用いた音声認識」p.7−9,1991 |
Also Published As
Publication number | Publication date |
---|---|
WO1995000949A1 (en) | 1995-01-05 |
CA2163017A1 (en) | 1995-01-05 |
EP0705473B1 (en) | 1999-09-22 |
EP0705473A1 (en) | 1996-04-10 |
DE69420842D1 (de) | 1999-10-28 |
JPH08506430A (ja) | 1996-07-09 |
US5515475A (en) | 1996-05-07 |
CA2163017C (en) | 2000-01-25 |
DE69420842T2 (de) | 2000-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3049259B2 (ja) | 音声認識方法 | |
JP6686154B2 (ja) | 発話認識方法及び装置 | |
US5787396A (en) | Speech recognition method | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
EP0303022B1 (en) | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker | |
US5072452A (en) | Automatic determination of labels and Markov word models in a speech recognition system | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
US6178401B1 (en) | Method for reducing search complexity in a speech recognition system | |
JP3078279B2 (ja) | ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置 | |
US6374212B2 (en) | System and apparatus for recognizing speech | |
EP0590925A1 (en) | Method of speech modelling and a speech recognizer | |
EP0314908A2 (en) | Automatic determination of labels and markov word models in a speech recognition system | |
KR101120765B1 (ko) | 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
US6253178B1 (en) | Search and rescoring method for a speech recognition system | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2002358097A (ja) | 音声認識装置 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JP3104900B2 (ja) | 音声認識方法 | |
JP3494338B2 (ja) | 音声認識方法 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JP3368989B2 (ja) | 音声認識方法 | |
JP2005091504A (ja) | 音声認識装置 |