JPH0362000A - 陰マルコフモデル音声認識の効率的簡潔化アルゴリズム - Google Patents
陰マルコフモデル音声認識の効率的簡潔化アルゴリズムInfo
- Publication number
- JPH0362000A JPH0362000A JP2097429A JP9742990A JPH0362000A JP H0362000 A JPH0362000 A JP H0362000A JP 2097429 A JP2097429 A JP 2097429A JP 9742990 A JP9742990 A JP 9742990A JP H0362000 A JPH0362000 A JP H0362000A
- Authority
- JP
- Japan
- Prior art keywords
- slot
- state
- current state
- score
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000872 buffer Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 241001313846 Calypso Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Interface Circuits In Exchanges (AREA)
- Machine Translation (AREA)
- Storage Device Security (AREA)
- Mobile Radio Communication Systems (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、コンピュータプロセッサに関し、特に、音声
認識時のコンピュータ処理装置のローディングを軽減す
る効率的NQM化アルゴリズムに関する。
認識時のコンピュータ処理装置のローディングを軽減す
る効率的NQM化アルゴリズムに関する。
(従来技術とその問題点)
以前の動的時間ワーピング(Dynamic Time
匈arping(DTW))に基づく音声認識装置は、
単語レベル又は音声レベルの仮説を自律単語仮説装置に
より発生させる伝統的ボトムアップ(bottos u
p)法を使用していた。これらの仮説は、次に、分野に
応じた知識(文法〉を使って全ての文法的候補から最良
の文仮説を選ぶ文仮説装置により後処理された。
匈arping(DTW))に基づく音声認識装置は、
単語レベル又は音声レベルの仮説を自律単語仮説装置に
より発生させる伝統的ボトムアップ(bottos u
p)法を使用していた。これらの仮説は、次に、分野に
応じた知識(文法〉を使って全ての文法的候補から最良
の文仮説を選ぶ文仮説装置により後処理された。
近時、r自然言語の文法的関係を解析するシステム及び
方法j (米国特許出願第919.156号)及び「確
率的統一文法の図表解析装置j (米国特許出願第31
2.835号) (これらは共に本願の譲受人に譲渡さ
れた〉に、音声認識のトップダウン法が開示されている
。要約すると、単語仮説装置は最早自律的ではなくて、
文仮説装置により案内される。フレームが処理される時
、各々の活きている文仮説が必要に応じてデータを要求
する。データ要求のシーケンスは、一般的には、単語仮
説を要求する文で始まる(即ち、候補単語及びその発生
の可能性が今の経歴を与える)。一方、単語仮説につい
てのこれらの要求は、単語仮説を要求する、などである
。このプロセスは、音声データのフレームについての要
求で終わる。この点で、音声データの、入ってくるフレ
ームは、この文仮説により予言される文脈に記入される
。各々のレベルが、文法的構造、即ち、陰マルコフモデ
ル(HiddenMarkov Models(I(M
Ms))の制約を、その下のレベルのデータ表現に課す
。
方法j (米国特許出願第919.156号)及び「確
率的統一文法の図表解析装置j (米国特許出願第31
2.835号) (これらは共に本願の譲受人に譲渡さ
れた〉に、音声認識のトップダウン法が開示されている
。要約すると、単語仮説装置は最早自律的ではなくて、
文仮説装置により案内される。フレームが処理される時
、各々の活きている文仮説が必要に応じてデータを要求
する。データ要求のシーケンスは、一般的には、単語仮
説を要求する文で始まる(即ち、候補単語及びその発生
の可能性が今の経歴を与える)。一方、単語仮説につい
てのこれらの要求は、単語仮説を要求する、などである
。このプロセスは、音声データのフレームについての要
求で終わる。この点で、音声データの、入ってくるフレ
ームは、この文仮説により予言される文脈に記入される
。各々のレベルが、文法的構造、即ち、陰マルコフモデ
ル(HiddenMarkov Models(I(M
Ms))の制約を、その下のレベルのデータ表現に課す
。
第1図は、この様に階層化した文法、又はモデル駆動式
の、音声P!識の方法のブロック図を示す。
の、音声P!識の方法のブロック図を示す。
それには二つの主な特徴、即ち、どんな数のレベルのデ
ータ表現でも共存することを許す階層構造と、全てのレ
ベルで情報の流れを支配する連続濃度HMM計算フレー
ムワークと、がある。第1図に示されているのと同様の
システムの詳細が「確率的統一文法の図表解析装置j
(米国特許出願第312.835号〉に充分に説明され
ている。この出願は本願の譲受人に譲渡された。トップ
ダウン仮説方式は、従来のボトムアンプ・システムに比
べて著しく改善した性能を持つものであることが経験的
に示された。
ータ表現でも共存することを許す階層構造と、全てのレ
ベルで情報の流れを支配する連続濃度HMM計算フレー
ムワークと、がある。第1図に示されているのと同様の
システムの詳細が「確率的統一文法の図表解析装置j
(米国特許出願第312.835号〉に充分に説明され
ている。この出願は本願の譲受人に譲渡された。トップ
ダウン仮説方式は、従来のボトムアンプ・システムに比
べて著しく改善した性能を持つものであることが経験的
に示された。
残念なことに、音声認識方式に使われるトップダウン・
モデル駆動法は、実時間で作動しなければならないので
、計算上負担になる。また、現在の音声認識システムは
、一般的には高価な高速ランダムアクセスメモリー内に
維持される数百キロバイトのデータメモリーのスコアリ
ング・バッファーを必要とする。従って、音声認識アル
ゴリズムを処理する時、CPUの使用する高速RAMの
量を減らし、これによりシステムの費用を減らすことが
非常に望ましい。
モデル駆動法は、実時間で作動しなければならないので
、計算上負担になる。また、現在の音声認識システムは
、一般的には高価な高速ランダムアクセスメモリー内に
維持される数百キロバイトのデータメモリーのスコアリ
ング・バッファーを必要とする。従って、音声認識アル
ゴリズムを処理する時、CPUの使用する高速RAMの
量を減らし、これによりシステムの費用を減らすことが
非常に望ましい。
(発明の(既要)
関連技術に伴う上記の問題を考慮して、本発明の目的は
、臨界スコアを使用し、バックポインタが指す状態に影
響を与えること、により2レベルで効率的に簡潔化を行
って中央処理装置のローディングを軽減する方法を提供
することである。
、臨界スコアを使用し、バックポインタが指す状態に影
響を与えること、により2レベルで効率的に簡潔化を行
って中央処理装置のローディングを軽減する方法を提供
することである。
本発明の他の目的は、実時間で作動して、音声認識アル
ゴリズムを処理する時に中央処理装置が必要とする高速
RAMの量を安価に且つ効果的に軽減することにより計
算サイクル時間を出来るだけ短縮する方法を提供するこ
とである。
ゴリズムを処理する時に中央処理装置が必要とする高速
RAMの量を安価に且つ効果的に軽減することにより計
算サイクル時間を出来るだけ短縮する方法を提供するこ
とである。
本発明の他の目的は、中央処理装置がスコアリング・バ
ッファー内の使用可能なスロットを素早く発見できるよ
うにし、されにより計算サイクル時間を短縮することの
出来る方法を提供することである。
ッファー内の使用可能なスロットを素早く発見できるよ
うにし、されにより計算サイクル時間を短縮することの
出来る方法を提供することである。
これらの目的は、好適な実施例において、CPUに指令
して現在の状態の、先に計算してあった確率スコアを所
定臨界値と比較させ、該臨界値より低い確率スコアを持
った状態を包含する仮説を捨てさせるアルゴリズムを使
用することにより達成される。現在の状態を維持するべ
きであると判定した後、CPUは、スコアリング・バッ
ファー内の使用可能なスロットを発見するように指令さ
れ、そのスロット内に、現在の状態についての情報が格
納される。CPUは、現在の時間指標を、各スコアリン
グ・バッファー・スロットに随伴する時間指標と比較す
ることにより、使用可能なスロットを発見する。それら
が等しいとき、該スロットは使用不能であり、現在の時
間指標の方が大きいときは、該スロットは使用可能であ
る。
して現在の状態の、先に計算してあった確率スコアを所
定臨界値と比較させ、該臨界値より低い確率スコアを持
った状態を包含する仮説を捨てさせるアルゴリズムを使
用することにより達成される。現在の状態を維持するべ
きであると判定した後、CPUは、スコアリング・バッ
ファー内の使用可能なスロットを発見するように指令さ
れ、そのスロット内に、現在の状態についての情報が格
納される。CPUは、現在の時間指標を、各スコアリン
グ・バッファー・スロットに随伴する時間指標と比較す
ることにより、使用可能なスロットを発見する。それら
が等しいとき、該スロットは使用不能であり、現在の時
間指標の方が大きいときは、該スロットは使用可能であ
る。
現在の状態についての情報が格納された後、CPUは、
現在の状態が完成したモデルを表すならば、現在の最良
の経路のスタート状態を指す様に現在の状態のバンクポ
インタを調整する。その後、現在の状態の状況に関わら
ず、CPUは、現在の時間指標を、現在の状態への最良
の経路に沿う全てのスロットの時間指標と関連させる。
現在の状態が完成したモデルを表すならば、現在の最良
の経路のスタート状態を指す様に現在の状態のバンクポ
インタを調整する。その後、現在の状態の状況に関わら
ず、CPUは、現在の時間指標を、現在の状態への最良
の経路に沿う全てのスロットの時間指標と関連させる。
CPUは、その後、次の現在の状態の確率スコアを計算
し、アルゴリズムは、全ての状態が完成するまで反復す
る。
し、アルゴリズムは、全ての状態が完成するまで反復す
る。
当業者は、添付図面と関連させて好適な実施例に関する
以下の詳しい記述を読むことから本発明の上記特徴及び
利点並びにその他の特徴及び利点を良く理解することが
出来よう。
以下の詳しい記述を読むことから本発明の上記特徴及び
利点並びにその他の特徴及び利点を良く理解することが
出来よう。
(実施例)
本発明のアルゴリズムは、例えばテキサスインスツルメ
ント社が開発したCa1ypso等の多重処理システム
を含むどんな中央処理システムでも実施することが出来
る。該アルゴリズムを多重処理装置に使用することによ
り、該多重処理装置にわたってHMMiiを分割すると
こが出来、これにより、音声認識システムがより大量の
諸量の認識できるようにすることが出来る。
ント社が開発したCa1ypso等の多重処理システム
を含むどんな中央処理システムでも実施することが出来
る。該アルゴリズムを多重処理装置に使用することによ
り、該多重処理装置にわたってHMMiiを分割すると
こが出来、これにより、音声認識システムがより大量の
諸量の認識できるようにすることが出来る。
第2図は、左右型・陰マルコフ・モデル(HMM)の典
型的表示である。この例にっていは、状態Oはスタート
状態であり、状態4はストツブ状態である。観察シーケ
ンスSOが与えられると、問題は、観察されたデータを
説明する単一の最善の状態シーケンスを発見することと
なる。この最善の状態シーケンスを発見するために、V
iterbiアルゴリズム(G、 David For
ney+ Jr、、 ”The ViterbiA1g
orithm″、 Proc、 of the IBB
B、 vol、 61、no。
型的表示である。この例にっていは、状態Oはスタート
状態であり、状態4はストツブ状態である。観察シーケ
ンスSOが与えられると、問題は、観察されたデータを
説明する単一の最善の状態シーケンスを発見することと
なる。この最善の状態シーケンスを発見するために、V
iterbiアルゴリズム(G、 David For
ney+ Jr、、 ”The ViterbiA1g
orithm″、 Proc、 of the IBB
B、 vol、 61、no。
3 、March 1973)を使用する。これは、p
athscoret(j)= 1IlaX (path
scorez−t(i)+1n(ata)1<i<n 〕 backpointert(j)=argmax (p
athscoret−+(i)atj+ In(at
=)) 1<i<n で示される。ここで、 cij=時刻tにおいて状態jが観察SOと一致する確
率、 aij−状態iから状態jへの遷移確率、n =モデル
における状態の数である。
athscoret(j)= 1IlaX (path
scorez−t(i)+1n(ata)1<i<n 〕 backpointert(j)=argmax (p
athscoret−+(i)atj+ In(at
=)) 1<i<n で示される。ここで、 cij=時刻tにおいて状態jが観察SOと一致する確
率、 aij−状態iから状態jへの遷移確率、n =モデル
における状態の数である。
文モデル文法に基づく最上層状態経路のフローチャート
例が第3図に示されている。該モデル処理装置により評
価されるとき、処理されつつある現在の話された人力と
色々なプログラムされた文法とを考慮して、技として示
されている異なる状態経路が可能であるとされる。図示
の仮説技は、他の語に続くことの出来る成る語のみを指
定する予めプログラムされた文法又は規則の結果として
生成される。この様な規則を使用することは、この技術
分野では周知されていることであるので、ここでは説明
しない。
例が第3図に示されている。該モデル処理装置により評
価されるとき、処理されつつある現在の話された人力と
色々なプログラムされた文法とを考慮して、技として示
されている異なる状態経路が可能であるとされる。図示
の仮説技は、他の語に続くことの出来る成る語のみを指
定する予めプログラムされた文法又は規則の結果として
生成される。この様な規則を使用することは、この技術
分野では周知されていることであるので、ここでは説明
しない。
第4図は、第3図の文モデルについて作られた状態経路
の例であり、これは陰マルコフ・モデルに基づいている
。HMMは、最上層文モデル以外の、語レベル又は句レ
ベルでの音声認識文法の層に一般的に適用される。また
、2レベルだけ(第3図及び第4図)が示されているけ
れども、本発明のアルゴリズムは、フレームレベルまで
、追加の文法層を包含する様に拡張することの出来るも
のである。また、予めプログラムされた規則は、このレ
ベルにおいて、どの文字が他の文字に続くことが出来る
かも指定する。
の例であり、これは陰マルコフ・モデルに基づいている
。HMMは、最上層文モデル以外の、語レベル又は句レ
ベルでの音声認識文法の層に一般的に適用される。また
、2レベルだけ(第3図及び第4図)が示されているけ
れども、本発明のアルゴリズムは、フレームレベルまで
、追加の文法層を包含する様に拡張することの出来るも
のである。また、予めプログラムされた規則は、このレ
ベルにおいて、どの文字が他の文字に続くことが出来る
かも指定する。
第3図及び第4図の両方を見ると、処理装置は、節60
(第3図)について開始確率を計算するが、これは’s
et Jという語の前に現れる。’set Jという語
が発音されたか否か判定するために、処理装置はこの確
率を第4図のスタート状態節60へ送って解析を開始す
る。処理装置は、文字が発音されたと判定すると、その
文字が発音される確率を、既に存在している開始確率に
加える。各文字が発音されたと判定されてゆくとき、処
理装置は、ストップ状態節40に達するまで確率を加え
続けるが、ここで処理装置は’set Jという語を見
たという全確率を持つこととなる。この時、処理装置は
この確率を第3図の節40に送り戻す。
(第3図)について開始確率を計算するが、これは’s
et Jという語の前に現れる。’set Jという語
が発音されたか否か判定するために、処理装置はこの確
率を第4図のスタート状態節60へ送って解析を開始す
る。処理装置は、文字が発音されたと判定すると、その
文字が発音される確率を、既に存在している開始確率に
加える。各文字が発音されたと判定されてゆくとき、処
理装置は、ストップ状態節40に達するまで確率を加え
続けるが、ここで処理装置は’set Jという語を見
たという全確率を持つこととなる。この時、処理装置は
この確率を第3図の節40に送り戻す。
この点で処理装置は、’set Jという語を多分見た
ということを示し、次の語が何であるか、について二つ
の仮説’altitude」か’value jか、を
生成する。文法の異なる層間での確率スコアの遺り取り
のプロセスは、発音された文全体が認識されるまで進行
する。前述の様に、文法の多数の層があることもあり、
処理装置は確率を下のフレームレベルへ確率を送り、連
続する発音された入力を認識しようと支援する。
ということを示し、次の語が何であるか、について二つ
の仮説’altitude」か’value jか、を
生成する。文法の異なる層間での確率スコアの遺り取り
のプロセスは、発音された文全体が認識されるまで進行
する。前述の様に、文法の多数の層があることもあり、
処理装置は確率を下のフレームレベルへ確率を送り、連
続する発音された入力を認識しようと支援する。
HMMの状態(節とも称する)の確率が計算されである
時には、スコアが付けられたのであると見なされる。ス
コアは、スコアリング・バッファー12と称するメモリ
ーのバッファーのスロットに保存される。第5図は、N
個のスロットを持ったスコアリング・バッファー12を
示す。各スロットは、特定の状態についての経路スコア
と、その先の状態へのバンクポインタと、その他の付随
的情報とを記憶する。従って、スロットは、数個の16
ビツト語の情報を記憶する。例えば、スロット5は、8
個の16ビツト語の情報A −Hを伴って示されている
。この16ビツト語A−Hのうちの一つは該スロットの
現在の時間指標を示す。
時には、スコアが付けられたのであると見なされる。ス
コアは、スコアリング・バッファー12と称するメモリ
ーのバッファーのスロットに保存される。第5図は、N
個のスロットを持ったスコアリング・バッファー12を
示す。各スロットは、特定の状態についての経路スコア
と、その先の状態へのバンクポインタと、その他の付随
的情報とを記憶する。従って、スロットは、数個の16
ビツト語の情報を記憶する。例えば、スロット5は、8
個の16ビツト語の情報A −Hを伴って示されている
。この16ビツト語A−Hのうちの一つは該スロットの
現在の時間指標を示す。
他の語、例えば語Eは、先の状態に関する情報を内蔵す
るスコアリング・バフファー12内のスロットの場所を
示す。語Eに格納される情報は、バックポインタと称す
る。残りの語は、最善の経路確率スコア等の追加の付随
情報を内蔵する。
るスコアリング・バフファー12内のスロットの場所を
示す。語Eに格納される情報は、バックポインタと称す
る。残りの語は、最善の経路確率スコア等の追加の付随
情報を内蔵する。
連続語認識では、各HMMは、全ての人力フレームにつ
いて数回スコアを付けられる。その結果、第3図の最上
層文モデルの複雑さに応じて、スコアリング・バッファ
ー12は、典型的中央処理装置のデータ記憶容量を簡単
に越えて、数百キロバイトを専有することがある。
いて数回スコアを付けられる。その結果、第3図の最上
層文モデルの複雑さに応じて、スコアリング・バッファ
ー12は、典型的中央処理装置のデータ記憶容量を簡単
に越えて、数百キロバイトを専有することがある。
予言された色々な文レベル仮説は、最善の経路確率を持
ち始める仮説が後に競合する仮説により迂回される場合
には、記憶されなければならない。
ち始める仮説が後に競合する仮説により迂回される場合
には、記憶されなければならない。
文の初めの数語の際には、競合する仮説の数は多い。こ
れらの仮説を管理するために、大量の簿記、従ってそれ
に匹敵する量のCPUメモリー、が必要である。本発明
は、以下の記述が示すように、これらのメモリー及びC
PU処理に関する要件を軽減する精確な簡潔化技術を提
供する。
れらの仮説を管理するために、大量の簿記、従ってそれ
に匹敵する量のCPUメモリー、が必要である。本発明
は、以下の記述が示すように、これらのメモリー及びC
PU処理に関する要件を軽減する精確な簡潔化技術を提
供する。
本発明のアルゴリズムは、2レベルの簡潔化を使用する
。成る最善スコア文経路が高い確率を有すると分かった
ならば、最善の文及びその次に良い文の間の差は一般的
には大きく、活きている仮説の数を、その確率スコアに
基づいて削減するこL力咄来る。従って、本発明におい
て具体化される第ルベルのN潔化は、現在の最も確から
しい仮説の確率の分数として確率臨界値を計算すること
を含む。これは次に正規化され、−1に等しくされる。
。成る最善スコア文経路が高い確率を有すると分かった
ならば、最善の文及びその次に良い文の間の差は一般的
には大きく、活きている仮説の数を、その確率スコアに
基づいて削減するこL力咄来る。従って、本発明におい
て具体化される第ルベルのN潔化は、現在の最も確から
しい仮説の確率の分数として確率臨界値を計算すること
を含む。これは次に正規化され、−1に等しくされる。
この臨界値より低い仮説は捨てられる。
例えば、文経路lは最善の経路確率スコアー0.2を有
し、文経路2は確率すスコアー0.5を有し、文経路3
は確率スコアー0.8を有するものとする。最善の確率
は最小の負の値を持っており、−〇、2は−0,5より
良い確率であるので、経路1が勝つ。オペレータが最善
の経路スコアと遮断臨界値との間の最大の差を0.4に
等しくセットすると、臨界遮断値は−0,6となる(−
0,2−0,4=−0,6>。よって、CPUは、経路
1及び2を維持し、経路3を捨てる、即ち、簡潔化する
。
し、文経路2は確率すスコアー0.5を有し、文経路3
は確率スコアー0.8を有するものとする。最善の確率
は最小の負の値を持っており、−〇、2は−0,5より
良い確率であるので、経路1が勝つ。オペレータが最善
の経路スコアと遮断臨界値との間の最大の差を0.4に
等しくセットすると、臨界遮断値は−0,6となる(−
0,2−0,4=−0,6>。よって、CPUは、経路
1及び2を維持し、経路3を捨てる、即ち、簡潔化する
。
所要のスコアリング・バッファーの大きさ(スロットの
個数)と、認識装置の性能に対するN?M化臨界の効果
の例が下記の表1に示されている。
個数)と、認識装置の性能に対するN?M化臨界の効果
の例が下記の表1に示されている。
ここから分かる様に、連続数字認識などの少語党用途で
は、スコアリング・バッファーに2000個のスロット
を割り当てて丈夫な性能を維持出来ることが経験的に分
かっている。しかし、必要なスロットの数は、用途によ
ることに注意しなければならない。
は、スコアリング・バッファーに2000個のスロット
を割り当てて丈夫な性能を維持出来ることが経験的に分
かっている。しかし、必要なスロットの数は、用途によ
ることに注意しなければならない。
l :
とメモ貫
−の
1565076
20 1000 18
30 2000 10
40 3000 10
CPUのローディングを更に軽減するため、本発明は、
第2レベルの簡潔化を行う。この第2レベルは、処理装
置がスコアリング・バッファー内の使用可能なスロット
を速やかに発見するのを支援し、モデル内の状態のバッ
クポインタをそのスタート状態へ飛ばすことを含む。
30 2000 10
40 3000 10
CPUのローディングを更に軽減するため、本発明は、
第2レベルの簡潔化を行う。この第2レベルは、処理装
置がスコアリング・バッファー内の使用可能なスロット
を速やかに発見するのを支援し、モデル内の状態のバッ
クポインタをそのスタート状態へ飛ばすことを含む。
現在の状態を維持するべきであると判定した後、本発明
のアルゴリズムは、スコアリング・バッファー12内の
使用可能なスロットを発見するようにCPUに指令する
。本発明の好適な実施例によると、CPUは、現在の時
間指標を、スコアリング・バッファーの各スロットに随
伴する最後時フィールドの内容と比較することによって
使用可能なスロットを発見する。
のアルゴリズムは、スコアリング・バッファー12内の
使用可能なスロットを発見するようにCPUに指令する
。本発明の好適な実施例によると、CPUは、現在の時
間指標を、スコアリング・バッファーの各スロットに随
伴する最後時フィールドの内容と比較することによって
使用可能なスロットを発見する。
スコアリング・バッファーの各スロットは、二つの時間
フィールド、即ち、スロットが生成された時間指標を内
蔵する生成時フィールドと、この状態が存在する最善の
経路の時間指標を内蔵する最後時フィールドと、を有す
る。最善の経路上の全てのスロットが、それぞれの最後
時フィールドに同じ時間指標値を格納しており、その値
は現在の時間指標に等しい。最終時フィールドに内蔵さ
れている時間指標が現在の時間指標から1を引いた値よ
り小さければ、スロットは開放されていると言われる。
フィールド、即ち、スロットが生成された時間指標を内
蔵する生成時フィールドと、この状態が存在する最善の
経路の時間指標を内蔵する最後時フィールドと、を有す
る。最善の経路上の全てのスロットが、それぞれの最後
時フィールドに同じ時間指標値を格納しており、その値
は現在の時間指標に等しい。最終時フィールドに内蔵さ
れている時間指標が現在の時間指標から1を引いた値よ
り小さければ、スロットは開放されていると言われる。
CPUは、スロットの1語のみを抽出して(読み出し)
でスロットの最後時フィールドの内容を現在の時間指標
と比較することにより、使用可能なスロットを速やかに
発見することが出来る。スロットの時間指標が現在の時
間指標から1を引いた値より小さいことが分かった時、
CPUは使用可能な、即ち、「開放されたjスロットを
発見したものである。その後、CPUは、現在の状態の
、生成時間指標及び最終時フィールド時間指標を含む情
報を、その使用可能なスロットの内容物に重ね書きする
。
でスロットの最後時フィールドの内容を現在の時間指標
と比較することにより、使用可能なスロットを速やかに
発見することが出来る。スロットの時間指標が現在の時
間指標から1を引いた値より小さいことが分かった時、
CPUは使用可能な、即ち、「開放されたjスロットを
発見したものである。その後、CPUは、現在の状態の
、生成時間指標及び最終時フィールド時間指標を含む情
報を、その使用可能なスロットの内容物に重ね書きする
。
最善の経路内のスロットの簡潔化を防止するために、現
在の時間指標を最善の経路中の全てのスロットへ伝播さ
せなければならない。換言すれば、現在の状態の情報が
スロットに格納されていれば、現在の状態のスロットに
到る最善の経路を構成する全てのスロットに沿って現在
の時間指標を逆方向に伝播させなければならない。しか
し、時間指標の後戻り伝播はCPUのローディングを増
大させる。本発明の好適な実施例は、モデル内の状態の
バンクポインタをそのスタート状態へ向けることにより
、このローディングを軽減する。
在の時間指標を最善の経路中の全てのスロットへ伝播さ
せなければならない。換言すれば、現在の状態の情報が
スロットに格納されていれば、現在の状態のスロットに
到る最善の経路を構成する全てのスロットに沿って現在
の時間指標を逆方向に伝播させなければならない。しか
し、時間指標の後戻り伝播はCPUのローディングを増
大させる。本発明の好適な実施例は、モデル内の状態の
バンクポインタをそのスタート状態へ向けることにより
、このローディングを軽減する。
例えば、第3図を再び考察する。処理装置が、’equ
al Jという語を見たと判定すると、現在の状態又は
節50に関する情報を使用可能なスロットに格納した後
、処理装置は、節46、節40及び節60を内蔵するそ
れぞれのスロットへ現在の時間指標を後戻り伝播させる
。第4図の語レベルでは、処理処置は、節40及び節6
0を内蔵するそれぞれのスロットへ現在の時間指標を後
戻り伝播させるだけである。よって、処理装置が’se
t Jという語を多分見ても、’set Jという語を
解析に使用された節は重要ではなくて、スタート状態及
びストップ状態又は節のみが重要である。
al Jという語を見たと判定すると、現在の状態又は
節50に関する情報を使用可能なスロットに格納した後
、処理装置は、節46、節40及び節60を内蔵するそ
れぞれのスロットへ現在の時間指標を後戻り伝播させる
。第4図の語レベルでは、処理処置は、節40及び節6
0を内蔵するそれぞれのスロットへ現在の時間指標を後
戻り伝播させるだけである。よって、処理装置が’se
t Jという語を多分見ても、’set Jという語を
解析に使用された節は重要ではなくて、スタート状態及
びストップ状態又は節のみが重要である。
文の最善の経路が興味あるものであって、語モデル内の
最善の経路は興味あるものではない。モデル内では、C
PUのローディングの大部分が生じるが、最善の経路の
指標を伝播させる必要はなく、後戻り伝播時間を節約す
ることが出来、これにより計算サイクルを著しく短縮す
ることが出来る。また、処理装置は節62.64及び6
6を内蔵するスロットへ現在の時間指標を後戻り伝播さ
せないので、これらのスロットは、現在の時間指標に等
しいそれぞれの最後時フィールドに更新された時間指標
を持たず、従って、それらは、後に処理装置が開放され
たスロットを探す時に処理装置が使用することが出来る
様になり、従ってCPUメモリーと計算サイクル時間が
節約される。
最善の経路は興味あるものではない。モデル内では、C
PUのローディングの大部分が生じるが、最善の経路の
指標を伝播させる必要はなく、後戻り伝播時間を節約す
ることが出来、これにより計算サイクルを著しく短縮す
ることが出来る。また、処理装置は節62.64及び6
6を内蔵するスロットへ現在の時間指標を後戻り伝播さ
せないので、これらのスロットは、現在の時間指標に等
しいそれぞれの最後時フィールドに更新された時間指標
を持たず、従って、それらは、後に処理装置が開放され
たスロットを探す時に処理装置が使用することが出来る
様になり、従ってCPUメモリーと計算サイクル時間が
節約される。
第6図は、上に詳しく記述した本発明の好適な実施例の
フローチャートである。
フローチャートである。
本発明の特別の実施例を図示し説明したが、当業者は色
々な変形及び別の実施例に想到するであろう。従って、
本発明は、特許請求の範囲の欄の記載内容にのみ限定さ
れるものである。
々な変形及び別の実施例に想到するであろう。従って、
本発明は、特許請求の範囲の欄の記載内容にのみ限定さ
れるものである。
以上の記載に関連して、以下の各項を開示する。
(1) 音声L3識時の中央処理装置のローディング
を軽減する方法であって、 a)情報を帯びた現在の状態のスコアを計算し、b)
前記スコアを所定の臨界値と比較し、c)使用可能なス
コアリング・バッファーのスロットの位置を発見し、 d)前記の現在の状態に関する情報を前記の使用可能な
スロット内に格納し、 e) スコアリング・バッファーのスロットのバンクポ
インタをセットし、 f)前記の使用可能なスロット内の最後時フィールド値
を現在の時間指標に等しく指定し、g)前記の現在の時
間指標に等しい時間値を、前記の現在の状態についての
情報を内蔵する前記の使用可能なスロットに続く最善の
経路に沿う全てのスコアリング・バッファーのスロット
へ伝播させ、 h)次の現在の状態を解析し、 i)全ての状態が完成するまでステップa)ないしh)
を反復するステップから成ることを特徴とする方法。
を軽減する方法であって、 a)情報を帯びた現在の状態のスコアを計算し、b)
前記スコアを所定の臨界値と比較し、c)使用可能なス
コアリング・バッファーのスロットの位置を発見し、 d)前記の現在の状態に関する情報を前記の使用可能な
スロット内に格納し、 e) スコアリング・バッファーのスロットのバンクポ
インタをセットし、 f)前記の使用可能なスロット内の最後時フィールド値
を現在の時間指標に等しく指定し、g)前記の現在の時
間指標に等しい時間値を、前記の現在の状態についての
情報を内蔵する前記の使用可能なスロットに続く最善の
経路に沿う全てのスコアリング・バッファーのスロット
へ伝播させ、 h)次の現在の状態を解析し、 i)全ての状態が完成するまでステップa)ないしh)
を反復するステップから成ることを特徴とする方法。
(21(11の中央処理装置のローディングを軽減する
方法であって、使用可能なスロットの位置を発見するた
めの前記ステップC)は、更に、j) スロットの最後
時フィールド値を読み出し、k)前記の使用可能な最後
時フィールドを中央処理装置の現在の時間指標と比較し
、 l)前記現在の時間指標から1を引いて得た値が前記最
後時フィールドより小さければ、該スロットが使用可能
であることを示し、 翔)前記現在の時間指標から1を引いて得た値が前記最
後時フィールドより大きいか又は等しければ、該スロッ
トを除外し、 n) 使用可能なスロットの位置が発見されるまでステ
ップj)ないしm〉を反復するステップから成ることを
特徴とする前記第(11項に記載の方法。
方法であって、使用可能なスロットの位置を発見するた
めの前記ステップC)は、更に、j) スロットの最後
時フィールド値を読み出し、k)前記の使用可能な最後
時フィールドを中央処理装置の現在の時間指標と比較し
、 l)前記現在の時間指標から1を引いて得た値が前記最
後時フィールドより小さければ、該スロットが使用可能
であることを示し、 翔)前記現在の時間指標から1を引いて得た値が前記最
後時フィールドより大きいか又は等しければ、該スロッ
トを除外し、 n) 使用可能なスロットの位置が発見されるまでステ
ップj)ないしm〉を反復するステップから成ることを
特徴とする前記第(11項に記載の方法。
(3)前記スコアを所定の臨界値と比較する前記ステッ
プb)は、更に、 0) 前記スコアが前記所定臨界値より大きいか又は等
しければ、使用可能なスコアリング・バッファーのスロ
ットの位置を発見するステップC)へ続き、 p) 前記スコアが前記所定臨界値より小さければ、前
記状態を捨てて、情報を帯びた現在の状態のスコアを計
算するステップa)に戻るステップから成ることを特徴
とする前記第(11項に記載の中央処理装置のローディ
ングを軽減する方法。
プb)は、更に、 0) 前記スコアが前記所定臨界値より大きいか又は等
しければ、使用可能なスコアリング・バッファーのスロ
ットの位置を発見するステップC)へ続き、 p) 前記スコアが前記所定臨界値より小さければ、前
記状態を捨てて、情報を帯びた現在の状態のスコアを計
算するステップa)に戻るステップから成ることを特徴
とする前記第(11項に記載の中央処理装置のローディ
ングを軽減する方法。
(4)前記音声認識は陰マルコフ・モデル及び統一文法
を包含することを特徴とする前記第(11項に記載の中
央処理装置のローディングを軽減する方法。
を包含することを特徴とする前記第(11項に記載の中
央処理装置のローディングを軽減する方法。
(5)前記音声認識は、文法の階層の使用を包含し、こ
れらの階層のモデルはスタート状態及びストップ状態を
包含し、スコアリング・バッファーのスロットのバンク
ポインタをセットする前記ステップe)は、更に、 q)前記の現在の状態が文法の最上層からのものであれ
ば、直前の現在の状態のスコアリング・バッファーのス
ロットのアドレスを指す様に前記バンクポインタをセッ
トし、 r)若し現在の状態が文法の前記最上層からのものでな
ければ、前記モデルのスタート状態を指す様に前記バッ
クポインタをセットするステップから成ることを特徴と
する前記第(1)項に記載の中央処理装置のローディン
グを軽減する方法。
れらの階層のモデルはスタート状態及びストップ状態を
包含し、スコアリング・バッファーのスロットのバンク
ポインタをセットする前記ステップe)は、更に、 q)前記の現在の状態が文法の最上層からのものであれ
ば、直前の現在の状態のスコアリング・バッファーのス
ロットのアドレスを指す様に前記バンクポインタをセッ
トし、 r)若し現在の状態が文法の前記最上層からのものでな
ければ、前記モデルのスタート状態を指す様に前記バッ
クポインタをセットするステップから成ることを特徴と
する前記第(1)項に記載の中央処理装置のローディン
グを軽減する方法。
(6)前記の現在の時間指標に等しい時間値を、前記の
現在の状態についての情報を内蔵する前記の使用可能な
スロットに続く最善の経路に沿う全てのスコアリング・
バッファーのスロットへ伝播させる前記ステップg)に
おいて、前記の使用可能なスロットに続く最善の経路に
沿う前記の全てのスコアリング・バッファーのスロット
の位置は前記バンクポインタにより示されることを特徴
とする前記第(11項に記載の中央処理装置のローディ
ングを軽減する方法。
現在の状態についての情報を内蔵する前記の使用可能な
スロットに続く最善の経路に沿う全てのスコアリング・
バッファーのスロットへ伝播させる前記ステップg)に
おいて、前記の使用可能なスロットに続く最善の経路に
沿う前記の全てのスコアリング・バッファーのスロット
の位置は前記バンクポインタにより示されることを特徴
とする前記第(11項に記載の中央処理装置のローディ
ングを軽減する方法。
(7)音声認識の効率的M濃化方法であって、S) 現
在の状態のスコアを計算し、 0 前記スコアを所定臨界値と比較し、若し前記スコア
が前記所定臨界値より大きいか又は等しければステップ
U)へ続き、若し前記スコアが前記所定臨界値より小さ
ければ、前記状態を捨ててステップS)に戻り、 U)使用可能なスコアリング・バッファーのスロットの
位置を発見し、 V) 前記の現在の状態に関する情報を前記の使用可能
なスロット内に格納し、 −) スコアリング・バッファーのスロットのバックポ
インタをセットし、 ×) 前記の使用可能なスロット内の最後時フィールド
値を現在の時間指標に等しく指定し、y) 前記の現在
の状態についての情報を内蔵する前記の使用可能なスロ
ットに続く最善の経路に沿う全てのスコアリング・バッ
ファーのスロットへ前記現在の時間指標に等しい時間値
を後戻り伝播させ、ここで前記の全てのスコアリング・
バッファーのスロットの位置は前記バックポインタによ
り示され、 2)次の現在の状態を解析し、 aa)全ての状態が完成するまでステップSないし2)
を反復するステップから成ることを特徴とする音声認識
の効率的簡潔化方法。
在の状態のスコアを計算し、 0 前記スコアを所定臨界値と比較し、若し前記スコア
が前記所定臨界値より大きいか又は等しければステップ
U)へ続き、若し前記スコアが前記所定臨界値より小さ
ければ、前記状態を捨ててステップS)に戻り、 U)使用可能なスコアリング・バッファーのスロットの
位置を発見し、 V) 前記の現在の状態に関する情報を前記の使用可能
なスロット内に格納し、 −) スコアリング・バッファーのスロットのバックポ
インタをセットし、 ×) 前記の使用可能なスロット内の最後時フィールド
値を現在の時間指標に等しく指定し、y) 前記の現在
の状態についての情報を内蔵する前記の使用可能なスロ
ットに続く最善の経路に沿う全てのスコアリング・バッ
ファーのスロットへ前記現在の時間指標に等しい時間値
を後戻り伝播させ、ここで前記の全てのスコアリング・
バッファーのスロットの位置は前記バックポインタによ
り示され、 2)次の現在の状態を解析し、 aa)全ての状態が完成するまでステップSないし2)
を反復するステップから成ることを特徴とする音声認識
の効率的簡潔化方法。
(8) スコアリング・バッファーのスロットのバン
クポインタをセットする前記ステップW)は、文法の階
層の使用を包含し、これらの階層のモデルはスタート状
態及びストップ状態を包含し、該ステップW)は、更に
、 bb)若し前記の現在の状態が文法の最上層からのもの
であれば、直前の現在の状態のスコアリング・バッファ
ーのスロットのアドレスを指す様に前記バックポインタ
をセットし、 cc)若し前記の現在の状態が文法の前記最上層からの
ものでなければ、前記モデルのスタート状態を指す様に
前記バンクポインタをセットするステップから成ること
を特徴とする前記第(7)項に記載の音声認識の効率的
簡潔化方法。
クポインタをセットする前記ステップW)は、文法の階
層の使用を包含し、これらの階層のモデルはスタート状
態及びストップ状態を包含し、該ステップW)は、更に
、 bb)若し前記の現在の状態が文法の最上層からのもの
であれば、直前の現在の状態のスコアリング・バッファ
ーのスロットのアドレスを指す様に前記バックポインタ
をセットし、 cc)若し前記の現在の状態が文法の前記最上層からの
ものでなければ、前記モデルのスタート状態を指す様に
前記バンクポインタをセットするステップから成ること
を特徴とする前記第(7)項に記載の音声認識の効率的
簡潔化方法。
(9)前記音声認識は、陰マルコフ・モデル及び統一文
法を包含することを特徴とする前記第(7)項に記載の
音声認識の効率的簡潔化方法。
法を包含することを特徴とする前記第(7)項に記載の
音声認識の効率的簡潔化方法。
0ω 改良された音声認識方法であって、前記音声認識
は、文法の階層を使用し、文法のこれらの階層のモデル
はスタート状態及びストップ状態を採用し、この方法は
、 dd)現在の状態のスコアを計算し、 ee)前記スコアを所定臨界値と比較し、若し前記スコ
アが前記所定臨界値より大きいか又は等しければステッ
プff)へ続き、若し前記スコアが前記所定臨界値より
小さければ、前記状態をI舎ててステップdd)へ戻り
、 rr) 使用可能なスコアリング・バフファーのスロッ
トの位置を発見し、 gg)前記の現在の状態に関する情報を前記の使用可能
なスロットに格納し、 hh)若し前記の現在の状態が文法の最上層からのもの
であれば直前の現在の状態のスコアリング・バッファー
のスロットのアドレスを指す様にスコアリング・バッフ
ァーのスロットのバックポインタをセットし、 it)若し前記現在の状態が前記文法の前記最上層から
のものでなければ、前記モデルのスタート状態を指すよ
うにスコアリング・バッファーのスロットのバックポイ
ンタをセットし、jj)前記の使用可能なスロット内の
最終時フィールド値を現在の時間指標に等しく指定し、
kk)前記の現在の状態についての情報を内蔵する前記
の使用可能なスロットに続く最善の経路に沿う全てのス
コアリング・バッファーのスロットへ前記現在の時間指
標に等しい時間値を後戻り伝播させ、ここで前記の全て
のスコアリング・バッファーのスロットの位置は前記バ
ックポインタにより示され、 11)次の現在の状態を解析し、 mm)全ての状態が完成するまでスソテプddないし1
1)を反復するステップから戒ることを特徴とする方法
。
は、文法の階層を使用し、文法のこれらの階層のモデル
はスタート状態及びストップ状態を採用し、この方法は
、 dd)現在の状態のスコアを計算し、 ee)前記スコアを所定臨界値と比較し、若し前記スコ
アが前記所定臨界値より大きいか又は等しければステッ
プff)へ続き、若し前記スコアが前記所定臨界値より
小さければ、前記状態をI舎ててステップdd)へ戻り
、 rr) 使用可能なスコアリング・バフファーのスロッ
トの位置を発見し、 gg)前記の現在の状態に関する情報を前記の使用可能
なスロットに格納し、 hh)若し前記の現在の状態が文法の最上層からのもの
であれば直前の現在の状態のスコアリング・バッファー
のスロットのアドレスを指す様にスコアリング・バッフ
ァーのスロットのバックポインタをセットし、 it)若し前記現在の状態が前記文法の前記最上層から
のものでなければ、前記モデルのスタート状態を指すよ
うにスコアリング・バッファーのスロットのバックポイ
ンタをセットし、jj)前記の使用可能なスロット内の
最終時フィールド値を現在の時間指標に等しく指定し、
kk)前記の現在の状態についての情報を内蔵する前記
の使用可能なスロットに続く最善の経路に沿う全てのス
コアリング・バッファーのスロットへ前記現在の時間指
標に等しい時間値を後戻り伝播させ、ここで前記の全て
のスコアリング・バッファーのスロットの位置は前記バ
ックポインタにより示され、 11)次の現在の状態を解析し、 mm)全ての状態が完成するまでスソテプddないし1
1)を反復するステップから戒ることを特徴とする方法
。
01)前記音声認識は、陰マルコフ・モデル及び統一文
法を包含することを特徴とする前記第00)項に記載の
改良された音声認識方法。
法を包含することを特徴とする前記第00)項に記載の
改良された音声認識方法。
0′IJ 実時間音声認識時の中央処理装置のローデ
ィングを軽減する効率的簡潔化方法。CPUは、役に立
たない又は不要な情報を捨てるために所定の臨界値を使
用する。有用な情報は、使用可能なスコアリング・バッ
ファーのスロットに格納される。
ィングを軽減する効率的簡潔化方法。CPUは、役に立
たない又は不要な情報を捨てるために所定の臨界値を使
用する。有用な情報は、使用可能なスコアリング・バッ
ファーのスロットに格納される。
スロットは、若しその最後時フィールドが現在の時間指
標に等しくなければ、使用可能であるとされる。最善の
経路中のスロットの簡潔化を防止するために、現在の時
間指標を最善の経路中の全てのスロットに伝播させなけ
ればならない。この後戻り伝播は、CPU0ローデイン
グを増大させるが、モデル内の状態のバックポインタを
そのスタート状態を指す様に調整することにより軽減さ
れる。
標に等しくなければ、使用可能であるとされる。最善の
経路中のスロットの簡潔化を防止するために、現在の時
間指標を最善の経路中の全てのスロットに伝播させなけ
ればならない。この後戻り伝播は、CPU0ローデイン
グを増大させるが、モデル内の状態のバックポインタを
そのスタート状態を指す様に調整することにより軽減さ
れる。
第1図は、音声認識の階層文法方式のブロック図である
。 第2図は、左右型・陰マルコフ・モデルの典型的フロー
チャート表示である。 第3図は、典型的文モデルに基づく最上層状態経路のフ
ローチャート例である。 第4図は、陰マルコフ・モデルに基づく第3図の文モデ
ルについて生成された状態経路のフローチャート例表示
である。 第5図は、本発明を使用することの出来るスコアリング
・バッファーのブロック図である。 第6図は、本発明の好適な実施例のフローチャートであ
る。 5・・・スロット、12・・・スコアリング・バッファ
ー手 続 補 正 書 (方式) 、3.補正をする者 事件との関係 出 願人 4、代 理 人 5、補正命令の日付 平FJi、2年7月31日
。 第2図は、左右型・陰マルコフ・モデルの典型的フロー
チャート表示である。 第3図は、典型的文モデルに基づく最上層状態経路のフ
ローチャート例である。 第4図は、陰マルコフ・モデルに基づく第3図の文モデ
ルについて生成された状態経路のフローチャート例表示
である。 第5図は、本発明を使用することの出来るスコアリング
・バッファーのブロック図である。 第6図は、本発明の好適な実施例のフローチャートであ
る。 5・・・スロット、12・・・スコアリング・バッファ
ー手 続 補 正 書 (方式) 、3.補正をする者 事件との関係 出 願人 4、代 理 人 5、補正命令の日付 平FJi、2年7月31日
Claims (1)
- 【特許請求の範囲】 音声認識時の中央処理装置の負担を軽減する方法であっ
て、 a)情報を帯びた現在の状態のスコアを計算し、 b)前記スコアを所定の臨界値と比較し、 c)使用可能なスコアリング・バッファーのスロットの
位置を発見し、 d)前記の現在の状態に関する情報を前記の使用可能な
スロット内に格納し、 e)スコアリング・バッファーのスロットのバックポイ
ンタをセットし、 f)前記の使用可能なスロット内の最終時フィールド値
を現在の時間指標に等しく指定し、 g)前記の現在の時間指標に等しい時間値を、前記の現
在の状態についての情報を内蔵する前記の使用可能なス
ロットに続く最善の経路に沿う全てのスコアリング・バ
ッファーのスロットへ伝播させ、 h)次の現在の状態を解析し、 i)全ての状態が完成するまでステップa)ないしh)
を反復するステップから成ることを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/337,608 US4977598A (en) | 1989-04-13 | 1989-04-13 | Efficient pruning algorithm for hidden markov model speech recognition |
US337608 | 1994-11-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0362000A true JPH0362000A (ja) | 1991-03-18 |
Family
ID=23321239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2097429A Pending JPH0362000A (ja) | 1989-04-13 | 1990-04-12 | 陰マルコフモデル音声認識の効率的簡潔化アルゴリズム |
Country Status (4)
Country | Link |
---|---|
US (1) | US4977598A (ja) |
EP (1) | EP0392728B1 (ja) |
JP (1) | JPH0362000A (ja) |
DE (1) | DE69028430T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693189A (zh) * | 2022-05-31 | 2022-07-01 | 南京信息工程大学 | 板体翻堆落位方法、系统、存储介质及计算设备 |
Families Citing this family (197)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274739A (en) * | 1990-05-22 | 1993-12-28 | Rockwell International Corporation | Product code memory Itakura-Saito (MIS) measure for sound recognition |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
DE4130633A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
JPH0776878B2 (ja) * | 1991-10-31 | 1995-08-16 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識方法および装置 |
US5544257A (en) * | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
US5452397A (en) * | 1992-12-11 | 1995-09-19 | Texas Instruments Incorporated | Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list |
JP2775140B2 (ja) * | 1994-03-18 | 1998-07-16 | 株式会社エイ・ティ・アール人間情報通信研究所 | パターン認識方法、音声認識方法および音声認識装置 |
US5819221A (en) * | 1994-08-31 | 1998-10-06 | Texas Instruments Incorporated | Speech recognition using clustered between word and/or phrase coarticulation |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
GB9602700D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Pattern matching method and apparatus |
JP3061114B2 (ja) * | 1996-11-25 | 2000-07-10 | 日本電気株式会社 | 音声認識装置 |
GB9723214D0 (en) * | 1997-11-03 | 1998-01-07 | British Telecomm | Pattern recognition |
GB9802836D0 (en) * | 1998-02-10 | 1998-04-08 | Canon Kk | Pattern matching method and apparatus |
GB9802838D0 (en) | 1998-02-10 | 1998-04-08 | Canon Kk | Pattern matching method and apparatus |
US6374222B1 (en) * | 1998-08-12 | 2002-04-16 | Texas Instruments Incorporated | Method of memory management in speech recognition |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6788243B2 (en) | 2001-09-06 | 2004-09-07 | Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence | Hidden Markov modeling for radar electronic warfare |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US7089185B2 (en) * | 2002-06-27 | 2006-08-08 | Intel Corporation | Embedded multi-layer coupled hidden Markov model |
US20040158468A1 (en) * | 2003-02-12 | 2004-08-12 | Aurilab, Llc | Speech recognition with soft pruning |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
DE602005007939D1 (de) * | 2005-02-17 | 2008-08-14 | Loquendo Societa Per Azioni | Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb ekennungssystems liegen |
JP4298672B2 (ja) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
US7634407B2 (en) * | 2005-05-20 | 2009-12-15 | Microsoft Corporation | Method and apparatus for indexing speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7809568B2 (en) * | 2005-11-08 | 2010-10-05 | Microsoft Corporation | Indexing and searching speech with text meta-data |
US7831428B2 (en) * | 2005-11-09 | 2010-11-09 | Microsoft Corporation | Speech index pruning |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7831425B2 (en) * | 2005-12-15 | 2010-11-09 | Microsoft Corporation | Time-anchored posterior indexing of speech |
US8010358B2 (en) | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8442833B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012154856A1 (en) | 2011-05-09 | 2012-11-15 | Google Inc. | Identifying applications of interest based on application metadata |
WO2012154838A2 (en) * | 2011-05-09 | 2012-11-15 | Google Inc. | Generating application recommendations based on user installed applications |
WO2012154848A1 (en) | 2011-05-09 | 2012-11-15 | Google Inc. | Recommending applications for mobile devices based on installation histories |
WO2012154843A1 (en) | 2011-05-09 | 2012-11-15 | Google Inc. | Identifying applications of interest based on application market log data |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9817881B2 (en) * | 2013-10-16 | 2017-11-14 | Cypress Semiconductor Corporation | Hidden markov model processing engine |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9189708B2 (en) * | 2013-12-31 | 2015-11-17 | Google Inc. | Pruning and label selection in hidden markov model-based OCR |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9787871B2 (en) | 2015-01-29 | 2017-10-10 | Xerox Corporation | Hidden Markov model generation of multi-plane random screens |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10026396B2 (en) | 2015-07-28 | 2018-07-17 | Google Llc | Frequency warping in a speech recognition system |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN105607753B (zh) * | 2015-12-15 | 2018-03-30 | 上海嵩恒网络科技有限公司 | 一种五笔的长句输入方法和长句输入系统 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860653A (en) * | 1985-06-28 | 1989-08-29 | D. J. Moorhouse | Detonator actuator |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
GB8527913D0 (en) * | 1985-11-12 | 1985-12-18 | Pa Consulting Services | Analysing transitions in finite state machines |
DE3750199T2 (de) * | 1986-06-02 | 1995-01-19 | Motorola Inc | System zur Erkennung kontinuierlicher Sprache. |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
-
1989
- 1989-04-13 US US07/337,608 patent/US4977598A/en not_active Expired - Lifetime
-
1990
- 1990-04-04 EP EP90303586A patent/EP0392728B1/en not_active Expired - Lifetime
- 1990-04-04 DE DE69028430T patent/DE69028430T2/de not_active Expired - Fee Related
- 1990-04-12 JP JP2097429A patent/JPH0362000A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693189A (zh) * | 2022-05-31 | 2022-07-01 | 南京信息工程大学 | 板体翻堆落位方法、系统、存储介质及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
EP0392728A3 (en) | 1990-12-27 |
EP0392728A2 (en) | 1990-10-17 |
US4977598A (en) | 1990-12-11 |
DE69028430D1 (de) | 1996-10-17 |
EP0392728B1 (en) | 1996-09-11 |
DE69028430T2 (de) | 1997-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0362000A (ja) | 陰マルコフモデル音声認識の効率的簡潔化アルゴリズム | |
US6266634B1 (en) | Method and apparatus for generating deterministic approximate weighted finite-state automata | |
Rastogi et al. | Weighting finite-state transductions with neural context | |
Bahl et al. | A tree-based statistical language model for natural language speech recognition | |
US6704710B2 (en) | Assigning meanings to utterances in a speech recognition system | |
US20130060562A1 (en) | Information processing appratus, natural language analysis method, program and recording medium | |
US7035802B1 (en) | Recognition system using lexical trees | |
WO2005103951A1 (en) | Tree index based method for accessing automatic directory | |
CN115497465B (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
Hori et al. | Statistical dialog management applied to WFST-based dialog systems | |
WO2002029615A1 (en) | Search method based on single triphone tree for large vocabulary continuous speech recognizer | |
JPH08248980A (ja) | 音声認識装置 | |
JP3016779B1 (ja) | 音声理解装置及び音声理解システム | |
Lucassen | Discovering phonemic base forms automatically: an information theoretic approach | |
JP3162896B2 (ja) | 話題構造認識方法および装置 | |
Pieraccini et al. | Implementation aspects of large vocabulary recognition based on intraword and interword phonetic units | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
JP3494338B2 (ja) | 音声認識方法 | |
McKeown | Word verification in the Hearsay II speech understanding system | |
Picone et al. | Automated speech understanding: the next generation | |
JPH10187185A (ja) | 言語処理装置および方法 | |
Yamamoto et al. | A spoken dialog system with verification and clarification queries | |
Huijbregts et al. | Fast N-Gram language model look-ahead for decoders with static pronunciation prefix trees | |
Hemphill et al. | Chart parsing of stochastic spoken language models |