JPH01265297A - マルコフ・モデル単語ベースフオーム構築方法 - Google Patents
マルコフ・モデル単語ベースフオーム構築方法Info
- Publication number
- JPH01265297A JPH01265297A JP63316619A JP31661988A JPH01265297A JP H01265297 A JPH01265297 A JP H01265297A JP 63316619 A JP63316619 A JP 63316619A JP 31661988 A JP31661988 A JP 31661988A JP H01265297 A JPH01265297 A JP H01265297A
- Authority
- JP
- Japan
- Prior art keywords
- label
- string
- strings
- word
- markov model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 abstract description 19
- 230000007704 transition Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 240000005343 Azadirachta indica Species 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 235000013500 Melia azadirachta Nutrition 0.000 description 1
- 241001441724 Tetraodontidae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000027455 binding Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 235000011915 haggis Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A、産業上の利用分野
この発明はマルコフ・モデルのシーケンスから構成され
る単語ベースフォームとして、諸量単語の各々がコンピ
ュータ・メモリ中で表わされ記憶されている音声認識に
関する。
る単語ベースフォームとして、諸量単語の各々がコンピ
ュータ・メモリ中で表わされ記憶されている音声認識に
関する。
B、従来技術
音声認識用にマルコフ・モデルを用いることが提案され
ている。マルコフ・モデル音声認識における基本処理は
、諸量単語の各々をマルコフ・モデルの対応するシーケ
ンスとして表わすことである。
ている。マルコフ・モデル音声認識における基本処理は
、諸量単語の各々をマルコフ・モデルの対応するシーケ
ンスとして表わすことである。
従来各マルコフ・モデルは通常、フォニームすなわち産
学的要素を表わしていた。音声学者(人間)が、経験や
感覚に基づいて各諸量単語を音声学的要素の対応するシ
ーケンスとして定義する。
学的要素を表わしていた。音声学者(人間)が、経験や
感覚に基づいて各諸量単語を音声学的要素の対応するシ
ーケンスとして定義する。
音声学的要素のシーケンスに関連するマルコフ・モデル
を連結して音声学的単語ペース・フオームを形成する。
を連結して音声学的単語ペース・フオームを形成する。
第1図において、音声学的単語ベースフォーム100は
単語“THE”用のもので、3つの音声学的マルコフ・
モデルからなるシーケンスを含む。第1のものは音声学
的要素DHを示すもので、第2のものは音声学的要素U
HIを表わすもので、第3のものは音声学的要素XXを
表わすものである。国際音声学アルファベットは標準的
な音声学的要素をリストしている。
単語“THE”用のもので、3つの音声学的マルコフ・
モデルからなるシーケンスを含む。第1のものは音声学
的要素DHを示すもので、第2のものは音声学的要素U
HIを表わすもので、第3のものは音声学的要素XXを
表わすものである。国際音声学アルファベットは標準的
な音声学的要素をリストしている。
図においては3個の音声学的マルコフ・モデルの各々は
初期状態、最終状態およびその間の複数の状態を有し、
また状態から状態へのびるアークを有している。学習段
階で、各アークについて確率が決定され、また非空アー
ク(実線で表わされている)につきラベル出力確率が決
定される。ラベル出力確率は所与のアークが採用された
ときに1のラベルを生成するゆう度に対応する。初期の
マルコフ・モデル音声認識システムでは、たとえば米国
特許出匿第845155号のシステムでは、諸量単語の
各々は第1図に示すような音声学的マルコフ・モデルの
シーケンスとして表わされていた。認識時には、音声発
声に応じて音響プロセッサがラベルのストリングを生成
する。ラベル・ストリングが各単語の音声学的マルコフ
・モデルのシーケンスに沿って採用する種々のパスとア
ークを採用する確率およびそのアークでラベルを生成す
る確率とに基づいて、各単語のマルコフ・モデル・シー
ケンスがそのラベル・ストリングを生成するゆう度が決
定される。
初期状態、最終状態およびその間の複数の状態を有し、
また状態から状態へのびるアークを有している。学習段
階で、各アークについて確率が決定され、また非空アー
ク(実線で表わされている)につきラベル出力確率が決
定される。ラベル出力確率は所与のアークが採用された
ときに1のラベルを生成するゆう度に対応する。初期の
マルコフ・モデル音声認識システムでは、たとえば米国
特許出匿第845155号のシステムでは、諸量単語の
各々は第1図に示すような音声学的マルコフ・モデルの
シーケンスとして表わされていた。認識時には、音声発
声に応じて音響プロセッサがラベルのストリングを生成
する。ラベル・ストリングが各単語の音声学的マルコフ
・モデルのシーケンスに沿って採用する種々のパスとア
ークを採用する確率およびそのアークでラベルを生成す
る確率とに基づいて、各単語のマルコフ・モデル・シー
ケンスがそのラベル・ストリングを生成するゆう度が決
定される。
音声学的マルコフ・モデルには種々の問題がある。第1
に、各単語の音声学的マルコフ・モデル・シーケンスは
音声学者の経験や感覚に大きく左右されてしまう。異な
る音声学者の間では、所与の単語に関連するマルコフ・
モデル・シーケンスが異なってしまう。第2に、音声学
的要素に関連するマルコフ・モデルは比較的複雑である
。音声学的マルコフ・モデルに基づく音声認識には膨大
な計算量が必要となる。第3に、音声学的マルコフ・モ
デルのみに基づいて1発声単語を認識する際の精度は最
適でないことである。
に、各単語の音声学的マルコフ・モデル・シーケンスは
音声学者の経験や感覚に大きく左右されてしまう。異な
る音声学者の間では、所与の単語に関連するマルコフ・
モデル・シーケンスが異なってしまう。第2に、音声学
的要素に関連するマルコフ・モデルは比較的複雑である
。音声学的マルコフ・モデルに基づく音声認識には膨大
な計算量が必要となる。第3に、音声学的マルコフ・モ
デルのみに基づいて1発声単語を認識する際の精度は最
適でないことである。
上述の問題を部分的に解消するには、すべての単語につ
いて近似音響マツチングを行って候補単語の小さなリス
トを生成することである。候補単語の各々についてはそ
ののち詳細な音響マツチングを行う。詳細に検討すべき
単語の数を減少させることにより、計算量を少なくする
ことができる。
いて近似音響マツチングを行って候補単語の小さなリス
トを生成することである。候補単語の各々についてはそ
ののち詳細な音響マツチングを行う。詳細に検討すべき
単語の数を減少させることにより、計算量を少なくする
ことができる。
これについては上述の米国特許出願845155号で検
討した。
討した。
精度を向上させ、音声学的手法による問題点を解消する
ため、異なる型のマルコフ・モデルに基づく音声認識が
提案されている。この異なる型のマルコフ・モデルを説
明するために、マルコフ・モデル音声認識システムが典
型的に音響波形(音声入力)をラベル・ストリングに変
換する音響プロセッサを有するとする。ストリング中の
ラベルはラベル・アルファベットから選択される。この
場合、各ラベルは全音声を定義するr次元空間中で定義
されるベクトルのクラスタに対応する。各時間間隔にお
いて、音響プロセッサはr個(20のオーダ)の音声の
特徴を検査する(たとえば20個の周波数バンドにエネ
ルギの大きさ)。r個の特徴の値に基づいて、r個の要
素からなる「特徴ベクトル」が定義される。そして複数
のクラスタ(たとえば200個のクラスタ)のどれに特
徴ベクトルが属するかが決定される。各時間間隔ごとに
音響プロセッサが特徴ベクトルを生成し、この特徴ベク
トルがどのクラスタに属するかの決定がなされ、そのク
ラスタのラベルが当該時間間隔に関連付けられる。音響
プロセッサは出力としてラベル・ストリングを生成する
。
ため、異なる型のマルコフ・モデルに基づく音声認識が
提案されている。この異なる型のマルコフ・モデルを説
明するために、マルコフ・モデル音声認識システムが典
型的に音響波形(音声入力)をラベル・ストリングに変
換する音響プロセッサを有するとする。ストリング中の
ラベルはラベル・アルファベットから選択される。この
場合、各ラベルは全音声を定義するr次元空間中で定義
されるベクトルのクラスタに対応する。各時間間隔にお
いて、音響プロセッサはr個(20のオーダ)の音声の
特徴を検査する(たとえば20個の周波数バンドにエネ
ルギの大きさ)。r個の特徴の値に基づいて、r個の要
素からなる「特徴ベクトル」が定義される。そして複数
のクラスタ(たとえば200個のクラスタ)のどれに特
徴ベクトルが属するかが決定される。各時間間隔ごとに
音響プロセッサが特徴ベクトルを生成し、この特徴ベク
トルがどのクラスタに属するかの決定がなされ、そのク
ラスタのラベルが当該時間間隔に関連付けられる。音響
プロセッサは出力としてラベル・ストリングを生成する
。
上述の異なる型のマルコフ・モデルは音声学的要素より
もラベルに関係している。すなわち、各ラベルごとにマ
ルコフ・モデルが存在する。用語rフィーニームJ
(feneme)が「ラベルに関係しているJ (l
abel−related)ことを示唆するとすれば、
各ラベルに対応するフィーニーム・マルコフ・モデルが
存在する。
もラベルに関係している。すなわち、各ラベルごとにマ
ルコフ・モデルが存在する。用語rフィーニームJ
(feneme)が「ラベルに関係しているJ (l
abel−related)ことを示唆するとすれば、
各ラベルに対応するフィーニーム・マルコフ・モデルが
存在する。
フィーニーム・マルコフ・モデルに基づく音声認識にお
いては、各単語はフィーニーム・マルコフ・モデルのシ
ーケンスにより表わされた単語ベースフォームの形をし
ている。音声の発声に応じて音響プロセッサによって生
成されたラベル・ストリングに対して、各単語のフィー
ニーム・マルコフ”モデル°シーケンスがマツチングさ
せられ単語のゆう度が決定される。
いては、各単語はフィーニーム・マルコフ・モデルのシ
ーケンスにより表わされた単語ベースフォームの形をし
ている。音声の発声に応じて音響プロセッサによって生
成されたラベル・ストリングに対して、各単語のフィー
ニーム・マルコフ”モデル°シーケンスがマツチングさ
せられ単語のゆう度が決定される。
ラベルは音声学的要素のように容易に識別できるもので
はないから、フィーニーム・マルコフ・モデルからなる
単語ベースフォームを人間が行うのは至雅の業である。
はないから、フィーニーム・マルコフ・モデルからなる
単語ベースフォームを人間が行うのは至雅の業である。
フィーニーム単語ベースフォームは人間でなくコンピュ
ータが構築できる。
ータが構築できる。
単純なアプローチは、話者が各単語につき一度ずつ発声
を行って音響プロセッサかラベル・ストリングを生成す
るようにするものである。所定の単語のストリング中の
継続したラベルについて、対応するフィーニーム・マル
コフ・モデルが一列に連結させてその単語のフィーニー
ム・マルコフ・モデル・ベースフォームが生成される。
を行って音響プロセッサかラベル・ストリングを生成す
るようにするものである。所定の単語のストリング中の
継続したラベルについて、対応するフィーニーム・マル
コフ・モデルが一列に連結させてその単語のフィーニー
ム・マルコフ・モデル・ベースフォームが生成される。
したがってラベルLL−L5−LIO・・・L50が発
声されたのであれば、フィーニーム・マルコフ・モデル
F工FsF□。・・・F、がフィーニーム・マルコフ・
モデル単語ベースフォームを形成する。この型のベース
フォームを単一型(シングルトン)ベースフォームと呼
ぶ、単一型ベースフォームはさほど正確なものではない
、なぜなら単一型ベースフォームは対象単語の単一の発
声にしか基づいていないからである。単語の発声がうま
くいかなかったり、種々の発音が可能な単語の場合には
、単一型ベースフォームは満足のゆくものではない。
声されたのであれば、フィーニーム・マルコフ・モデル
F工FsF□。・・・F、がフィーニーム・マルコフ・
モデル単語ベースフォームを形成する。この型のベース
フォームを単一型(シングルトン)ベースフォームと呼
ぶ、単一型ベースフォームはさほど正確なものではない
、なぜなら単一型ベースフォームは対象単語の単一の発
声にしか基づいていないからである。単語の発声がうま
くいかなかったり、種々の発音が可能な単語の場合には
、単一型ベースフォームは満足のゆくものではない。
単一型ベースフォームを改良するのに、対象単語ごとの
複数の発声に基づいて単語ベースフオームを構築するこ
とが提案された。そのような装置および方法は上述の米
国特許出願に記載されている。そこでは、多重な発声に
基づくことから単語ベースフォームはより正確であり、
また人間の介在なしに自動的に構築できる。
複数の発声に基づいて単語ベースフオームを構築するこ
とが提案された。そのような装置および方法は上述の米
国特許出願に記載されている。そこでは、多重な発声に
基づくことから単語ベースフォームはより正確であり、
また人間の介在なしに自動的に構築できる。
C0発明が解決しようとする問題点
この発明は複数の発声から単語ベースフオームを構築す
る方法をより改善し、高精度を実現する単語ベースフォ
ームを実現できるようにすることを目的としている。
る方法をより改善し、高精度を実現する単語ベースフォ
ームを実現できるようにすることを目的としている。
D1問題点を解決するための手段 □この発明
では、対象単語の複数の発声を音響プロセッサで処理し
、複数のラベル・ストリングを生成する。このストリン
グの1つがプロトタイプ・ストリングとして選択される
(好ましくはストリング長に基づいて)。好ましくはフ
ィーニーム・マルコフ・モデルの単一型(シングルトン
)ベースフォームがプロトタイプ・ストリングから生成
される。この単一型ベースフォームは対象単語に対する
プロトタイプ・ストリング以外の複数のストリングに整
列させられ、各ストリングは継続したサブ・ストリング
に分割される(各サブ・ ストリングはゼロまたは1以
外のラベルからなる)。
では、対象単語の複数の発声を音響プロセッサで処理し
、複数のラベル・ストリングを生成する。このストリン
グの1つがプロトタイプ・ストリングとして選択される
(好ましくはストリング長に基づいて)。好ましくはフ
ィーニーム・マルコフ・モデルの単一型(シングルトン
)ベースフォームがプロトタイプ・ストリングから生成
される。この単一型ベースフォームは対象単語に対する
プロトタイプ・ストリング以外の複数のストリングに整
列させられ、各ストリングは継続したサブ・ストリング
に分割される(各サブ・ ストリングはゼロまたは1以
外のラベルからなる)。
継続したサブ・ストリングの各々は単一型ベースフォー
ム中の継続したモデルの1つに対応する。
ム中の継続したモデルの1つに対応する。
複数のストリングの各々について、単一型ベースフォー
ム中の1つのフィーニーム・マルコフ・モデルに整列す
るサブ・ストリングが存在する。所定の1つのフィーニ
ーム・マルコフ・モデルに整列されられたサブ・ストリ
ングはグルーピングされる。1つのグループ内のサブ・
ストリングは一緒に検査され、1つのフィーニーム・マ
ルコフ・モデルまたは一連のフィーニーム・マルコフ・
モデルのいずれが最も高い結合確率でそのグループ内の
サブ・ストリングを生成するかが決定される。
ム中の1つのフィーニーム・マルコフ・モデルに整列す
るサブ・ストリングが存在する。所定の1つのフィーニ
ーム・マルコフ・モデルに整列されられたサブ・ストリ
ングはグルーピングされる。1つのグループ内のサブ・
ストリングは一緒に検査され、1つのフィーニーム・マ
ルコフ・モデルまたは一連のフィーニーム・マルコフ・
モデルのいずれが最も高い結合確率でそのグループ内の
サブ・ストリングを生成するかが決定される。
その1つまたは一連のフィーニーム・マルコフ・モデル
はそのグループに割り当てられ、それにより単語セグメ
ントが表わされる。
はそのグループに割り当てられ、それにより単語セグメ
ントが表わされる。
継続する単語セグメント用の1個または一連のフィーニ
ーム・マルコフ・モデルは連結されて単語ベースフォー
ムを生成する。この処理は語彙中の単語に順次繰り返さ
れる。処理は自動的に行われる。
ーム・マルコフ・モデルは連結されて単語ベースフォー
ムを生成する。この処理は語彙中の単語に順次繰り返さ
れる。処理は自動的に行われる。
E、実施例
第2図は単語を対応するマルコフ・モデルのシーケンス
として表わすシステム200を示す。
として表わすシステム200を示す。
第2図において、音響プロセッサ202は発声音声入力
に応じてラベルのストリングを生成する。
に応じてラベルのストリングを生成する。
具体的には、音響プロセッサ202は複数の特定された
音声特徴について大きさを測定、すなわち計算する。各
特徴はベクトル要素を表わす、ベクトル(特徴ベクトル
とされる)は20個の要素を持つ。継続する時間間隔に
ついて、音響プロセッサ202は継続する特徴ベクトル
を生成する。音響プロセッサ202にはプロトタイプ・
ベクトルのアルファベット(集合)が記憶されている。
音声特徴について大きさを測定、すなわち計算する。各
特徴はベクトル要素を表わす、ベクトル(特徴ベクトル
とされる)は20個の要素を持つ。継続する時間間隔に
ついて、音響プロセッサ202は継続する特徴ベクトル
を生成する。音響プロセッサ202にはプロトタイプ・
ベクトルのアルファベット(集合)が記憶されている。
アルファベットは通常200個のプロトタイプ・ベクト
ルを含んでいる。各プロトタイプ・ベクトルは特徴ベク
トルの個別のクラスタを表わす。生成された各特徴ベク
トルには単一のクラスタが割り当てられ、単一のプロト
タイプ・ベクトルによって表わされる。プロトタイプ・
ベクトルはLl、L2、L3・・・L200のようなラ
ベルまたは何らか他の識別子で特定される。用語「フィ
ーニーム」は用語「ラベル」と同一意味で用いられる。
ルを含んでいる。各プロトタイプ・ベクトルは特徴ベク
トルの個別のクラスタを表わす。生成された各特徴ベク
トルには単一のクラスタが割り当てられ、単一のプロト
タイプ・ベクトルによって表わされる。プロトタイプ・
ベクトルはLl、L2、L3・・・L200のようなラ
ベルまたは何らか他の識別子で特定される。用語「フィ
ーニーム」は用語「ラベル」と同一意味で用いられる。
用語「フィーニーム」は「ラベルに関連する」ことを意
味する。
味する。
この発明によれば、1つの単語について複数の発声が音
響プロセッサ202に入力される。各発声について、対
応するラベル・ストリングが存在し、コンピュータ・メ
モリ中に記憶される。この点を第3図に示す。第1の単
語WORDIに関して、第1の発声から対応するラベル
・ストリグし10− L 20− L 20− L 3
0− L 32−L 185が生成される。各ラベルは
時間間隔に対応し、時間間隔は好ましくは100分の1
秒である。したがって各ストリングは通常60から10
0個のラベルを含む。単語WORDIの第2の発声から
はラベル・ストリングL 10−L 10−L 10−
L 20− L 35− L 200 ・L Lが生成
される。
響プロセッサ202に入力される。各発声について、対
応するラベル・ストリングが存在し、コンピュータ・メ
モリ中に記憶される。この点を第3図に示す。第1の単
語WORDIに関して、第1の発声から対応するラベル
・ストリグし10− L 20− L 20− L 3
0− L 32−L 185が生成される。各ラベルは
時間間隔に対応し、時間間隔は好ましくは100分の1
秒である。したがって各ストリングは通常60から10
0個のラベルを含む。単語WORDIの第2の発声から
はラベル・ストリングL 10−L 10−L 10−
L 20− L 35− L 200 ・L Lが生成
される。
単語WORDIの第n番目の発声からはラベル・ストリ
ングL20−L30−L32−L31−L32・・・L
loが生成される。繰り返し単語WORD1を発声し、
異なるn□個のラベル・ストリングが生成される。これ
らラベル・ストリングは相互に異なる。同一の時間間隔
において測定された特徴は発声速度、発声、単語の文脈
、雑音、その他の要素の相違に応じて各発声ごとに異な
る。音響プロセッサ202は語紮中の膨大な数の単語の
各々について複数のストリングを生成するプロセスを繰
り返す、第3図はこの点を示している。第3図では最終
単語WORDWのn−目の発声で終わることを示してい
る。
ングL20−L30−L32−L31−L32・・・L
loが生成される。繰り返し単語WORD1を発声し、
異なるn□個のラベル・ストリングが生成される。これ
らラベル・ストリングは相互に異なる。同一の時間間隔
において測定された特徴は発声速度、発声、単語の文脈
、雑音、その他の要素の相違に応じて各発声ごとに異な
る。音響プロセッサ202は語紮中の膨大な数の単語の
各々について複数のストリングを生成するプロセスを繰
り返す、第3図はこの点を示している。第3図では最終
単語WORDWのn−目の発声で終わることを示してい
る。
各単語の複数のストリングはラベル・ストリング・スト
レージ204 (第2図)に入力される。
レージ204 (第2図)に入力される。
ストレージ204中の各単語に対して、モデル学習部2
06は当該単語のフィーニーム・マルコフ・モデルのシ
ーケンスを特定し、各フィーニーム・マルコフ・モデル
についてアーク確率値およびラベル出力確率値を決定す
る。各フィーニーム・マルコフ・モデルは有限集合をな
すフィーニーム・マルコフ・モデルの1つである。
06は当該単語のフィーニーム・マルコフ・モデルのシ
ーケンスを特定し、各フィーニーム・マルコフ・モデル
についてアーク確率値およびラベル出力確率値を決定す
る。各フィーニーム・マルコフ・モデルは有限集合をな
すフィーニーム・マルコフ・モデルの1つである。
その集合中の各マルコフ・モデルはラベル・アルファベ
ット中のラベルに対応することが望ましい。そのような
マルコフ・モデルをここでは「フィーニーム・マルコフ
轡モデル」と呼ぶ。各フル5フ・モデルは第4図に示す
ような構造を有することが望ましい。すなわち各マルコ
フ・モデルは2つの状態S1およびS2を有する。SL
から81に戻るのが第1の遷移すなわち第1のアークで
あり、triと呼ぶ。Slから82へ伸びるものが第2
の遷移すなわち第2のアークであり、tr、と呼ぶ。最
後の遷移すなわち最後のアークはtr、であり、これも
Slから82へと伸びる。
ット中のラベルに対応することが望ましい。そのような
マルコフ・モデルをここでは「フィーニーム・マルコフ
轡モデル」と呼ぶ。各フル5フ・モデルは第4図に示す
ような構造を有することが望ましい。すなわち各マルコ
フ・モデルは2つの状態S1およびS2を有する。SL
から81に戻るのが第1の遷移すなわち第1のアークで
あり、triと呼ぶ。Slから82へ伸びるものが第2
の遷移すなわち第2のアークであり、tr、と呼ぶ。最
後の遷移すなわち最後のアークはtr、であり、これも
Slから82へと伸びる。
しかしこれは空遷移を表わす、遷移tr1およびtr、
ではフィーニーム・マルコフ・モデルに対してラベルが
出力として生成されるのに対し、遷移tr、ではラベル
が生成されない。各遷移には遷移確率が割り当てられて
いる。これは、マルコフ・モデルが状態S1であるとし
て、その遷移が採られる確率である。各遷移tr工およ
びtr2についてはまたラベル出力確察が割り当てられ
る。
ではフィーニーム・マルコフ・モデルに対してラベルが
出力として生成されるのに対し、遷移tr、ではラベル
が生成されない。各遷移には遷移確率が割り当てられて
いる。これは、マルコフ・モデルが状態S1であるとし
て、その遷移が採られる確率である。各遷移tr工およ
びtr2についてはまたラベル出力確察が割り当てられ
る。
各ラベル出力確率は各確率は各遷移において各ラベルが
出力されるゆう度を表わす。第1の遷移tr1について
は200個の確率からなるグループがある。
出力されるゆう度を表わす。第1の遷移tr1について
は200個の確率からなるグループがある。
これら確率の各々はアルファベット中のラベルに対応す
る。同様に、遷移tr、に対しても200個のラベル確
率がある。空遷移ではラベルが出力されないから、遷移
tr3についてはラベル出力確率は存在しない。
る。同様に、遷移tr、に対しても200個のラベル確
率がある。空遷移ではラベルが出力されないから、遷移
tr3についてはラベル出力確率は存在しない。
フィーニーム・マルコフ・モデルの確率はモデル学習部
206において周知のフォワード・バンクワード・アル
ゴリズムを適用することによって決定される。これは「
学習」と呼ばれるプロセスの間に決定される統計値に基
づくものである。簡単に説明すると、既知の学習テキス
トが学習セツションで話音により発声される。学習テキ
ストは既知のシーケンスのマルコフ・モデルに対応する
ものである(確率値は初期化されている)0話音が学習
テキスト発声すると音響プロセッサ(要素202のよう
な)が発声テキストに応じたラベル・ストリングを生成
する。各フィーニーム・フォーンはその学習テキスト中
で極めて多くの回数発声される。そしてカウントがなさ
れる。各カウントは所定のフィーニーム・マルコフ・モ
デルが所定のラベルを生成した回数を示す。各カウント
はそれに対応するマルコフ・モデルの全頻度を考慮にい
れる。たとえばフィーニーム・マルコフ・モデルF1o
が学習テキスト中で3回発生し、第1回目にラベルLI
O−LL−LIO−L9が生成され、第2回目にラベル
LIOが生成され、第3回目にラベルL9−Ll 1が
生成されるとすると、ラベルL10に対するフィーニー
ム・フォーワード。のカウントは2+1+O=3になる
。ラベルLIOに対するカウントをフィーニーム・マル
コフ・モデルF工。により生成されるラベルのカウント
で割ることにより、正規化が行われる。この場合377
である。カウントを用いてフィーニーム・マルコフ・モ
デルの確率がフォーワード・バックワード・アルゴリズ
ムにより計算される。フォーワード・バックワード・ア
ルゴリズムの詳細については多くの論文に記載されてい
る。たとえばF、Jelinekの“Continuo
us 5peech Recognitionby 5
tatistical Methods”、 Proc
eeding、s of IEEE、 vol 64.
pp 532−556.1976年およびり、R,B
ahl。
206において周知のフォワード・バンクワード・アル
ゴリズムを適用することによって決定される。これは「
学習」と呼ばれるプロセスの間に決定される統計値に基
づくものである。簡単に説明すると、既知の学習テキス
トが学習セツションで話音により発声される。学習テキ
ストは既知のシーケンスのマルコフ・モデルに対応する
ものである(確率値は初期化されている)0話音が学習
テキスト発声すると音響プロセッサ(要素202のよう
な)が発声テキストに応じたラベル・ストリングを生成
する。各フィーニーム・フォーンはその学習テキスト中
で極めて多くの回数発声される。そしてカウントがなさ
れる。各カウントは所定のフィーニーム・マルコフ・モ
デルが所定のラベルを生成した回数を示す。各カウント
はそれに対応するマルコフ・モデルの全頻度を考慮にい
れる。たとえばフィーニーム・マルコフ・モデルF1o
が学習テキスト中で3回発生し、第1回目にラベルLI
O−LL−LIO−L9が生成され、第2回目にラベル
LIOが生成され、第3回目にラベルL9−Ll 1が
生成されるとすると、ラベルL10に対するフィーニー
ム・フォーワード。のカウントは2+1+O=3になる
。ラベルLIOに対するカウントをフィーニーム・マル
コフ・モデルF工。により生成されるラベルのカウント
で割ることにより、正規化が行われる。この場合377
である。カウントを用いてフィーニーム・マルコフ・モ
デルの確率がフォーワード・バックワード・アルゴリズ
ムにより計算される。フォーワード・バックワード・ア
ルゴリズムの詳細については多くの論文に記載されてい
る。たとえばF、Jelinekの“Continuo
us 5peech Recognitionby 5
tatistical Methods”、 Proc
eeding、s of IEEE、 vol 64.
pp 532−556.1976年およびり、R,B
ahl。
F、JelinekおよびR,L、Mercerの”A
MaximumLikelihood Approa
ch to Continuous SpeechRe
cognition” 、IEEE Transact
ions on PatternAnalysis a
nd Machine Intelligence、
vol、 PAMI−5,No、2.1982年3月に
記載されている。これらについては米国出願第8452
01号に概略が説明されている。
MaximumLikelihood Approa
ch to Continuous SpeechRe
cognition” 、IEEE Transact
ions on PatternAnalysis a
nd Machine Intelligence、
vol、 PAMI−5,No、2.1982年3月に
記載されている。これらについては米国出願第8452
01号に概略が説明されている。
プロトタイプ・ストリング選択部208はプロトタイプ
・ストリングとしてラベル・ストリングの1つを選択す
る。好ましくは、プロトタイプ・ストリング選択部20
8は対象の” W ORD w ”に対して生成された
すべてのストリングの平均長に最も近い長さのラベル・
ストリングをその”WORDw”に対して選択する。こ
のプロトタイプ・ストリングはマルコフ・モデル選択部
210に入力される。各フィーニーム・マルコフ・モデ
ルの確率に基づいて、プロトタイプ・ストリング中の各
ラベルに応じたフィーニーム・マルコフ・モデルを選択
する。たとえば、プロトタイプ・ストリングがラベ/L
/L10−L20−L20−L30−F32・・・F1
85 (第3図の単語WORDIの第1の発声を参照さ
れたい)を含むとすると、継続して選択されるマルコフ
・モデルはF工。−F 2O−F2.− F、。−F
32−・・・・・・F工□になる。継続したフィーニー
ム・マルコフ・モデルを連続したものは「単一型単価ベ
ースフォーム」と呼ばれる。
・ストリングとしてラベル・ストリングの1つを選択す
る。好ましくは、プロトタイプ・ストリング選択部20
8は対象の” W ORD w ”に対して生成された
すべてのストリングの平均長に最も近い長さのラベル・
ストリングをその”WORDw”に対して選択する。こ
のプロトタイプ・ストリングはマルコフ・モデル選択部
210に入力される。各フィーニーム・マルコフ・モデ
ルの確率に基づいて、プロトタイプ・ストリング中の各
ラベルに応じたフィーニーム・マルコフ・モデルを選択
する。たとえば、プロトタイプ・ストリングがラベ/L
/L10−L20−L20−L30−F32・・・F1
85 (第3図の単語WORDIの第1の発声を参照さ
れたい)を含むとすると、継続して選択されるマルコフ
・モデルはF工。−F 2O−F2.− F、。−F
32−・・・・・・F工□になる。継続したフィーニー
ム・マルコフ・モデルを連続したものは「単一型単価ベ
ースフォーム」と呼ばれる。
たった1個のストリング中の各ラベルが1対1対に対応
するマルコフ・モデルと関連付けられているからである
。
するマルコフ・モデルと関連付けられているからである
。
この発明では、単一型ベースフオーム用のマルコフ・モ
デル・シーケンスは対象単語WORDW 用に記憶され
ている各ストリング(プロトタイブ・ストリングではな
い)中のラベルに対して関連付けられる。この関連付け
はビタービ・アルゴリズム整合部212によって行われ
る。このビタービ・アルゴリズム整合部212は、記憶
されている各ストリング中の継続したサブ・ストリング
を単一型ベースフォーム中に継続したマルコフ・モデル
に整列するように動作する。この点は、第3図のWOR
DIについて第5図において説明しである。この場合プ
ロトタイプ・ストリングは第1発声に対応している。
デル・シーケンスは対象単語WORDW 用に記憶され
ている各ストリング(プロトタイブ・ストリングではな
い)中のラベルに対して関連付けられる。この関連付け
はビタービ・アルゴリズム整合部212によって行われ
る。このビタービ・アルゴリズム整合部212は、記憶
されている各ストリング中の継続したサブ・ストリング
を単一型ベースフォーム中に継続したマルコフ・モデル
に整列するように動作する。この点は、第3図のWOR
DIについて第5図において説明しである。この場合プ
ロトタイプ・ストリングは第1発声に対応している。
第5図において、WORDIの第1の発声に基づく、単
一型単語ベースフォームを構成するフィーニーム・マル
コフ・モデルはF工。−F2゜−F2゜−F、。−Fj
2・・・を含む。周知のビタービ整合アルゴリズムによ
れば、単語WORDIの第2の発声に対応するラベル・
ストリングは単一型ベースフォーム中のフィーニーム・
マルコフ・モデルに整列させてれる。フィーニーム・マ
ルコフ・モデル用に記憶されている確率に基づいて、最
初の3つのラベルはフィーニーム・マルコフ・モデルF
工。
一型単語ベースフォームを構成するフィーニーム・マル
コフ・モデルはF工。−F2゜−F2゜−F、。−Fj
2・・・を含む。周知のビタービ整合アルゴリズムによ
れば、単語WORDIの第2の発声に対応するラベル・
ストリングは単一型ベースフォーム中のフィーニーム・
マルコフ・モデルに整列させてれる。フィーニーム・マ
ルコフ・モデル用に記憶されている確率に基づいて、最
初の3つのラベルはフィーニーム・マルコフ・モデルF
工。
に整列する。第2の発声に対するストリングにおいては
つぎのマルコフ・モデルはラベルを出力しない。第3の
フィーニーム・マルコフ・モデルF2oはラベルL2゜
に整列させられる。第4番目のフィーニーム・マルコフ
・モデルF3゜は第2の発声に対応するストリングのラ
ベルL3sおよびF200に整列させられる。整列は第
2の発声のラベルを通じて行われる。第2の発声につい
ては、ストリングが一連のサブ・ストリングに分割され
、i番目のサブ・ストリング(これはゼロ、1またはそ
れ以上のラベルからなる)が継続して単一型単語ベース
フォーム中のi番目のフィーニーム・マルコフ・モデル
に対応することがわかる。
つぎのマルコフ・モデルはラベルを出力しない。第3の
フィーニーム・マルコフ・モデルF2oはラベルL2゜
に整列させられる。第4番目のフィーニーム・マルコフ
・モデルF3゜は第2の発声に対応するストリングのラ
ベルL3sおよびF200に整列させられる。整列は第
2の発声のラベルを通じて行われる。第2の発声につい
ては、ストリングが一連のサブ・ストリングに分割され
、i番目のサブ・ストリング(これはゼロ、1またはそ
れ以上のラベルからなる)が継続して単一型単語ベース
フォーム中のi番目のフィーニーム・マルコフ・モデル
に対応することがわかる。
さらに第5図を参照すると、第3の発声もまたフィーニ
ーム・マルコフ・モデルF□。−F2゜−F20 F
3゜−F3z・・・に整列させられる。第2の発声と同
様に、第3の発声に応じたストリングが一連のサブ°ス
トリングに分割され、各サブ・ストリングがフィーニー
ム・マルコフ・モデルの1つに対応する。第1番目のサ
ブ・ストリング(i=1)はラベルL20およびF30
を含む。第2番目のサブ・ストリングはラベルL32を
含む。第3番目のサブ・ストリングはラベルL31を含
む。第4番目のサブ・ストリングはラベルL32を含む
。
ーム・マルコフ・モデルF□。−F2゜−F20 F
3゜−F3z・・・に整列させられる。第2の発声と同
様に、第3の発声に応じたストリングが一連のサブ°ス
トリングに分割され、各サブ・ストリングがフィーニー
ム・マルコフ・モデルの1つに対応する。第1番目のサ
ブ・ストリング(i=1)はラベルL20およびF30
を含む。第2番目のサブ・ストリングはラベルL32を
含む。第3番目のサブ・ストリングはラベルL31を含
む。第4番目のサブ・ストリングはラベルL32を含む
。
以下同様である。
WORDIの最終発声からはっぎのようなサブ・ストリ
ングが生成される。第1サブ・ストリングにはラベルは
ない。第2サブ・ストリングにはラベルL1およびLl
が対応する。第3サブ・ストリングにはラベルL20が
対応する。第4サブ・ストリングにはラベルL21およ
びF22が対応する。第5サブ・ストリングにはラベル
L7が対応する。以下同様である。
ングが生成される。第1サブ・ストリングにはラベルは
ない。第2サブ・ストリングにはラベルL1およびLl
が対応する。第3サブ・ストリングにはラベルL20が
対応する。第4サブ・ストリングにはラベルL21およ
びF22が対応する。第5サブ・ストリングにはラベル
L7が対応する。以下同様である。
サブ・ストリングはストリング(そして、それに対応す
る発声)を共通のセグメントに分割するのに用いられる
。すなわち、各ストリング中のi番目のサブ・ストリン
グは単語WORDIの同一のセグメントを表わす。サブ
・ストリング関連付部214はn□個のストリングにつ
いて第1のサブ・ストリング(i=1)をグルーピング
する。
る発声)を共通のセグメントに分割するのに用いられる
。すなわち、各ストリング中のi番目のサブ・ストリン
グは単語WORDIの同一のセグメントを表わす。サブ
・ストリング関連付部214はn□個のストリングにつ
いて第1のサブ・ストリング(i=1)をグルーピング
する。
第2のサブ・ストリング、以下も同様である。−船釣に
いえばn4個のストリングについて第1番目のサブ・ス
トリングがサブ・ストリング関連付部214によってグ
ルーピングされる。
いえばn4個のストリングについて第1番目のサブ・ス
トリングがサブ・ストリング関連付部214によってグ
ルーピングされる。
各グループ中のサブ・ストリングに基づいて。
マルコフ・モデル構築部216はグループのサブ・スト
リングを最も高い結合の確率で生成する1個のマルコフ
・モデルまたは一連のマルコフ・モデルを決定する。た
とえば、再び第5図を参照しよう。第1のグループとし
て関連付けられたサブ・ストリングはLlo−LIO−
LIO1L2〇−L30、・・・ラベルなしを含む。フ
ィーニーム・マルコフ・モデルまたは一連のフィーニー
ム・マルコフ・モデルがサブ・ストリングをそれぞれ最
も高い結合確率を生成するものとして決定される。
リングを最も高い結合の確率で生成する1個のマルコフ
・モデルまたは一連のマルコフ・モデルを決定する。た
とえば、再び第5図を参照しよう。第1のグループとし
て関連付けられたサブ・ストリングはLlo−LIO−
LIO1L2〇−L30、・・・ラベルなしを含む。フ
ィーニーム・マルコフ・モデルまたは一連のフィーニー
ム・マルコフ・モデルがサブ・ストリングをそれぞれ最
も高い結合確率を生成するものとして決定される。
決定された1個のマルコフ・モデルまたは一連のマルコ
フ・モデルは対象単語の第1の共通セグメントに関連付
けられる。第2のグループの関連サブ・ストリングにつ
いても同様の処理が行われ、1個または一連のマルコフ
・モデルが対象単語の第2の共通セグメントに関連付け
られる。この処理は以降も継続するグループについて繰
り返され、この結果対象単語のすべての共通セグメント
の各々に1個または一連のマルコフ・モデルが関連付け
られる。
フ・モデルは対象単語の第1の共通セグメントに関連付
けられる。第2のグループの関連サブ・ストリングにつ
いても同様の処理が行われ、1個または一連のマルコフ
・モデルが対象単語の第2の共通セグメントに関連付け
られる。この処理は以降も継続するグループについて繰
り返され、この結果対象単語のすべての共通セグメント
の各々に1個または一連のマルコフ・モデルが関連付け
られる。
継続するグループの各々について構築されたフィーニー
ム・マルコフ・モデルはマルコフ・モデル・シーケンス
連結部218によって連結され、対象単語の単語ベース
フォームが生成される。対象単語用に連結部218によ
り構築された単語ベースフォームは複数の発声に基づく
ものであり、単一型ベースフオームに較べて著しく改善
されている。第6図のフローチャートを参照して以下説
明するように、語景中の単語についてシステム200が
順次処理を行っていく。
ム・マルコフ・モデルはマルコフ・モデル・シーケンス
連結部218によって連結され、対象単語の単語ベース
フォームが生成される。対象単語用に連結部218によ
り構築された単語ベースフォームは複数の発声に基づく
ものであり、単一型ベースフオームに較べて著しく改善
されている。第6図のフローチャートを参照して以下説
明するように、語景中の単語についてシステム200が
順次処理を行っていく。
第6図において、システム200の動作が説明される。
ステップ302では、単語インデックス値Wが1にセッ
トされ語食中の第1単語を表わすことになる。第1単語
に対し、音響プロセッサ202(第3図)が第1単語の
n。個の発声からn 個のストリングを生成する(ステ
ップ304)。ステップ306では、マルコフ・モデル
確率および関連統計値が計算され記憶される。これはス
テップ304で生成されたラベルに基づいて実行される
。ステップ308では、WORDに対しn個のストリン
グからプロトタイプ・ストリングが選択される。上述し
たように、プロトタイプ・ストリングは平均ストリング
長に最も近いストリングが好ましい。しかし他のストリ
ングたとえば最も短いストリング等をプロトタイプ・ス
トリングとして定義してもよい。
トされ語食中の第1単語を表わすことになる。第1単語
に対し、音響プロセッサ202(第3図)が第1単語の
n。個の発声からn 個のストリングを生成する(ステ
ップ304)。ステップ306では、マルコフ・モデル
確率および関連統計値が計算され記憶される。これはス
テップ304で生成されたラベルに基づいて実行される
。ステップ308では、WORDに対しn個のストリン
グからプロトタイプ・ストリングが選択される。上述し
たように、プロトタイプ・ストリングは平均ストリング
長に最も近いストリングが好ましい。しかし他のストリ
ングたとえば最も短いストリング等をプロトタイプ・ス
トリングとして定義してもよい。
第7図は、プロトタイプ・ストリングを平均長ストリン
グとしたとき、その平均長ストリングを多数のストリン
グから決定する手法を示している。
グとしたとき、その平均長ストリングを多数のストリン
グから決定する手法を示している。
第7図において、1uはU番目の発声の長さであり、n
は発声の個数であり、jは平均長ストリングの識別子で
ある。ステップ402および404は値の初期化に関す
る。値1aveは初めゼロであり、以降、継続する発声
の長さを加算して更新されていく。この更新はすべての
発声のストリング長が加算されるまで続ける(ステップ
404.406および408)、平均長は合計値をnで
割ることにより求められる(ステップ410)、ストリ
ング長は順次平均長に比較され、平均長に一番近いもの
が選択される(ステップ412から420)。
は発声の個数であり、jは平均長ストリングの識別子で
ある。ステップ402および404は値の初期化に関す
る。値1aveは初めゼロであり、以降、継続する発声
の長さを加算して更新されていく。この更新はすべての
発声のストリング長が加算されるまで続ける(ステップ
404.406および408)、平均長は合計値をnで
割ることにより求められる(ステップ410)、ストリ
ング長は順次平均長に比較され、平均長に一番近いもの
が選択される(ステップ412から420)。
再度第6図を参照する。ラベル・インデックスiはステ
ップ310で1に初期化される(iおよびjのようなイ
ンデックス値はここでの説明の種々の場面で種々のイベ
ントを計算するものであることに留意されたい)。ステ
ップ312からステップ316において、プロトタイプ
・ストリングのi番目のラベルごとに対応するマルコフ
・モデルが選択される。プロトタイプ・ストリング中に
N個のラベルがあるとすると、このN個のラベルに対応
するN個のフィーニーム・マルコフ・モデルが結合され
て(ステップ318)単一型単語ベースフォームが生成
される。プロトタイプ・ストリング以外のストリングが
1つステップ320で選択される。ステップ320で選
択されたストリングは単一型単語ベースフォーム中のマ
ルコフ・モデルにビタービ整列させられ(ステップ32
2)、単一型単語ベースフォーム中の継続するマルコフ
・モデルの各々に、ステップ320で今選ばれたストリ
ングのラベル・サブ・ストリングが対応するようになる
。ステップ320および322はラベル・ストリングご
とに繰り返し実行されていく (ステップ324)。
ップ310で1に初期化される(iおよびjのようなイ
ンデックス値はここでの説明の種々の場面で種々のイベ
ントを計算するものであることに留意されたい)。ステ
ップ312からステップ316において、プロトタイプ
・ストリングのi番目のラベルごとに対応するマルコフ
・モデルが選択される。プロトタイプ・ストリング中に
N個のラベルがあるとすると、このN個のラベルに対応
するN個のフィーニーム・マルコフ・モデルが結合され
て(ステップ318)単一型単語ベースフォームが生成
される。プロトタイプ・ストリング以外のストリングが
1つステップ320で選択される。ステップ320で選
択されたストリングは単一型単語ベースフォーム中のマ
ルコフ・モデルにビタービ整列させられ(ステップ32
2)、単一型単語ベースフォーム中の継続するマルコフ
・モデルの各々に、ステップ320で今選ばれたストリ
ングのラベル・サブ・ストリングが対応するようになる
。ステップ320および322はラベル・ストリングご
とに繰り返し実行されていく (ステップ324)。
ステップ320からステップ324の処理の詳細は第8
図に示されている。第8図において、γ のラベルとして定義されている。′1αn”はテキスト
発声単語中のα番目の単語のn番目の発声に関連するラ
ベルの個数として定義される。′dα″はテキスト発声
単語中のα番目の単語に関連するフィーニーム・マルコ
フ・モデルの個数とし■ はα番目の単語のn番目
の発声のに番に 目のラベルの1つのマルコフ・モデルへのマツピングと
して定義される。ただし、テキスト発声単語中である。
図に示されている。第8図において、γ のラベルとして定義されている。′1αn”はテキスト
発声単語中のα番目の単語のn番目の発声に関連するラ
ベルの個数として定義される。′dα″はテキスト発声
単語中のα番目の単語に関連するフィーニーム・マルコ
フ・モデルの個数とし■ はα番目の単語のn番目
の発声のに番に 目のラベルの1つのマルコフ・モデルへのマツピングと
して定義される。ただし、テキスト発声単語中である。
ここでl ≧に≧1、dα≧α n
vにn≧1である。第8図において、kおよびnは1に
初期化され、すべてのストリングUは空ストリングに初
期化される(ステップ502)。各とによって更新され
る。この更新は発声中のすべてのラベルが連結されつく
すまで行われる(ステップ504から508)。たとえ
ばn番目の発声に14個のラベルがあり、最初の3つの
ラベルが第1のモデルにマツピングされ、つぎの10個
のラベルが第2のモデルにマツピングされ、最初のラベ
ルが第3のモデルにマツピングされるとしよう。ステッ
プ504ではU を第1のモデルをマツピングするも
のとして更新する。この更新は第1のラベルを付加して
行われる。第1のラベルを付加したのち、第2のラベル
が付加され、さらに第3のラベルが付加される。ステッ
プ508からステップ504への新しいサイクルでは第
2のモデルに関連する新しい(空の)ストリングが適用
される。このストリング中の第4番目のラベルは空のス
トリングに付加されて更新ずみストリングを生成する。
初期化され、すべてのストリングUは空ストリングに初
期化される(ステップ502)。各とによって更新され
る。この更新は発声中のすべてのラベルが連結されつく
すまで行われる(ステップ504から508)。たとえ
ばn番目の発声に14個のラベルがあり、最初の3つの
ラベルが第1のモデルにマツピングされ、つぎの10個
のラベルが第2のモデルにマツピングされ、最初のラベ
ルが第3のモデルにマツピングされるとしよう。ステッ
プ504ではU を第1のモデルをマツピングするも
のとして更新する。この更新は第1のラベルを付加して
行われる。第1のラベルを付加したのち、第2のラベル
が付加され、さらに第3のラベルが付加される。ステッ
プ508からステップ504への新しいサイクルでは第
2のモデルに関連する新しい(空の)ストリングが適用
される。このストリング中の第4番目のラベルは空のス
トリングに付加されて更新ずみストリングを生成する。
つづいて、第5、第6、第7.・・・第16のラベルが
付加される。第3のモデルに対するつぎの(空の)スト
リングがこののち更新される。これは空ストリングに第
16のラベルを付加して行われる。n番目の発声の14
番目(最後)のラベルののちに、nがステップ510で
増分され、つぎの発声が処理される、各発声について第
1のラベルから処理が始まり、最後のラベルで処理が終
了する(ステップ512および514)。
付加される。第3のモデルに対するつぎの(空の)スト
リングがこののち更新される。これは空ストリングに第
16のラベルを付加して行われる。n番目の発声の14
番目(最後)のラベルののちに、nがステップ510で
増分され、つぎの発声が処理される、各発声について第
1のラベルから処理が始まり、最後のラベルで処理が終
了する(ステップ512および514)。
以上のようにして(n−1)個のストリングのすべて、
すなわちプロトタイプ・ストリング以外のストリングが
継続したサブ・ストリングに分割される。この場合i番
目のサブ・ストリングの各々はゼロまたは1以上のラベ
ルの長さを有し、単語WORDの共通のセグメントに対
応する。i番目のすべてのサブ・ストリングを生成する
結合確率が最高となる。1個または一連のフィーニーム
・マルコフ・モデルが構築される(ステップ326から
332)。すなわち、共通セグメントについて順次にサ
ブ・ストリングが処理されて対応する1個または一連の
マルコフ・モデルが決定される。
すなわちプロトタイプ・ストリング以外のストリングが
継続したサブ・ストリングに分割される。この場合i番
目のサブ・ストリングの各々はゼロまたは1以上のラベ
ルの長さを有し、単語WORDの共通のセグメントに対
応する。i番目のすべてのサブ・ストリングを生成する
結合確率が最高となる。1個または一連のフィーニーム
・マルコフ・モデルが構築される(ステップ326から
332)。すなわち、共通セグメントについて順次にサ
ブ・ストリングが処理されて対応する1個または一連の
マルコフ・モデルが決定される。
第9図において、分割・勝ち残り手法(divide−
and−conquer)が採用され、対象単語の所定
のi番目の共通セグメントに対して改善されたセグメン
ト・ベースフォームが導出される。第9図のステップを
説明しよう。第9図のフローチャートでは「フォーン」
または「フォーン・マシーン」の用語でマルコフ・モデ
ルを相称することに留意されたい。
and−conquer)が採用され、対象単語の所定
のi番目の共通セグメントに対して改善されたセグメン
ト・ベースフォームが導出される。第9図のステップを
説明しよう。第9図のフローチャートでは「フォーン」
または「フォーン・マシーン」の用語でマルコフ・モデ
ルを相称することに留意されたい。
フォーン(すなわちマルコフ・モデル)のセットが定義
されており、どのフォーンがi番目の共通セグメントに
対応するi番目のサブ・ストリングのすべてに適用され
たときにフォーン長1の最良のベースフォームを実現す
るかを決定する(ステップ602および604)。フォ
ーン長1の最良ベースフォーム(P□と呼ぶ)は、セッ
ト中の各フォーンを吟味し、各フォーンについてi番目
のサブ・ストリングの各々を生成する確率を求めること
によって見出される。個別のフォーンの各々につき導出
されたn個の確率は掛は合わされ(第2図のシーケンス
構築部216のプロセッサによって行う)、個別のマル
コフ・モデルすなわちフォーンに割り当てられる結合確
率が生成される。最も大きな結合確率を有するフォーン
が長さ1の最良ベースフオームP工として選択される。
されており、どのフォーンがi番目の共通セグメントに
対応するi番目のサブ・ストリングのすべてに適用され
たときにフォーン長1の最良のベースフォームを実現す
るかを決定する(ステップ602および604)。フォ
ーン長1の最良ベースフォーム(P□と呼ぶ)は、セッ
ト中の各フォーンを吟味し、各フォーンについてi番目
のサブ・ストリングの各々を生成する確率を求めること
によって見出される。個別のフォーンの各々につき導出
されたn個の確率は掛は合わされ(第2図のシーケンス
構築部216のプロセッサによって行う)、個別のマル
コフ・モデルすなわちフォーンに割り当てられる結合確
率が生成される。最も大きな結合確率を有するフォーン
が長さ1の最良ベースフオームP工として選択される。
フォーンPiを維持したままで、P1P2またはP2P
Lの形を有する長さ2の最良ベースフォームをステップ
606で求める。すなわちセット中の各フォーンをPl
の前および後に付加し、各フォーン対についての結合確
率を導出する。フィーニーム・ストリングを最大の結合
確率で生成するフォーン対が最良と判断される。
Lの形を有する長さ2の最良ベースフォームをステップ
606で求める。すなわちセット中の各フォーンをPl
の前および後に付加し、各フォーン対についての結合確
率を導出する。フィーニーム・ストリングを最大の結合
確率で生成するフォーン対が最良と判断される。
ステップ608では、長さ2の最良ベースフォーム、す
なわち最大の結合確率を有するフォーン対について周知
のビタービ整合のような整合を行う。簡単にいえば、整
列はi番目の各サブ・ストリング中のどのラベルがフォ
ーン対の各フォーンに対応するかを示す。
なわち最大の結合確率を有するフォーン対について周知
のビタービ整合のような整合を行う。簡単にいえば、整
列はi番目の各サブ・ストリング中のどのラベルがフォ
ーン対の各フォーンに対応するかを示す。
整列に続いて、i番目の各サブ・ストリングにおける一
致点が判別される。i番目の各サブ・ストリングについ
て一致点はフォーンP□およびP2(長さ2の最良ベー
スフォームの)が合致する点として定義される。以上の
かわりに、−散点は、i番目の各サブ・ストリングを右
がわのフォーンに整列する右がね部分と左がねフォーン
に整列する左がね部分とに分割する点と考えることがで
きる。ここでi番目のす入てのサブ・ストリングの左が
ね部分は単語の共通セグメントを表わし、itj目のす
べてのサブ・ストリングの右がね部分も単語の共通セグ
メントを表わす(ステップ610参照)。
致点が判別される。i番目の各サブ・ストリングについ
て一致点はフォーンP□およびP2(長さ2の最良ベー
スフォームの)が合致する点として定義される。以上の
かわりに、−散点は、i番目の各サブ・ストリングを右
がわのフォーンに整列する右がね部分と左がねフォーン
に整列する左がね部分とに分割する点と考えることがで
きる。ここでi番目のす入てのサブ・ストリングの左が
ね部分は単語の共通セグメントを表わし、itj目のす
べてのサブ・ストリングの右がね部分も単語の共通セグ
メントを表わす(ステップ610参照)。
ステップ612においては、左がわ部分および右がわ部
分は別々に処理される。ただしそれぞれ「左がわサブ・
ストリング」および右がわサブ・ストリングとして同様
に処理される。これらには上述の分割・勝ち残り手法が
適用される。
分は別々に処理される。ただしそれぞれ「左がわサブ・
ストリング」および右がわサブ・ストリングとして同様
に処理される。これらには上述の分割・勝ち残り手法が
適用される。
左がねサブ・ストリングに対しては最良の単一フォーン
・ベースフォームPLが見出される(ステップ614)
。フォーンP Lをそのままにして、セット中の各フォ
ーンがその前および後に付加されて配列フォーン対が生
成される。配列対P P またはP A P Lが、左
がねサブ・ストリA フグ中のラベルを生成する結合確率が最大のものとして
見出される(ステップ616)、先で示唆されるようう
に、これが左がねサブ・ストリングに対する長さ2の最
良ベースフォームを表わす。
・ベースフォームPLが見出される(ステップ614)
。フォーンP Lをそのままにして、セット中の各フォ
ーンがその前および後に付加されて配列フォーン対が生
成される。配列対P P またはP A P Lが、左
がねサブ・ストリA フグ中のラベルを生成する結合確率が最大のものとして
見出される(ステップ616)、先で示唆されるようう
に、これが左がねサブ・ストリングに対する長さ2の最
良ベースフォームを表わす。
左がわサブ・ストリングに対する長さ2の最良ベースフ
ォームの結合確率はPL固有の結合確率と比較される(
ステップ618)。PLの結合確率のほうが大きいなら
、フォーンPLが連結ベースフォーム中に配置される(
ステップ620)。
ォームの結合確率はPL固有の結合確率と比較される(
ステップ618)。PLの結合確率のほうが大きいなら
、フォーンPLが連結ベースフォーム中に配置される(
ステップ620)。
ステップ618でP の結合確率の方が小さいなら、P
P またはPP が左がねサブ・ストLA
AL リングに整列させられる(ステップ622)。左がわサ
ブ・ストリングにおける一致点が見出され。
P またはPP が左がねサブ・ストLA
AL リングに整列させられる(ステップ622)。左がわサ
ブ・ストリングにおける一致点が見出され。
各人がねサブ・ストリングは新しい左がわ部分と新しい
右がわ部分に分割される部分と新しい右がわ部分に分割
される(ステップ624)。
右がわ部分に分割される部分と新しい右がわ部分に分割
される(ステップ624)。
同様の手順は、最初に分割したi番目のサブ・ストリン
グの右がわ部分の各々にも実行される。
グの右がわ部分の各々にも実行される。
単一の最良ベースフォームP (ステップ626)はフ
ォーン長2の最良ベースフォームPP またはPBP
Rと比較される(ステップB 628および630)、PRの結合確率のほうが大きい
なら、フォーンPRが結合ベースフォーム中に配置され
る(ステップ620)。そうでなければ整列が実行され
、右がねサブ・ストリングの各々が一致点で分割される
(ステップ632および634)。
ォーン長2の最良ベースフォームPP またはPBP
Rと比較される(ステップB 628および630)、PRの結合確率のほうが大きい
なら、フォーンPRが結合ベースフォーム中に配置され
る(ステップ620)。そうでなければ整列が実行され
、右がねサブ・ストリングの各々が一致点で分割される
(ステップ632および634)。
分割サイクルは、長さ2の最良ベースフォームが最良単
一フォーン・ベースフォームより大きな結合確率を有す
る右がねサブ・ストリングおよび左がわサブ・ストリン
グの各々について繰り返される。最良の単一フォーンの
みが残った点でサイクルは終了する。最良の単一フォー
ンがステップ620で連結される。
一フォーン・ベースフォームより大きな結合確率を有す
る右がねサブ・ストリングおよび左がわサブ・ストリン
グの各々について繰り返される。最良の単一フォーンの
みが残った点でサイクルは終了する。最良の単一フォー
ンがステップ620で連結される。
単一フォーン・ベースフォームはそれらが表わすサブ・
ストリングと同じ順番で連結される。連結されたベース
フォームは基本単語セグメント・ベースフォームを表わ
す。
ストリングと同じ順番で連結される。連結されたベース
フォームは基本単語セグメント・ベースフォームを表わ
す。
基本連結ベースフォームを改善することができる。この
改善では、基本連結ベースフォームが初めのi番目のサ
ブ・ストリングに整列させられる(ステップ640)、
i番目のサブ・ストリングはフォーンすなわちマルコフ
・モデルが合致する点で分割される(ステップ642)
、分割の各々において、新しい最良フォーンが決定され
る(ステップ644)、すなわち各フォーンに確率が付
与されると、分割部分のラベルを最大の確率で生成する
フォーンが既知の方法で決定される。整列のゆえに、分
割部分中のラベルに対する最良の単一フォーンは、先に
整列され連結されたベースフォーム中の単一フォーンと
異なるかもしれない。
改善では、基本連結ベースフォームが初めのi番目のサ
ブ・ストリングに整列させられる(ステップ640)、
i番目のサブ・ストリングはフォーンすなわちマルコフ
・モデルが合致する点で分割される(ステップ642)
、分割の各々において、新しい最良フォーンが決定され
る(ステップ644)、すなわち各フォーンに確率が付
与されると、分割部分のラベルを最大の確率で生成する
フォーンが既知の方法で決定される。整列のゆえに、分
割部分中のラベルに対する最良の単一フォーンは、先に
整列され連結されたベースフォーム中の単一フォーンと
異なるかもしれない。
新しい最良フォーンが連結ベースフォーム中のフォーン
と同一であれば(ステップ646)、新しい最良フォー
ンが第2図のシーケンス構築部216のプロセッサによ
って改善された単語セグメント・ベースフォーム中に配
置される(ステップ648)、新しい最良フォーンが先
に連結されたベースフォーム中のフォーンと異なるなら
ば、新しい最良フォーンで基本連結ベースフォーム中の
先のフォーンを置き換え(ステップ648)、ステップ
640から646までの処理を繰り返す。ステップ64
6ですべての分割部分について「イエス」の出力が生じ
たときに、フォーン結果を改善単語セグメント・ペース
フォーン中に連結する(ステップ652)。第6図のス
テップ334において、i番目の各共通セグメント用に
構築された1個または一連のフィーニーム・マルコフ・
モデルが連結され、単語ベースフォームが生成される。
と同一であれば(ステップ646)、新しい最良フォー
ンが第2図のシーケンス構築部216のプロセッサによ
って改善された単語セグメント・ベースフォーム中に配
置される(ステップ648)、新しい最良フォーンが先
に連結されたベースフォーム中のフォーンと異なるなら
ば、新しい最良フォーンで基本連結ベースフォーム中の
先のフォーンを置き換え(ステップ648)、ステップ
640から646までの処理を繰り返す。ステップ64
6ですべての分割部分について「イエス」の出力が生じ
たときに、フォーン結果を改善単語セグメント・ペース
フォーン中に連結する(ステップ652)。第6図のス
テップ334において、i番目の各共通セグメント用に
構築された1個または一連のフィーニーム・マルコフ・
モデルが連結され、単語ベースフォームが生成される。
ステップ336からステップ338では、ステップ30
4からステップ334の処理に準じて語彙中の継続した
単語についての単語ベースフォームが構築される。
4からステップ334の処理に準じて語彙中の継続した
単語についての単語ベースフォームが構築される。
動作においては、単語ベースフォームはコンピュータ・
メモリ中にフィーニーム・マルコフ・モデルのシーケン
スとして記憶される。たとえば、1の単語はF、−F工
。−Fl。・・・のシーケンスとして記憶される。各フ
ィーニーム・マルコフ・モデルの確率もメモリ中に記憶
される。
メモリ中にフィーニーム・マルコフ・モデルのシーケン
スとして記憶される。たとえば、1の単語はF、−F工
。−Fl。・・・のシーケンスとして記憶される。各フ
ィーニーム・マルコフ・モデルの確率もメモリ中に記憶
される。
マルコフ・モデル確率ストレージ
モデルF。
状態 Sl
アーク tri
Arcprob
1prob
2prob
3prob
L20(lprob
アーク tr2
Arcprob
1prob
2prob
3prob
L200prob
アーク tr3
Arcprob
モデルFG
モデルF□。
状態 Sl
アーク tri
Arcprob
1prob
2prob
3prob
L200prob
アーク tr2
Areprob
lprob
L2prob
L3prob
L200prob
アーク tr3
Arcprob
モデルF 200
状態 Sl
アーク tri
Arcprob
1prob
L2ρrob
3prob
L200prob
アーク tr2
Arcprob
1prob
2prob
3prob
L200prob
アーク tr3
Arcprob
この発明にしたがって単語ベースフォームが決定され、
またフィーニーム・マルコフ・モデルの確率が記憶され
ると、音響マツチングを単語ベースフォームと発声ラベ
ルとの間で行って音声認識を行う、ハードウウアの構成
はつぎのようなものである。
またフィーニーム・マルコフ・モデルの確率が記憶され
ると、音響マツチングを単語ベースフォームと発声ラベ
ルとの間で行って音声認識を行う、ハードウウアの構成
はつぎのようなものである。
ヘースフォーム成長手順はIBM3090メイン・フレ
ーム上PLI言語を用い以下のメモリ要請のもと実現し
た。
ーム上PLI言語を用い以下のメモリ要請のもと実現し
た。
ヒドン・マルコフ・モデル統計用ストレージ200キロ
・バイト ラベル・ストレージ 10/バイト/ラベル→1キロ・バイト/単n2000
単語語量で発声を10回 したがって200メガ・バイト 単一型フィーニーム・ベースフォーム 1キロ・バイト/ベースフォーム 20000単語語食 したがって20メガ・バイト
・バイト ラベル・ストレージ 10/バイト/ラベル→1キロ・バイト/単n2000
単語語量で発声を10回 したがって200メガ・バイト 単一型フィーニーム・ベースフォーム 1キロ・バイト/ベースフォーム 20000単語語食 したがって20メガ・バイト
第1図音声学的マルコフ・モデル単語ベースフォームを
説明する図、第2図はこの発明の一実施例を全体として
示すブロック図、第3図は複数発声により生成されるラ
ベルの説明する図、第4図はこの発明で用いるフィーニ
ーム・マルコフ・モ′ デルを説明する図、第5図はラ
ベル・ストリングを単一型ベースフォームに整列させる
ようすを示す図、第6図は第6A図および第6B図の組
み合わせ図、第6A図および第6B図はこの発明の手法
を示すフローチャート、第7図は第6A図および第6B
図のプロトタイプ・ストリングの選択方法を示すフロー
チャート、第8図はラベル・スト1 リングのグルー
ピングを説明するフローチャート、第9図は第9A図お
よび第9B図の組み合わせ図、第9A図および第9B図
は各単語セグメント用の最良マルコフ・モデルまたはマ
ルコフ・モデル・シーケンスを決定するフローチャート
である。 出願人 インターナショナル・ビジネス・マシーンズ
・コーポレーション 復代理人 弁理士 澤 1) 俊 夫音声入力 第2図 第9A図
説明する図、第2図はこの発明の一実施例を全体として
示すブロック図、第3図は複数発声により生成されるラ
ベルの説明する図、第4図はこの発明で用いるフィーニ
ーム・マルコフ・モ′ デルを説明する図、第5図はラ
ベル・ストリングを単一型ベースフォームに整列させる
ようすを示す図、第6図は第6A図および第6B図の組
み合わせ図、第6A図および第6B図はこの発明の手法
を示すフローチャート、第7図は第6A図および第6B
図のプロトタイプ・ストリングの選択方法を示すフロー
チャート、第8図はラベル・スト1 リングのグルー
ピングを説明するフローチャート、第9図は第9A図お
よび第9B図の組み合わせ図、第9A図および第9B図
は各単語セグメント用の最良マルコフ・モデルまたはマ
ルコフ・モデル・シーケンスを決定するフローチャート
である。 出願人 インターナショナル・ビジネス・マシーンズ
・コーポレーション 復代理人 弁理士 澤 1) 俊 夫音声入力 第2図 第9A図
Claims (1)
- 【特許請求の範囲】 音声入力に基づいてラベル・ストリングを生成する音響
プロセッサを有するマルコフ・モデル音声認識システム
において、つぎのステップを有することを特徴とするマ
ルコフ・モデル単語ベースフォーム構築方法。 (a)一組のマルコフ・モデルの各々について、アーク
確率およびラベル出力確率を計算しコンピュータ・メモ
リに記憶するステップ。 上記マルコフ・モデルの各々はそれぞれ1つのラベルに
対応し、複数の状態およびこれら状態から状態へ延びる
複数のアークを有する。 (b)語彙中の対象単語のn個の発声に応じてn個のラ
ベル・ストリングを上記音響プロセッサを用いて生成す
るステップ。 (c)上記複数のラベル・ストリングのうち1つを選択
するステップ。 (d)選択されたラベル・ストリング中の継続するラベ
ルに対応するマルコフ・モデルを順に連結し連結シーケ
ンスを生成し記憶するステップ。 (e)上記確率に基づいて選択されたラベル・ストリン
グ以外の上記ラベル・ストリングの各々の、ゼロ個また
は1個以上のラベルからなる継続したサブ・ストリング
を上記連結シーケンス中の継続したマルコフ・モデルに
整列させるステップ。 (f)上記ラベル・ストリングを、上記ラベル・ストリ
ングの各々のi番目の共通セグメントがi番目の共通サ
ブ・ストリングに対応するように、継続した共通セグメ
ントに分割するステップ。 (g)上記選択されたラベル・ストリングのi番目のラ
ベルおよび他のラベル・ストリングのi番目のサブ・ス
トリングに基づいてi番目の共通セグメント用の1個ま
たは一連のマルコフ・モデルを構築するステップ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US133719 | 1980-03-25 | ||
US07/133,719 US4819271A (en) | 1985-05-29 | 1987-12-16 | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01265297A true JPH01265297A (ja) | 1989-10-23 |
Family
ID=22459990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63316619A Pending JPH01265297A (ja) | 1987-12-16 | 1988-12-16 | マルコフ・モデル単語ベースフオーム構築方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4819271A (ja) |
EP (1) | EP0321410B1 (ja) |
JP (1) | JPH01265297A (ja) |
CA (1) | CA1320274C (ja) |
DE (1) | DE3878541T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216490A (ja) * | 1991-10-23 | 1993-08-27 | Internatl Business Mach Corp <Ibm> | 音声コード化装置及び方法並びに音声認識装置及び方法 |
Families Citing this family (194)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
US5274739A (en) * | 1990-05-22 | 1993-12-28 | Rockwell International Corporation | Product code memory Itakura-Saito (MIS) measure for sound recognition |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
US5544257A (en) * | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5915236A (en) * | 1992-11-13 | 1999-06-22 | Dragon Systems, Inc. | Word recognition system which alters code executed as a function of available computational resources |
US5455889A (en) * | 1993-02-08 | 1995-10-03 | International Business Machines Corporation | Labelling speech using context-dependent acoustic prototypes |
US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
KR950013127B1 (ko) * | 1993-03-15 | 1995-10-25 | 김진형 | 영어 문자 인식 방법 및 시스템 |
US5737490A (en) * | 1993-09-30 | 1998-04-07 | Apple Computer, Inc. | Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models |
US5528701A (en) * | 1994-09-02 | 1996-06-18 | Panasonic Technologies, Inc. | Trie based method for indexing handwritten databases |
US5884261A (en) * | 1994-07-07 | 1999-03-16 | Apple Computer, Inc. | Method and apparatus for tone-sensitive acoustic modeling |
US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
JPH10503033A (ja) * | 1995-05-03 | 1998-03-17 | フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ | 新ワードのモデル化に基づく音声認識方法及びその装置 |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
US6061654A (en) * | 1996-12-16 | 2000-05-09 | At&T Corp. | System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6141661A (en) * | 1997-10-17 | 2000-10-31 | At&T Corp | Method and apparatus for performing a grammar-pruning operation |
US6122612A (en) * | 1997-11-20 | 2000-09-19 | At&T Corp | Check-sum based method and apparatus for performing speech recognition |
US6208965B1 (en) | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6205428B1 (en) | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
US7937260B1 (en) | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6514201B1 (en) | 1999-01-29 | 2003-02-04 | Acuson Corporation | Voice-enhanced diagnostic medical ultrasound system and review station |
US6577999B1 (en) * | 1999-03-08 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7020587B1 (en) * | 2000-06-30 | 2006-03-28 | Microsoft Corporation | Method and apparatus for generating and managing a language model data structure |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
DE102004063552A1 (de) * | 2004-12-30 | 2006-07-13 | Siemens Ag | Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems |
CN101185115B (zh) * | 2005-05-27 | 2011-07-20 | 松下电器产业株式会社 | 语音编辑装置及方法和语音识别装置及方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070094024A1 (en) | 2005-10-22 | 2007-04-26 | International Business Machines Corporation | System and method for improving text input in a shorthand-on-keyboard interface |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8229232B2 (en) * | 2007-08-24 | 2012-07-24 | CVISION Technologies, Inc. | Computer vision-based methods for enhanced JBIG2 and generic bitonal compression |
US8010341B2 (en) | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
KR101780760B1 (ko) * | 2011-06-30 | 2017-10-10 | 구글 인코포레이티드 | 가변길이 문맥을 이용한 음성인식 |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN111160024B (zh) * | 2019-12-30 | 2023-08-15 | 广州广电运通信息科技有限公司 | 基于统计的中文分词方法、系统、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62194295A (ja) * | 1986-02-18 | 1987-08-26 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | ワード・マルコフ・モデル生成方法 |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
DE3680903D1 (de) * | 1986-03-27 | 1991-09-19 | Ibm | Verfahren zur erzeugung vor wortmustern aus mehreren aeusserungen fuer spracherkennung. |
-
1987
- 1987-12-16 US US07/133,719 patent/US4819271A/en not_active Expired - Fee Related
-
1988
- 1988-09-16 CA CA000577724A patent/CA1320274C/en not_active Expired - Fee Related
- 1988-12-12 EP EP88810855A patent/EP0321410B1/en not_active Expired - Lifetime
- 1988-12-12 DE DE8888810855T patent/DE3878541T2/de not_active Expired - Fee Related
- 1988-12-16 JP JP63316619A patent/JPH01265297A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
JPS62194295A (ja) * | 1986-02-18 | 1987-08-26 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | ワード・マルコフ・モデル生成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216490A (ja) * | 1991-10-23 | 1993-08-27 | Internatl Business Mach Corp <Ibm> | 音声コード化装置及び方法並びに音声認識装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
DE3878541T2 (de) | 1993-08-12 |
EP0321410A3 (en) | 1989-10-25 |
US4819271A (en) | 1989-04-04 |
DE3878541D1 (de) | 1993-03-25 |
EP0321410B1 (en) | 1993-02-17 |
EP0321410A2 (en) | 1989-06-21 |
CA1320274C (en) | 1993-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH01265297A (ja) | マルコフ・モデル単語ベースフオーム構築方法 | |
US5515475A (en) | Speech recognition method using a two-pass search | |
US4882759A (en) | Synthesizing word baseforms used in speech recognition | |
EP0387602B1 (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
Young et al. | Tree-based state tying for high accuracy modelling | |
US5072452A (en) | Automatic determination of labels and Markov word models in a speech recognition system | |
JPH01137297A (ja) | 音声認識装置 | |
US5241619A (en) | Word dependent N-best search method | |
EP1133766B1 (en) | Network and language models for use in a speech recognition system | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
JPS62231995A (ja) | 音声認識方法 | |
Schwartz et al. | Efficient, high-performance algorithms for n-best search | |
US5293451A (en) | Method and apparatus for generating models of spoken words based on a small number of utterances | |
JP2002358097A (ja) | 音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JP3559479B2 (ja) | 連続音声認識方法 | |
JP3460723B2 (ja) | 音声認識方式 | |
JP3369121B2 (ja) | 音声認識方法および音声認識装置 | |
JPH08123477A (ja) | 不定長音響モデル作成装置及び音声認識装置 | |
JPH10254481A (ja) | 音声認識方法 | |
JPH1097271A (ja) | 言語モデル構成法、音声認識用モデル及び音声認識方法 | |
JPH0372990B2 (ja) | ||
JPH11272288A (ja) | 連続音声認識装置 | |
Jelinek et al. | An Experiment with Feed-Forward Neural Network for Speech Recognition |