JPH01265297A - マルコフ・モデル単語ベースフオーム構築方法 - Google Patents

マルコフ・モデル単語ベースフオーム構築方法

Info

Publication number
JPH01265297A
JPH01265297A JP63316619A JP31661988A JPH01265297A JP H01265297 A JPH01265297 A JP H01265297A JP 63316619 A JP63316619 A JP 63316619A JP 31661988 A JP31661988 A JP 31661988A JP H01265297 A JPH01265297 A JP H01265297A
Authority
JP
Japan
Prior art keywords
label
string
strings
word
markov model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63316619A
Other languages
English (en)
Inventor
Lalit R Bahl
ラリツト・ライ・バール
Peter V Desouza
ピーター・ヴインセント・デソウザ
Robert L Mercer
ロバート・レロイ・マーカー
Michael A Picheny
マイケル・アラン・ピチエニイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH01265297A publication Critical patent/JPH01265297A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 この発明はマルコフ・モデルのシーケンスから構成され
る単語ベースフォームとして、諸量単語の各々がコンピ
ュータ・メモリ中で表わされ記憶されている音声認識に
関する。
B、従来技術 音声認識用にマルコフ・モデルを用いることが提案され
ている。マルコフ・モデル音声認識における基本処理は
、諸量単語の各々をマルコフ・モデルの対応するシーケ
ンスとして表わすことである。
従来各マルコフ・モデルは通常、フォニームすなわち産
学的要素を表わしていた。音声学者(人間)が、経験や
感覚に基づいて各諸量単語を音声学的要素の対応するシ
ーケンスとして定義する。
音声学的要素のシーケンスに関連するマルコフ・モデル
を連結して音声学的単語ペース・フオームを形成する。
第1図において、音声学的単語ベースフォーム100は
単語“THE”用のもので、3つの音声学的マルコフ・
モデルからなるシーケンスを含む。第1のものは音声学
的要素DHを示すもので、第2のものは音声学的要素U
HIを表わすもので、第3のものは音声学的要素XXを
表わすものである。国際音声学アルファベットは標準的
な音声学的要素をリストしている。
図においては3個の音声学的マルコフ・モデルの各々は
初期状態、最終状態およびその間の複数の状態を有し、
また状態から状態へのびるアークを有している。学習段
階で、各アークについて確率が決定され、また非空アー
ク(実線で表わされている)につきラベル出力確率が決
定される。ラベル出力確率は所与のアークが採用された
ときに1のラベルを生成するゆう度に対応する。初期の
マルコフ・モデル音声認識システムでは、たとえば米国
特許出匿第845155号のシステムでは、諸量単語の
各々は第1図に示すような音声学的マルコフ・モデルの
シーケンスとして表わされていた。認識時には、音声発
声に応じて音響プロセッサがラベルのストリングを生成
する。ラベル・ストリングが各単語の音声学的マルコフ
・モデルのシーケンスに沿って採用する種々のパスとア
ークを採用する確率およびそのアークでラベルを生成す
る確率とに基づいて、各単語のマルコフ・モデル・シー
ケンスがそのラベル・ストリングを生成するゆう度が決
定される。
音声学的マルコフ・モデルには種々の問題がある。第1
に、各単語の音声学的マルコフ・モデル・シーケンスは
音声学者の経験や感覚に大きく左右されてしまう。異な
る音声学者の間では、所与の単語に関連するマルコフ・
モデル・シーケンスが異なってしまう。第2に、音声学
的要素に関連するマルコフ・モデルは比較的複雑である
。音声学的マルコフ・モデルに基づく音声認識には膨大
な計算量が必要となる。第3に、音声学的マルコフ・モ
デルのみに基づいて1発声単語を認識する際の精度は最
適でないことである。
上述の問題を部分的に解消するには、すべての単語につ
いて近似音響マツチングを行って候補単語の小さなリス
トを生成することである。候補単語の各々についてはそ
ののち詳細な音響マツチングを行う。詳細に検討すべき
単語の数を減少させることにより、計算量を少なくする
ことができる。
これについては上述の米国特許出願845155号で検
討した。
精度を向上させ、音声学的手法による問題点を解消する
ため、異なる型のマルコフ・モデルに基づく音声認識が
提案されている。この異なる型のマルコフ・モデルを説
明するために、マルコフ・モデル音声認識システムが典
型的に音響波形(音声入力)をラベル・ストリングに変
換する音響プロセッサを有するとする。ストリング中の
ラベルはラベル・アルファベットから選択される。この
場合、各ラベルは全音声を定義するr次元空間中で定義
されるベクトルのクラスタに対応する。各時間間隔にお
いて、音響プロセッサはr個(20のオーダ)の音声の
特徴を検査する(たとえば20個の周波数バンドにエネ
ルギの大きさ)。r個の特徴の値に基づいて、r個の要
素からなる「特徴ベクトル」が定義される。そして複数
のクラスタ(たとえば200個のクラスタ)のどれに特
徴ベクトルが属するかが決定される。各時間間隔ごとに
音響プロセッサが特徴ベクトルを生成し、この特徴ベク
トルがどのクラスタに属するかの決定がなされ、そのク
ラスタのラベルが当該時間間隔に関連付けられる。音響
プロセッサは出力としてラベル・ストリングを生成する
上述の異なる型のマルコフ・モデルは音声学的要素より
もラベルに関係している。すなわち、各ラベルごとにマ
ルコフ・モデルが存在する。用語rフィーニームJ  
(feneme)が「ラベルに関係しているJ  (l
abel−related)ことを示唆するとすれば、
各ラベルに対応するフィーニーム・マルコフ・モデルが
存在する。
フィーニーム・マルコフ・モデルに基づく音声認識にお
いては、各単語はフィーニーム・マルコフ・モデルのシ
ーケンスにより表わされた単語ベースフォームの形をし
ている。音声の発声に応じて音響プロセッサによって生
成されたラベル・ストリングに対して、各単語のフィー
ニーム・マルコフ”モデル°シーケンスがマツチングさ
せられ単語のゆう度が決定される。
ラベルは音声学的要素のように容易に識別できるもので
はないから、フィーニーム・マルコフ・モデルからなる
単語ベースフォームを人間が行うのは至雅の業である。
フィーニーム単語ベースフォームは人間でなくコンピュ
ータが構築できる。
単純なアプローチは、話者が各単語につき一度ずつ発声
を行って音響プロセッサかラベル・ストリングを生成す
るようにするものである。所定の単語のストリング中の
継続したラベルについて、対応するフィーニーム・マル
コフ・モデルが一列に連結させてその単語のフィーニー
ム・マルコフ・モデル・ベースフォームが生成される。
したがってラベルLL−L5−LIO・・・L50が発
声されたのであれば、フィーニーム・マルコフ・モデル
F工FsF□。・・・F、がフィーニーム・マルコフ・
モデル単語ベースフォームを形成する。この型のベース
フォームを単一型(シングルトン)ベースフォームと呼
ぶ、単一型ベースフォームはさほど正確なものではない
、なぜなら単一型ベースフォームは対象単語の単一の発
声にしか基づいていないからである。単語の発声がうま
くいかなかったり、種々の発音が可能な単語の場合には
、単一型ベースフォームは満足のゆくものではない。
単一型ベースフォームを改良するのに、対象単語ごとの
複数の発声に基づいて単語ベースフオームを構築するこ
とが提案された。そのような装置および方法は上述の米
国特許出願に記載されている。そこでは、多重な発声に
基づくことから単語ベースフォームはより正確であり、
また人間の介在なしに自動的に構築できる。
C0発明が解決しようとする問題点 この発明は複数の発声から単語ベースフオームを構築す
る方法をより改善し、高精度を実現する単語ベースフォ
ームを実現できるようにすることを目的としている。
D1問題点を解決するための手段     □この発明
では、対象単語の複数の発声を音響プロセッサで処理し
、複数のラベル・ストリングを生成する。このストリン
グの1つがプロトタイプ・ストリングとして選択される
(好ましくはストリング長に基づいて)。好ましくはフ
ィーニーム・マルコフ・モデルの単一型(シングルトン
)ベースフォームがプロトタイプ・ストリングから生成
される。この単一型ベースフォームは対象単語に対する
プロトタイプ・ストリング以外の複数のストリングに整
列させられ、各ストリングは継続したサブ・ストリング
に分割される(各サブ・ ストリングはゼロまたは1以
外のラベルからなる)。
継続したサブ・ストリングの各々は単一型ベースフォー
ム中の継続したモデルの1つに対応する。
複数のストリングの各々について、単一型ベースフォー
ム中の1つのフィーニーム・マルコフ・モデルに整列す
るサブ・ストリングが存在する。所定の1つのフィーニ
ーム・マルコフ・モデルに整列されられたサブ・ストリ
ングはグルーピングされる。1つのグループ内のサブ・
ストリングは一緒に検査され、1つのフィーニーム・マ
ルコフ・モデルまたは一連のフィーニーム・マルコフ・
モデルのいずれが最も高い結合確率でそのグループ内の
サブ・ストリングを生成するかが決定される。
その1つまたは一連のフィーニーム・マルコフ・モデル
はそのグループに割り当てられ、それにより単語セグメ
ントが表わされる。
継続する単語セグメント用の1個または一連のフィーニ
ーム・マルコフ・モデルは連結されて単語ベースフォー
ムを生成する。この処理は語彙中の単語に順次繰り返さ
れる。処理は自動的に行われる。
E、実施例 第2図は単語を対応するマルコフ・モデルのシーケンス
として表わすシステム200を示す。
第2図において、音響プロセッサ202は発声音声入力
に応じてラベルのストリングを生成する。
具体的には、音響プロセッサ202は複数の特定された
音声特徴について大きさを測定、すなわち計算する。各
特徴はベクトル要素を表わす、ベクトル(特徴ベクトル
とされる)は20個の要素を持つ。継続する時間間隔に
ついて、音響プロセッサ202は継続する特徴ベクトル
を生成する。音響プロセッサ202にはプロトタイプ・
ベクトルのアルファベット(集合)が記憶されている。
アルファベットは通常200個のプロトタイプ・ベクト
ルを含んでいる。各プロトタイプ・ベクトルは特徴ベク
トルの個別のクラスタを表わす。生成された各特徴ベク
トルには単一のクラスタが割り当てられ、単一のプロト
タイプ・ベクトルによって表わされる。プロトタイプ・
ベクトルはLl、L2、L3・・・L200のようなラ
ベルまたは何らか他の識別子で特定される。用語「フィ
ーニーム」は用語「ラベル」と同一意味で用いられる。
用語「フィーニーム」は「ラベルに関連する」ことを意
味する。
この発明によれば、1つの単語について複数の発声が音
響プロセッサ202に入力される。各発声について、対
応するラベル・ストリングが存在し、コンピュータ・メ
モリ中に記憶される。この点を第3図に示す。第1の単
語WORDIに関して、第1の発声から対応するラベル
・ストリグし10− L 20− L 20− L 3
0− L 32−L 185が生成される。各ラベルは
時間間隔に対応し、時間間隔は好ましくは100分の1
秒である。したがって各ストリングは通常60から10
0個のラベルを含む。単語WORDIの第2の発声から
はラベル・ストリングL 10−L 10−L 10−
L 20− L 35− L 200 ・L Lが生成
される。
単語WORDIの第n番目の発声からはラベル・ストリ
ングL20−L30−L32−L31−L32・・・L
loが生成される。繰り返し単語WORD1を発声し、
異なるn□個のラベル・ストリングが生成される。これ
らラベル・ストリングは相互に異なる。同一の時間間隔
において測定された特徴は発声速度、発声、単語の文脈
、雑音、その他の要素の相違に応じて各発声ごとに異な
る。音響プロセッサ202は語紮中の膨大な数の単語の
各々について複数のストリングを生成するプロセスを繰
り返す、第3図はこの点を示している。第3図では最終
単語WORDWのn−目の発声で終わることを示してい
る。
各単語の複数のストリングはラベル・ストリング・スト
レージ204 (第2図)に入力される。
ストレージ204中の各単語に対して、モデル学習部2
06は当該単語のフィーニーム・マルコフ・モデルのシ
ーケンスを特定し、各フィーニーム・マルコフ・モデル
についてアーク確率値およびラベル出力確率値を決定す
る。各フィーニーム・マルコフ・モデルは有限集合をな
すフィーニーム・マルコフ・モデルの1つである。
その集合中の各マルコフ・モデルはラベル・アルファベ
ット中のラベルに対応することが望ましい。そのような
マルコフ・モデルをここでは「フィーニーム・マルコフ
轡モデル」と呼ぶ。各フル5フ・モデルは第4図に示す
ような構造を有することが望ましい。すなわち各マルコ
フ・モデルは2つの状態S1およびS2を有する。SL
から81に戻るのが第1の遷移すなわち第1のアークで
あり、triと呼ぶ。Slから82へ伸びるものが第2
の遷移すなわち第2のアークであり、tr、と呼ぶ。最
後の遷移すなわち最後のアークはtr、であり、これも
Slから82へと伸びる。
しかしこれは空遷移を表わす、遷移tr1およびtr、
ではフィーニーム・マルコフ・モデルに対してラベルが
出力として生成されるのに対し、遷移tr、ではラベル
が生成されない。各遷移には遷移確率が割り当てられて
いる。これは、マルコフ・モデルが状態S1であるとし
て、その遷移が採られる確率である。各遷移tr工およ
びtr2についてはまたラベル出力確察が割り当てられ
る。
各ラベル出力確率は各確率は各遷移において各ラベルが
出力されるゆう度を表わす。第1の遷移tr1について
は200個の確率からなるグループがある。
これら確率の各々はアルファベット中のラベルに対応す
る。同様に、遷移tr、に対しても200個のラベル確
率がある。空遷移ではラベルが出力されないから、遷移
tr3についてはラベル出力確率は存在しない。
フィーニーム・マルコフ・モデルの確率はモデル学習部
206において周知のフォワード・バンクワード・アル
ゴリズムを適用することによって決定される。これは「
学習」と呼ばれるプロセスの間に決定される統計値に基
づくものである。簡単に説明すると、既知の学習テキス
トが学習セツションで話音により発声される。学習テキ
ストは既知のシーケンスのマルコフ・モデルに対応する
ものである(確率値は初期化されている)0話音が学習
テキスト発声すると音響プロセッサ(要素202のよう
な)が発声テキストに応じたラベル・ストリングを生成
する。各フィーニーム・フォーンはその学習テキスト中
で極めて多くの回数発声される。そしてカウントがなさ
れる。各カウントは所定のフィーニーム・マルコフ・モ
デルが所定のラベルを生成した回数を示す。各カウント
はそれに対応するマルコフ・モデルの全頻度を考慮にい
れる。たとえばフィーニーム・マルコフ・モデルF1o
が学習テキスト中で3回発生し、第1回目にラベルLI
O−LL−LIO−L9が生成され、第2回目にラベル
LIOが生成され、第3回目にラベルL9−Ll 1が
生成されるとすると、ラベルL10に対するフィーニー
ム・フォーワード。のカウントは2+1+O=3になる
。ラベルLIOに対するカウントをフィーニーム・マル
コフ・モデルF工。により生成されるラベルのカウント
で割ることにより、正規化が行われる。この場合377
である。カウントを用いてフィーニーム・マルコフ・モ
デルの確率がフォーワード・バックワード・アルゴリズ
ムにより計算される。フォーワード・バックワード・ア
ルゴリズムの詳細については多くの論文に記載されてい
る。たとえばF、Jelinekの“Continuo
us 5peech Recognitionby 5
tatistical Methods”、 Proc
eeding、s of IEEE、 vol 64.
 pp 532−556.1976年およびり、R,B
ahl。
F、JelinekおよびR,L、Mercerの”A
 MaximumLikelihood Approa
ch to Continuous SpeechRe
cognition” 、IEEE Transact
ions on PatternAnalysis a
nd Machine Intelligence、 
vol、 PAMI−5,No、2.1982年3月に
記載されている。これらについては米国出願第8452
01号に概略が説明されている。
プロトタイプ・ストリング選択部208はプロトタイプ
・ストリングとしてラベル・ストリングの1つを選択す
る。好ましくは、プロトタイプ・ストリング選択部20
8は対象の” W ORD w ”に対して生成された
すべてのストリングの平均長に最も近い長さのラベル・
ストリングをその”WORDw”に対して選択する。こ
のプロトタイプ・ストリングはマルコフ・モデル選択部
210に入力される。各フィーニーム・マルコフ・モデ
ルの確率に基づいて、プロトタイプ・ストリング中の各
ラベルに応じたフィーニーム・マルコフ・モデルを選択
する。たとえば、プロトタイプ・ストリングがラベ/L
/L10−L20−L20−L30−F32・・・F1
85 (第3図の単語WORDIの第1の発声を参照さ
れたい)を含むとすると、継続して選択されるマルコフ
・モデルはF工。−F 2O−F2.−  F、。−F
32−・・・・・・F工□になる。継続したフィーニー
ム・マルコフ・モデルを連続したものは「単一型単価ベ
ースフォーム」と呼ばれる。
たった1個のストリング中の各ラベルが1対1対に対応
するマルコフ・モデルと関連付けられているからである
この発明では、単一型ベースフオーム用のマルコフ・モ
デル・シーケンスは対象単語WORDW 用に記憶され
ている各ストリング(プロトタイブ・ストリングではな
い)中のラベルに対して関連付けられる。この関連付け
はビタービ・アルゴリズム整合部212によって行われ
る。このビタービ・アルゴリズム整合部212は、記憶
されている各ストリング中の継続したサブ・ストリング
を単一型ベースフォーム中に継続したマルコフ・モデル
に整列するように動作する。この点は、第3図のWOR
DIについて第5図において説明しである。この場合プ
ロトタイプ・ストリングは第1発声に対応している。
第5図において、WORDIの第1の発声に基づく、単
一型単語ベースフォームを構成するフィーニーム・マル
コフ・モデルはF工。−F2゜−F2゜−F、。−Fj
2・・・を含む。周知のビタービ整合アルゴリズムによ
れば、単語WORDIの第2の発声に対応するラベル・
ストリングは単一型ベースフォーム中のフィーニーム・
マルコフ・モデルに整列させてれる。フィーニーム・マ
ルコフ・モデル用に記憶されている確率に基づいて、最
初の3つのラベルはフィーニーム・マルコフ・モデルF
工。
に整列する。第2の発声に対するストリングにおいては
つぎのマルコフ・モデルはラベルを出力しない。第3の
フィーニーム・マルコフ・モデルF2oはラベルL2゜
に整列させられる。第4番目のフィーニーム・マルコフ
・モデルF3゜は第2の発声に対応するストリングのラ
ベルL3sおよびF200に整列させられる。整列は第
2の発声のラベルを通じて行われる。第2の発声につい
ては、ストリングが一連のサブ・ストリングに分割され
、i番目のサブ・ストリング(これはゼロ、1またはそ
れ以上のラベルからなる)が継続して単一型単語ベース
フォーム中のi番目のフィーニーム・マルコフ・モデル
に対応することがわかる。
さらに第5図を参照すると、第3の発声もまたフィーニ
ーム・マルコフ・モデルF□。−F2゜−F20  F
3゜−F3z・・・に整列させられる。第2の発声と同
様に、第3の発声に応じたストリングが一連のサブ°ス
トリングに分割され、各サブ・ストリングがフィーニー
ム・マルコフ・モデルの1つに対応する。第1番目のサ
ブ・ストリング(i=1)はラベルL20およびF30
を含む。第2番目のサブ・ストリングはラベルL32を
含む。第3番目のサブ・ストリングはラベルL31を含
む。第4番目のサブ・ストリングはラベルL32を含む
以下同様である。
WORDIの最終発声からはっぎのようなサブ・ストリ
ングが生成される。第1サブ・ストリングにはラベルは
ない。第2サブ・ストリングにはラベルL1およびLl
が対応する。第3サブ・ストリングにはラベルL20が
対応する。第4サブ・ストリングにはラベルL21およ
びF22が対応する。第5サブ・ストリングにはラベル
L7が対応する。以下同様である。
サブ・ストリングはストリング(そして、それに対応す
る発声)を共通のセグメントに分割するのに用いられる
。すなわち、各ストリング中のi番目のサブ・ストリン
グは単語WORDIの同一のセグメントを表わす。サブ
・ストリング関連付部214はn□個のストリングにつ
いて第1のサブ・ストリング(i=1)をグルーピング
する。
第2のサブ・ストリング、以下も同様である。−船釣に
いえばn4個のストリングについて第1番目のサブ・ス
トリングがサブ・ストリング関連付部214によってグ
ルーピングされる。
各グループ中のサブ・ストリングに基づいて。
マルコフ・モデル構築部216はグループのサブ・スト
リングを最も高い結合の確率で生成する1個のマルコフ
・モデルまたは一連のマルコフ・モデルを決定する。た
とえば、再び第5図を参照しよう。第1のグループとし
て関連付けられたサブ・ストリングはLlo−LIO−
LIO1L2〇−L30、・・・ラベルなしを含む。フ
ィーニーム・マルコフ・モデルまたは一連のフィーニー
ム・マルコフ・モデルがサブ・ストリングをそれぞれ最
も高い結合確率を生成するものとして決定される。
決定された1個のマルコフ・モデルまたは一連のマルコ
フ・モデルは対象単語の第1の共通セグメントに関連付
けられる。第2のグループの関連サブ・ストリングにつ
いても同様の処理が行われ、1個または一連のマルコフ
・モデルが対象単語の第2の共通セグメントに関連付け
られる。この処理は以降も継続するグループについて繰
り返され、この結果対象単語のすべての共通セグメント
の各々に1個または一連のマルコフ・モデルが関連付け
られる。
継続するグループの各々について構築されたフィーニー
ム・マルコフ・モデルはマルコフ・モデル・シーケンス
連結部218によって連結され、対象単語の単語ベース
フォームが生成される。対象単語用に連結部218によ
り構築された単語ベースフォームは複数の発声に基づく
ものであり、単一型ベースフオームに較べて著しく改善
されている。第6図のフローチャートを参照して以下説
明するように、語景中の単語についてシステム200が
順次処理を行っていく。
第6図において、システム200の動作が説明される。
ステップ302では、単語インデックス値Wが1にセッ
トされ語食中の第1単語を表わすことになる。第1単語
に対し、音響プロセッサ202(第3図)が第1単語の
n。個の発声からn 個のストリングを生成する(ステ
ップ304)。ステップ306では、マルコフ・モデル
確率および関連統計値が計算され記憶される。これはス
テップ304で生成されたラベルに基づいて実行される
。ステップ308では、WORDに対しn個のストリン
グからプロトタイプ・ストリングが選択される。上述し
たように、プロトタイプ・ストリングは平均ストリング
長に最も近いストリングが好ましい。しかし他のストリ
ングたとえば最も短いストリング等をプロトタイプ・ス
トリングとして定義してもよい。
第7図は、プロトタイプ・ストリングを平均長ストリン
グとしたとき、その平均長ストリングを多数のストリン
グから決定する手法を示している。
第7図において、1uはU番目の発声の長さであり、n
は発声の個数であり、jは平均長ストリングの識別子で
ある。ステップ402および404は値の初期化に関す
る。値1aveは初めゼロであり、以降、継続する発声
の長さを加算して更新されていく。この更新はすべての
発声のストリング長が加算されるまで続ける(ステップ
404.406および408)、平均長は合計値をnで
割ることにより求められる(ステップ410)、ストリ
ング長は順次平均長に比較され、平均長に一番近いもの
が選択される(ステップ412から420)。
再度第6図を参照する。ラベル・インデックスiはステ
ップ310で1に初期化される(iおよびjのようなイ
ンデックス値はここでの説明の種々の場面で種々のイベ
ントを計算するものであることに留意されたい)。ステ
ップ312からステップ316において、プロトタイプ
・ストリングのi番目のラベルごとに対応するマルコフ
・モデルが選択される。プロトタイプ・ストリング中に
N個のラベルがあるとすると、このN個のラベルに対応
するN個のフィーニーム・マルコフ・モデルが結合され
て(ステップ318)単一型単語ベースフォームが生成
される。プロトタイプ・ストリング以外のストリングが
1つステップ320で選択される。ステップ320で選
択されたストリングは単一型単語ベースフォーム中のマ
ルコフ・モデルにビタービ整列させられ(ステップ32
2)、単一型単語ベースフォーム中の継続するマルコフ
・モデルの各々に、ステップ320で今選ばれたストリ
ングのラベル・サブ・ストリングが対応するようになる
。ステップ320および322はラベル・ストリングご
とに繰り返し実行されていく (ステップ324)。
ステップ320からステップ324の処理の詳細は第8
図に示されている。第8図において、γ のラベルとして定義されている。′1αn”はテキスト
発声単語中のα番目の単語のn番目の発声に関連するラ
ベルの個数として定義される。′dα″はテキスト発声
単語中のα番目の単語に関連するフィーニーム・マルコ
フ・モデルの個数とし■   はα番目の単語のn番目
の発声のに番に 目のラベルの1つのマルコフ・モデルへのマツピングと
して定義される。ただし、テキスト発声単語中である。
ここでl  ≧に≧1、dα≧α n vにn≧1である。第8図において、kおよびnは1に
初期化され、すべてのストリングUは空ストリングに初
期化される(ステップ502)。各とによって更新され
る。この更新は発声中のすべてのラベルが連結されつく
すまで行われる(ステップ504から508)。たとえ
ばn番目の発声に14個のラベルがあり、最初の3つの
ラベルが第1のモデルにマツピングされ、つぎの10個
のラベルが第2のモデルにマツピングされ、最初のラベ
ルが第3のモデルにマツピングされるとしよう。ステッ
プ504ではU  を第1のモデルをマツピングするも
のとして更新する。この更新は第1のラベルを付加して
行われる。第1のラベルを付加したのち、第2のラベル
が付加され、さらに第3のラベルが付加される。ステッ
プ508からステップ504への新しいサイクルでは第
2のモデルに関連する新しい(空の)ストリングが適用
される。このストリング中の第4番目のラベルは空のス
トリングに付加されて更新ずみストリングを生成する。
つづいて、第5、第6、第7.・・・第16のラベルが
付加される。第3のモデルに対するつぎの(空の)スト
リングがこののち更新される。これは空ストリングに第
16のラベルを付加して行われる。n番目の発声の14
番目(最後)のラベルののちに、nがステップ510で
増分され、つぎの発声が処理される、各発声について第
1のラベルから処理が始まり、最後のラベルで処理が終
了する(ステップ512および514)。
以上のようにして(n−1)個のストリングのすべて、
すなわちプロトタイプ・ストリング以外のストリングが
継続したサブ・ストリングに分割される。この場合i番
目のサブ・ストリングの各々はゼロまたは1以上のラベ
ルの長さを有し、単語WORDの共通のセグメントに対
応する。i番目のすべてのサブ・ストリングを生成する
結合確率が最高となる。1個または一連のフィーニーム
・マルコフ・モデルが構築される(ステップ326から
332)。すなわち、共通セグメントについて順次にサ
ブ・ストリングが処理されて対応する1個または一連の
マルコフ・モデルが決定される。
第9図において、分割・勝ち残り手法(divide−
and−conquer)が採用され、対象単語の所定
のi番目の共通セグメントに対して改善されたセグメン
ト・ベースフォームが導出される。第9図のステップを
説明しよう。第9図のフローチャートでは「フォーン」
または「フォーン・マシーン」の用語でマルコフ・モデ
ルを相称することに留意されたい。
フォーン(すなわちマルコフ・モデル)のセットが定義
されており、どのフォーンがi番目の共通セグメントに
対応するi番目のサブ・ストリングのすべてに適用され
たときにフォーン長1の最良のベースフォームを実現す
るかを決定する(ステップ602および604)。フォ
ーン長1の最良ベースフォーム(P□と呼ぶ)は、セッ
ト中の各フォーンを吟味し、各フォーンについてi番目
のサブ・ストリングの各々を生成する確率を求めること
によって見出される。個別のフォーンの各々につき導出
されたn個の確率は掛は合わされ(第2図のシーケンス
構築部216のプロセッサによって行う)、個別のマル
コフ・モデルすなわちフォーンに割り当てられる結合確
率が生成される。最も大きな結合確率を有するフォーン
が長さ1の最良ベースフオームP工として選択される。
フォーンPiを維持したままで、P1P2またはP2P
Lの形を有する長さ2の最良ベースフォームをステップ
606で求める。すなわちセット中の各フォーンをPl
の前および後に付加し、各フォーン対についての結合確
率を導出する。フィーニーム・ストリングを最大の結合
確率で生成するフォーン対が最良と判断される。
ステップ608では、長さ2の最良ベースフォーム、す
なわち最大の結合確率を有するフォーン対について周知
のビタービ整合のような整合を行う。簡単にいえば、整
列はi番目の各サブ・ストリング中のどのラベルがフォ
ーン対の各フォーンに対応するかを示す。
整列に続いて、i番目の各サブ・ストリングにおける一
致点が判別される。i番目の各サブ・ストリングについ
て一致点はフォーンP□およびP2(長さ2の最良ベー
スフォームの)が合致する点として定義される。以上の
かわりに、−散点は、i番目の各サブ・ストリングを右
がわのフォーンに整列する右がね部分と左がねフォーン
に整列する左がね部分とに分割する点と考えることがで
きる。ここでi番目のす入てのサブ・ストリングの左が
ね部分は単語の共通セグメントを表わし、itj目のす
べてのサブ・ストリングの右がね部分も単語の共通セグ
メントを表わす(ステップ610参照)。
ステップ612においては、左がわ部分および右がわ部
分は別々に処理される。ただしそれぞれ「左がわサブ・
ストリング」および右がわサブ・ストリングとして同様
に処理される。これらには上述の分割・勝ち残り手法が
適用される。
左がねサブ・ストリングに対しては最良の単一フォーン
・ベースフォームPLが見出される(ステップ614)
。フォーンP Lをそのままにして、セット中の各フォ
ーンがその前および後に付加されて配列フォーン対が生
成される。配列対P P またはP A P Lが、左
がねサブ・ストリA フグ中のラベルを生成する結合確率が最大のものとして
見出される(ステップ616)、先で示唆されるようう
に、これが左がねサブ・ストリングに対する長さ2の最
良ベースフォームを表わす。
左がわサブ・ストリングに対する長さ2の最良ベースフ
ォームの結合確率はPL固有の結合確率と比較される(
ステップ618)。PLの結合確率のほうが大きいなら
、フォーンPLが連結ベースフォーム中に配置される(
ステップ620)。
ステップ618でP の結合確率の方が小さいなら、P
P  またはPP  が左がねサブ・ストLA    
 AL リングに整列させられる(ステップ622)。左がわサ
ブ・ストリングにおける一致点が見出され。
各人がねサブ・ストリングは新しい左がわ部分と新しい
右がわ部分に分割される部分と新しい右がわ部分に分割
される(ステップ624)。
同様の手順は、最初に分割したi番目のサブ・ストリン
グの右がわ部分の各々にも実行される。
単一の最良ベースフォームP (ステップ626)はフ
ォーン長2の最良ベースフォームPP  またはPBP
Rと比較される(ステップB 628および630)、PRの結合確率のほうが大きい
なら、フォーンPRが結合ベースフォーム中に配置され
る(ステップ620)。そうでなければ整列が実行され
、右がねサブ・ストリングの各々が一致点で分割される
(ステップ632および634)。
分割サイクルは、長さ2の最良ベースフォームが最良単
一フォーン・ベースフォームより大きな結合確率を有す
る右がねサブ・ストリングおよび左がわサブ・ストリン
グの各々について繰り返される。最良の単一フォーンの
みが残った点でサイクルは終了する。最良の単一フォー
ンがステップ620で連結される。
単一フォーン・ベースフォームはそれらが表わすサブ・
ストリングと同じ順番で連結される。連結されたベース
フォームは基本単語セグメント・ベースフォームを表わ
す。
基本連結ベースフォームを改善することができる。この
改善では、基本連結ベースフォームが初めのi番目のサ
ブ・ストリングに整列させられる(ステップ640)、
i番目のサブ・ストリングはフォーンすなわちマルコフ
・モデルが合致する点で分割される(ステップ642)
、分割の各々において、新しい最良フォーンが決定され
る(ステップ644)、すなわち各フォーンに確率が付
与されると、分割部分のラベルを最大の確率で生成する
フォーンが既知の方法で決定される。整列のゆえに、分
割部分中のラベルに対する最良の単一フォーンは、先に
整列され連結されたベースフォーム中の単一フォーンと
異なるかもしれない。
新しい最良フォーンが連結ベースフォーム中のフォーン
と同一であれば(ステップ646)、新しい最良フォー
ンが第2図のシーケンス構築部216のプロセッサによ
って改善された単語セグメント・ベースフォーム中に配
置される(ステップ648)、新しい最良フォーンが先
に連結されたベースフォーム中のフォーンと異なるなら
ば、新しい最良フォーンで基本連結ベースフォーム中の
先のフォーンを置き換え(ステップ648)、ステップ
640から646までの処理を繰り返す。ステップ64
6ですべての分割部分について「イエス」の出力が生じ
たときに、フォーン結果を改善単語セグメント・ペース
フォーン中に連結する(ステップ652)。第6図のス
テップ334において、i番目の各共通セグメント用に
構築された1個または一連のフィーニーム・マルコフ・
モデルが連結され、単語ベースフォームが生成される。
ステップ336からステップ338では、ステップ30
4からステップ334の処理に準じて語彙中の継続した
単語についての単語ベースフォームが構築される。
動作においては、単語ベースフォームはコンピュータ・
メモリ中にフィーニーム・マルコフ・モデルのシーケン
スとして記憶される。たとえば、1の単語はF、−F工
。−Fl。・・・のシーケンスとして記憶される。各フ
ィーニーム・マルコフ・モデルの確率もメモリ中に記憶
される。
マルコフ・モデル確率ストレージ モデルF。
状態 Sl アーク  tri Arcprob 1prob 2prob 3prob L20(lprob アーク tr2 Arcprob 1prob 2prob 3prob L200prob アーク tr3 Arcprob モデルFG モデルF□。
状態 Sl アーク  tri Arcprob 1prob 2prob 3prob L200prob アーク tr2 Areprob lprob L2prob L3prob L200prob アーク tr3 Arcprob モデルF 200 状態 Sl アーク  tri Arcprob 1prob L2ρrob 3prob L200prob アーク tr2 Arcprob 1prob 2prob 3prob L200prob アーク tr3 Arcprob この発明にしたがって単語ベースフォームが決定され、
またフィーニーム・マルコフ・モデルの確率が記憶され
ると、音響マツチングを単語ベースフォームと発声ラベ
ルとの間で行って音声認識を行う、ハードウウアの構成
はつぎのようなものである。
ヘースフォーム成長手順はIBM3090メイン・フレ
ーム上PLI言語を用い以下のメモリ要請のもと実現し
た。
ヒドン・マルコフ・モデル統計用ストレージ200キロ
・バイト ラベル・ストレージ 10/バイト/ラベル→1キロ・バイト/単n2000
単語語量で発声を10回 したがって200メガ・バイト 単一型フィーニーム・ベースフォーム 1キロ・バイト/ベースフォーム 20000単語語食 したがって20メガ・バイト
【図面の簡単な説明】
第1図音声学的マルコフ・モデル単語ベースフォームを
説明する図、第2図はこの発明の一実施例を全体として
示すブロック図、第3図は複数発声により生成されるラ
ベルの説明する図、第4図はこの発明で用いるフィーニ
ーム・マルコフ・モ′ デルを説明する図、第5図はラ
ベル・ストリングを単一型ベースフォームに整列させる
ようすを示す図、第6図は第6A図および第6B図の組
み合わせ図、第6A図および第6B図はこの発明の手法
を示すフローチャート、第7図は第6A図および第6B
図のプロトタイプ・ストリングの選択方法を示すフロー
チャート、第8図はラベル・スト1  リングのグルー
ピングを説明するフローチャート、第9図は第9A図お
よび第9B図の組み合わせ図、第9A図および第9B図
は各単語セグメント用の最良マルコフ・モデルまたはマ
ルコフ・モデル・シーケンスを決定するフローチャート
である。 出願人  インターナショナル・ビジネス・マシーンズ
・コーポレーション 復代理人  弁理士  澤  1) 俊  夫音声入力 第2図 第9A図

Claims (1)

  1. 【特許請求の範囲】 音声入力に基づいてラベル・ストリングを生成する音響
    プロセッサを有するマルコフ・モデル音声認識システム
    において、つぎのステップを有することを特徴とするマ
    ルコフ・モデル単語ベースフォーム構築方法。 (a)一組のマルコフ・モデルの各々について、アーク
    確率およびラベル出力確率を計算しコンピュータ・メモ
    リに記憶するステップ。 上記マルコフ・モデルの各々はそれぞれ1つのラベルに
    対応し、複数の状態およびこれら状態から状態へ延びる
    複数のアークを有する。 (b)語彙中の対象単語のn個の発声に応じてn個のラ
    ベル・ストリングを上記音響プロセッサを用いて生成す
    るステップ。 (c)上記複数のラベル・ストリングのうち1つを選択
    するステップ。 (d)選択されたラベル・ストリング中の継続するラベ
    ルに対応するマルコフ・モデルを順に連結し連結シーケ
    ンスを生成し記憶するステップ。 (e)上記確率に基づいて選択されたラベル・ストリン
    グ以外の上記ラベル・ストリングの各々の、ゼロ個また
    は1個以上のラベルからなる継続したサブ・ストリング
    を上記連結シーケンス中の継続したマルコフ・モデルに
    整列させるステップ。 (f)上記ラベル・ストリングを、上記ラベル・ストリ
    ングの各々のi番目の共通セグメントがi番目の共通サ
    ブ・ストリングに対応するように、継続した共通セグメ
    ントに分割するステップ。 (g)上記選択されたラベル・ストリングのi番目のラ
    ベルおよび他のラベル・ストリングのi番目のサブ・ス
    トリングに基づいてi番目の共通セグメント用の1個ま
    たは一連のマルコフ・モデルを構築するステップ。
JP63316619A 1987-12-16 1988-12-16 マルコフ・モデル単語ベースフオーム構築方法 Pending JPH01265297A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US133719 1980-03-25
US07/133,719 US4819271A (en) 1985-05-29 1987-12-16 Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments

Publications (1)

Publication Number Publication Date
JPH01265297A true JPH01265297A (ja) 1989-10-23

Family

ID=22459990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63316619A Pending JPH01265297A (ja) 1987-12-16 1988-12-16 マルコフ・モデル単語ベースフオーム構築方法

Country Status (5)

Country Link
US (1) US4819271A (ja)
EP (1) EP0321410B1 (ja)
JP (1) JPH01265297A (ja)
CA (1) CA1320274C (ja)
DE (1) DE3878541T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216490A (ja) * 1991-10-23 1993-08-27 Internatl Business Mach Corp <Ibm> 音声コード化装置及び方法並びに音声認識装置及び方法

Families Citing this family (194)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5915236A (en) * 1992-11-13 1999-06-22 Dragon Systems, Inc. Word recognition system which alters code executed as a function of available computational resources
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
KR950013127B1 (ko) * 1993-03-15 1995-10-25 김진형 영어 문자 인식 방법 및 시스템
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
JPH10503033A (ja) * 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
US5706397A (en) * 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6514201B1 (en) 1999-01-29 2003-02-04 Acuson Corporation Voice-enhanced diagnostic medical ultrasound system and review station
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
DE102004063552A1 (de) * 2004-12-30 2006-07-13 Siemens Ag Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070094024A1 (en) 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8229232B2 (en) * 2007-08-24 2012-07-24 CVISION Technologies, Inc. Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
US8010341B2 (en) 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
KR101780760B1 (ko) * 2011-06-30 2017-10-10 구글 인코포레이티드 가변길이 문맥을 이용한 음성인식
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN111160024B (zh) * 2019-12-30 2023-08-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62194295A (ja) * 1986-02-18 1987-08-26 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン ワード・マルコフ・モデル生成方法
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
DE3680903D1 (de) * 1986-03-27 1991-09-19 Ibm Verfahren zur erzeugung vor wortmustern aus mehreren aeusserungen fuer spracherkennung.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
JPS62194295A (ja) * 1986-02-18 1987-08-26 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン ワード・マルコフ・モデル生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216490A (ja) * 1991-10-23 1993-08-27 Internatl Business Mach Corp <Ibm> 音声コード化装置及び方法並びに音声認識装置及び方法

Also Published As

Publication number Publication date
DE3878541T2 (de) 1993-08-12
EP0321410A3 (en) 1989-10-25
US4819271A (en) 1989-04-04
DE3878541D1 (de) 1993-03-25
EP0321410B1 (en) 1993-02-17
EP0321410A2 (en) 1989-06-21
CA1320274C (en) 1993-07-13

Similar Documents

Publication Publication Date Title
JPH01265297A (ja) マルコフ・モデル単語ベースフオーム構築方法
US5515475A (en) Speech recognition method using a two-pass search
US4882759A (en) Synthesizing word baseforms used in speech recognition
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
Young et al. Tree-based state tying for high accuracy modelling
US5072452A (en) Automatic determination of labels and Markov word models in a speech recognition system
JPH01137297A (ja) 音声認識装置
US5241619A (en) Word dependent N-best search method
EP1133766B1 (en) Network and language models for use in a speech recognition system
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPS62231995A (ja) 音声認識方法
Schwartz et al. Efficient, high-performance algorithms for n-best search
US5293451A (en) Method and apparatus for generating models of spoken words based on a small number of utterances
JP2002358097A (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP3873418B2 (ja) 音声スポッティング装置
JP3559479B2 (ja) 連続音声認識方法
JP3460723B2 (ja) 音声認識方式
JP3369121B2 (ja) 音声認識方法および音声認識装置
JPH08123477A (ja) 不定長音響モデル作成装置及び音声認識装置
JPH10254481A (ja) 音声認識方法
JPH1097271A (ja) 言語モデル構成法、音声認識用モデル及び音声認識方法
JPH0372990B2 (ja)
JPH11272288A (ja) 連続音声認識装置
Jelinek et al. An Experiment with Feed-Forward Neural Network for Speech Recognition