JPH0422276B2 - - Google Patents

Info

Publication number
JPH0422276B2
JPH0422276B2 JP58191711A JP19171183A JPH0422276B2 JP H0422276 B2 JPH0422276 B2 JP H0422276B2 JP 58191711 A JP58191711 A JP 58191711A JP 19171183 A JP19171183 A JP 19171183A JP H0422276 B2 JPH0422276 B2 JP H0422276B2
Authority
JP
Japan
Prior art keywords
signal
speech
pattern
signals
markov model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58191711A
Other languages
English (en)
Other versions
JPS5991500A (ja
Inventor
Eriotsuto Reuinson Sutehen
Richaado Rabinaa Roorensu
Moohan Sondohi Man
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Technologies Inc filed Critical AT&T Technologies Inc
Publication of JPS5991500A publication Critical patent/JPS5991500A/ja
Publication of JPH0422276B2 publication Critical patent/JPH0422276B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】
本発明はパターン認識、特に自動的に音声パタ
ーンを識別するための装置に関する。 発明の背景 通信、データ処理およびそれと類似のシステム
においては、音声インタフエース装置を使用する
ことが期待されることが多い。音声入力および合
成音声出力は、問合せ、指令あるいはデータその
他の情報交換などのために利用することができ
る。音声形態のインタフエースをとることによ
り、手で端末を操作する必要なしに遠隔地からデ
ータ処理装置形態の機器との間の通信が可能とな
り、また利用者が他の機能を同時に行ない得るよ
うにできる。しかし話者の間での音声パターンの
複雑さと多様性により、正確な認識を得るのは困
難になつている。特定話者および制約された語い
に限つた特別な応用例については良好な結果が得
られているが、不特定話者の認識の不正確さのた
めに、利用範囲が限定されていた。 一般に、音声認識装置は、未知の音声パターン
を定められた音響特性信号の系列に変換するよう
構成されている。その後、これらの特性信号は、
前もつて記憶されている識別された参照パターン
を表わす音響特性信号と比較される。比較の結果
として、未知の音声信号は、定められた認識基準
に従つて最もよく適合する参照パターンとして識
別される。このような認識システムの精度は、選
択された特徴と認識基準とに非常に依存する。入
力音声パターンの特徴系列と参照パターンとの間
の比較は直接的である場合もある。しかし音声速
度と分節は非常にまちまちであることは周知であ
る。 既存の技術の認識手法の中に、比較過程のパタ
ーン間の最適列を決定するために動的計画法を利
用するものがある。このようにして、音声速度と
分節の差異の影響は緩和される。認識のために必
要な時間は、参照語いの数と各語いに対する参照
特徴パターンの数との関数であるから、動的な時
間軸変更と比較のための信号処理装置は複雑で時
間のかかるものとなる。その結果、50語程度の語
いに対する不特定話者の認識では、即時処理の実
現が困難になる。 音声認識のもう一つの手法は、統計的推定に基
づく状態と状態遷移との集合を利用る確率的なマ
ルコフモデルに基づくものである。特定話者の認
識装置は、スペクトル特徴系列が生成され、特
徴、単語および言語の階層的マルコフモデルの系
列で評価するという形態で実現されている。特徴
系列は音素のマルコフモデルによつて分析され
る。モデルはより大きな音声要素、すなわち単語
として連結される。その次に、その結果はマルコ
フモデルの階層、すなわち、構文的文脈に適用さ
れ、音声パターンの識別がなされる。しかし、連
結音素モデルの使用と非限定的階層マルコフモデ
ルシステムの複雑さとによつて、マルコフモデル
が妥当性を持つよう十分な数のモデルパターンを
得るため識別された話者によるシステムの実質的
な訓練が必要になる。本発明の目的は、話者に依
存せずしかもより高速に動作可能な確率モデルに
基づく高機能自動音声認識の手法を与えるもので
ある。 発明の要約 本発明は複数個の記憶されている制約された隠
れマルコフモデルの参照パターン信号を含む音声
認識装置に関するものである。未知の発声はそれ
を表わす音響特性信号の時間フレーム系列を構成
するように解析される。未知の発声の音声パター
ンに対応する選択された既定の特性信号の系列
が、例えば記憶されている既知の特性信号と音声
パターン特性信号系列とから発生される。音声パ
ターンの選択された既定の特性信号系列と各参照
パターンに対する制約された隠れマルコフモデル
信号との両方に応答して、音声信号が参照パター
ンである確率を表わす信号が発生する。未知の音
声パターンは前記の確率表示信号に対応する参照
パターンの一つとして識別される。 一般的な説明 当業者には周知の隠れマルコフモデルは、観測
系列O1,O2,…OTにおいて各観測が有限の数の
シンボルの中の別個のシンボルであるような観測
系列を評価するのに用いられる。観測系列は、直
接的には観測可能でない状態遷移を持つ潜在的な
マルコフ鎖の確率的関数としてモデル化できる。
第1図はこのようなモデルを説明するものであ
る。 第1図では、N、例えば5個の状態とM、例え
ば64個の出力シンボルがある。状態間の遷移は遷
移行列A=〔aij〕として表現される。aij項はそれ
ぞれモデルが状態iにいる場合に状態jへ遷移を
生ずる確率である。モデルの出力シンボルの確率
は行例B=〔bj(Ot)〕で表わされ、bj(Ot)はモ
デルが状態jの場合にシンボルOtを出力する確
率である。隠れマルコフモデルは、語い集合の各
パターンに対して1つずつある。参照パターンモ
デルの集合を導出し、各参照パターンモデルから
未知の観測を発生する確率に基づいて参照パター
ンの1つとして観測系列を分類するために用いる
ことができる。 音声認識では、入力音声パターンは音響特性の
系列を生成するよう解析される。各特徴は、当業
者には周知の線形予測係数ベクトルあるいはその
他の音響特性である。発生された特性ベクトルは
既に記憶されているLPC(線形予測係数)特性信
号の有限集合と比較され、入力音声パターンを表
わすベクトル量子化LPC信号の系列に変換され
る。量子化された特性信号のそれぞれは隠れマル
コフモデルで使われるM個のシンボルの有限集合
の1つである。認識モードでは、発声、例えば単
語あるいは句に対する量子化LPCベクトル特性
系列は観測系列Oを形成し、参照パターンモデル
K、例えば語い集合の単語あるいは句によつて生
成されるOの確率は P(O|M)=Pi1bi1(O1)ai1 i2bi2(O2) …aiT-1iTbiT(OT) (1) によつて与えられる。ここで、i1,i2,…iTはマ
ルコフモデルの状態の最尤系列であり、O1,O2
…OTは観測された系列である。第1式は事後確
率φt(i)を φt(i)=P(O1O2…Otおよび時刻tに状態iで終
わる最尤系列|K) (2) と定義すると書き換えられ、 φt+1(j)は φt+1(j)= maxi {φt(i)aijbj(Ot+1)}t=1,2, …T−1と評価される。但し、1jNかつ max{1,j−2}ijである。ここで φ1(i)=b1(O1) i=1のとき O その他 (3) である。すると第1式は P(O|K)=P=φT(N) (4) となる。各参照パターンモデルに対する確率信号
が発生された後、最も高い確率信号に対応する参
照パターンモデルとして入力音声パターンは識別
される。 第2図は隠れマルコフモデル音声認識装置の動
作を説明する概略フローチヤートである。認識装
置が動作可(205の箱)の時、入力音声パター
ンは箱210に示されるようにデイジタル信号の
系列に変換される。音声を表わすデイジタル信号
(箱210)はその後線形予測特性信号の時間フ
レーム系列に変換される(箱215)。箱215
の操作によつて発生する信号は入力音声パターン
の音響特性に対応しているが、その信号は有限集
合に限定されるわけではない。箱220の操作
は、音声パターン音響特性と線形予測特性ベクト
ルの有限集合とを比較し、各音声パターン特性信
号に対し最も良く対応する記憶されているベクト
ルを選択するのに有効である。このようにして、
既定の有限集合からのベクトル量子化特性信号は
音声パターンのいづれの連続するフレームtに対
しても得られる。ベクトル量子化特性信号はその
後フレームtの隠れマルコフモデル処理への観測
入力となる。 既定のモデルの集合が記憶されている。認識装
置の語いの各参照パターンに対し、一つのモデル
が与えられている。参照パターンモデルは、各モ
デル状態に対し状態出力シンボル信号行列と、参
照パターンモデルに対する状態間のあらゆる可能
な遷移に対応する遷移確率信号行列とを含んでい
る。参照パターンモデルは箱225に示されるよ
うに順々に選択され、入力音声パターンのLPC
ベクトル量子化特徴系列が選択された参照単語モ
デルから得られる確率が生成され記憶される(箱
230)。最後の参照パターンモデルが選択され、
その確率信号が発生された後、確率信号の最大の
ものが選択され、最良の参照パターンを識別する
信号がデータ処理装置あるいは制御システムのよ
うな応用装置に転送される。 ここでは、状態1は常に最初のフレームの初期
状態であつて、定められた形だけの左から右への
状態遷移だけが可能であり、既定の最終状態とは
他の状態への遷移が発生しえないものとして定義
されるように、各参照パターンの隠れマルコフモ
デルに制約を加える。このような制約は第1図の
状態図で説明されている。第1図において、状態
1は初期状態であり、状態5は最終あるいは吸収
状態であり、既定の左から右への遷移は状態間の
有向線によつて表示されている。 第1図の状態図によれば、状態1からは経路1
11により状態1へ再入し、経路112をへて状
態2へ進み、あるいは経路113をへて状態3へ
進むことだけが可能である。一般には、遷移は状
態への再入かあるいは次の2つの状態のうちの1
つへの移動に限定されている。本発明において、
これらの制約により音声パターンの迅速かつ正確
な認識が可能となつた。認識装置のための識別さ
れた発音参照パターンモデルの生成は一人の識別
された話者の音声パターンのみならず多くの異な
る話者の発声からの導出も可能であるためこの音
声認識は不特定話者用である。 詳細な説明 第3図は本発明を説明するための音声認識装置
の一般的なブロツク図を示すものである。第3図
の回路は電気音響変換器300に印加される音声
パターンを認識し、識別されたパターンに応答し
てそれを利用する装置380に既定の制御信号を
与えるように構成されている。第3図において、
フイルタおよび標本化器310は電気的なアナロ
グ信号を変換器300から受け、不要な高周波数
雑音を除去するため低域フイルタとして動作す
る。フイルタの遮断周波数は3.2KHzに設定され
ている。フイルタを通過した信号はその後当業者
には周知のような形で6.7KHzで標本化される。 標本化信号はアナログ・デイジタル変換器32
0に供給され、それぞれ連続して送られる標本
は、対応する標本の大きさを表わすデイジタル符
号の信号に変換される。符号化信号の列はLPC
特性信号発生器330に印加される。当業者には
周知のように、発生器330はデイジタル符号信
号列を一時的に記憶し、それらを45msの継続時
間からなる互いに連続的に重なり合うフレームに
グループ化し、各フレームに対しP線形予測パラ
メータ信号の集合を生成する。これらのLPC信
号の集合はそれぞれ対応するフレームの音響特性
を表わす。しかし、スペクトルあるいは他の音響
特性信号も利用できることは当業に熟知の者は理
解できよう。 特性発生器330はまた、特性信号列のエネル
ギー分析に基いて変換器300に印加される入力
音声パターンの終了点を検出するよう動作する。
終了点検出装置には、1975年9月30日にエル・ア
ール・ラビナー(L.R.Rabiner)等によつて提出
された米国特許3909532に発表されている例があ
る。あるいはまた、他の周知の終了点検出技術を
使用することも可能である。 特性発生器330において音声信号の終了点を
検出すると、制御信号STが付勢され、認識処理
装置340に送られ動作を開始する。認識処理装
置は、Motorola社によつて1980年に発行された
MC68000 16ビツトマイクロプロセツサ利用者マ
ニユアル第2版に記載のMC68000マイクロプロ
セツサ・タイプのものから構成されている。処理
装置340の動作順序は、プログラム用ROM3
55に格納された永久記憶命令列によつて制御さ
れる。 音響特性信号記憶370は発生器330からの
入力音声パターンを表わすLPC係数信号のフレ
ーム系列を受け、認識処理装置340が使用する
ためにアドレス可能なフレーム系列の順序で特性
信号を記憶する。原形信号記憶365は、入力音
声パターンに予想されるLPC特性信号の範囲を
おおう既定のLPC原形特性信号の集合を表わす
信号を格納している。これらの原形信号は、マル
コフモデル処理のためのシンボルの有限集合を与
える。 マルコフモデル記憶360は、変換器300に
印加される未知の発声に対する可能な参照パター
ンの隠れマルコフモデルに対応する符号化信号の
集合を格納している。各マルコフモデルは、モデ
ルの状態間の遷移確率に対応する信号、aijと各状
態の出力シンボルの確率に対応する信号bj(Ot
との集合から成つている。音声パターンフレーム
tのそれぞれに対し一つづつの出力シンボルOt
は記憶365内の原形信号に対応する。記憶36
0および365はそれぞれ処理装置340によつ
てアドレス可能な読み出し専用メモリーから成
る。ROM360および365はモデルと原形信
号とを永久に記憶する。記憶370は処理装置3
40によつてアドレス可能な書込み可能メモリー
である。RAM記憶350は認識処理装置の信号
処理操作に対する中間的な記憶として利用され、
インタフエース345は認識処理装置と第3図の
装置との間の通信インタフエースとなつている。
バス345はHybricon会社によつて製造された
HBFA−SBC614型のバツクプレーンからなつて
いる。さらに処理装置340、バス345、制御
記憶350およびRAM355はイリノイ州ウエ
ストシカゴのオムニバイト(Omnibyte)会社の
製造するOB68K1A MC68000/MULTIBUS型
のシングルボードコンピユータである。Qバス構
成も利用することができる。 第3図の回路は多くの形の相異なるパターンを
認識するのに利用することができる。説明のため
に数字、例えば電話番号やクレジツトカード番号
を認識する装置を例にとつて述べる。「9」とい
う数字の発声が変換器300に印加されたと仮定
する。第2図のフローチヤート箱207および2
10に従つて、入力音声パターンはフイルタおよ
び標本化回路310でフイルタリングおよび標本
化され、A/D変換器320でデイジタル信号の
形に変換される。デイジタル符号信号の系列は特
性信号発生器330の入力に与えられ、箱215
によつて音声パターン「9」の連続的フレームに
対しLPC係数特性信号が発生される。発生され
たLPC特性信号はフレームインデクスtによつ
てアドレス付けされ線332を経て音響特性信号
記憶370に転送される。判定用の箱218には
パターンの終了点に到達したか否かを決定するた
めに各フレーム毎に入る。終了点の検出によつて
信号STが特性信号発生器で発生され、認識処理
装置340に送られる。 信号STに応答して、処理装置340はベクト
ル量子化モードに置かれ、その間に記憶370内
のLPC特性信号は操作を示す箱220に従つて
ROM365内の原形信号に量子化される。量子
化モードは第4図のフローチヤートでさらに詳細
に説明される。 第4図に関して、処理装置340のLPC特性
信号フレームインデクスtは箱401に従つて最
初は0にリセツトされる。その後ループ403に
入つて原形インデクスmの設定を初期化する。ル
ープ403ではフレームインデクスtが1だけ増
加され(箱405)、増加されたフレームインデ
クスが入力音声パターンの最後のフレームTと比
較される(箱410)。t>Tとなるまで、箱4
15に入つて記憶370内の現在のフレーム入力
音声パターンLPC特性信号Utが処理装置340
によつてアドレスされそこからRAM350に転
送される。原形信号と特性信号との間の最小距離
を表わす信号(Dnio)は最初無限大に設定され
(箱420)、原形インデクスmは処理装置340
によつて0に設定される(箱425)。その後箱
430に入り原形インデクスmが処理装置340
で増加される。増加されたインデクスm+1はそ
の後箱435に従つて最後のインデクスM=64と
比較される。 この時点で、記憶365内の現在の原形信号が
アドレスされ認識処理装置を経てRAM350に
転送される(箱446)。現在の音声パターン特
性信号Utに最もよく対応する原形信号Rnを決定
する過程が引続いて処理装置340で開始され
る。処理装置は周知のイタクラ距離評価信号を繰
返し発生するような動作条件となり、この距離信
号は、各原形信号に対し d(Ut,Rn)=logaVat/aVat (5) の形で表わされる。ここで、a^はUtからのLPCベ
クトルであり、aはRnからのLPCベクトルであ
り、VはRnからの自己相関行列である。 最初は、距離評価信号d(Ut,Rn)および特性
インデクス信号pは箱445および450に従つ
て0に設定されている。その後で距離信号を生成
するループ452に入り、各特性インデクスに対
し操作を示す箱455に従つて距離信号が、 d(Ut,Rn)=lnPp-1 Ut(p)・Rn(p) (6) に従つて増加される。インデクス信号pは処理装
置340(箱460)で増加され、Pを最後の特
性インデクス信号とすればp>Pとなるまで判定
用の箱465を経て箱455へ戻つていく。距離
信号は対数の形に変換され(箱468)、その後
判定用の箱470でDnioと比較される。現在の原
形距離信号がDnioと等しいかより大きい場合に
は、Dnioを変更せずに橋430に戻る。そうでな
ければ、原形インデクス信号mがフレームtに対
する音声パターン量子化信号を表わすものとして
記憶され、原形mに対する距離信号がRAM35
0にDnioとして記憶される。その後箱430に戻
る。箱435でm>Mの場合は、引続いてOt
mが最も良く対応する量子化信号として選択さ
れ、箱405でループ403に入つて次のフレー
ムの量子化が起動される。 音声パターンフレームインデクスtが箱410
によつて最後の音声パターンフレームTよりも大
きくなると、量子化信号インデクスO1,O2,…,
Ot,…OTという系列が処理装置340で音声パ
ターンに対し発生され、RAM350内に記憶さ
れる。例えば「9」の発声に対応する音声パター
ンは36個のフレームを持ち、各フレームに対し64
個の可能な原形信号のうちの1つが選択される。
このようにして音声パターンは有限集合の量子化
信号の系列に変換される。各量子化信号インデク
スOtは、音声パターンの1つのフレームの量子
化音響特性を表わすp線形予測係数の集合に対応
する。未知の話者による数字「9」の発声に対
し、量子化特性信号の系列は表1に示されたよう
になる。
【表】
【表】 量子化が完了すると、処理装置340は量子化
モードから抜け、第2図の箱225,230およ
び235のマルコフモデル評価モードに入る。 モデル評価モードでは、参照パターン、例えば
数字0,1,2,…9の集合に対するマルコフモ
デルが次々と選択される。各モデルは遷移確率信
号の行列Aとシンボル出力確率信号の行列Bとか
ら成る。例として数字0、5および9の行列Aを
表2、3および4にそれぞれ示す。アステリスク
はモデルによつて禁じられている遷移を表わし、
0と評価される。 行列Aの表のそれぞれは、第1図のモデルの5
つの状態の間のすべての遷移の確率を表わす5×
5の行列である。表2、3および4に表わされて
いるように、モデルの制約として*あるいは0の
値を持たない第1図における左から右への遷移の
みが許されている。数字0、5および9の行列B
は表5、6および7の通りである。表5の各列の
数値は、数字「0」の発声に対応する状態の原形
信号の確率を表わしている。
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】 各状態の列には64種の原形の確率があるので行
列の大きは5×64となる。数字「5」および
「9」に対応する表6および7は同様な方法でま
とめたものである。 第2図のフローチヤートで示したように、
ROM360に記憶されるマルコフモデルは、パ
ターンインデクスkによつてアドレス付けされそ
こから連続して検索される。各モデルに対し、音
声パターン量子化特性信号列がモデルに合致する
ような確率の信号が生成される。確率信号を生成
する装置は第5図および第6図でより詳細に示さ
れる。一般にはマルコフモデルが第一に選択され
る。認識される音声パターンに対し、モデルは1
フレーム毎に入力の量子化信号系列O1、O2、…、
Ot、…OTと比較・評価される。最後の音声パタ
ーンフレームに対する評価が完了すると、音声パ
ターン量子化信号系列がモデルから導出される最
大確率に対応する信号が発生される。 第3図の回路で用いられる左から右への隠れマ
ルコフモデルの制約により、フレームt=1の初
期状態は第1図の状態1だけであり、また初期状
態の対数確率信号は、 φ1(1)=lo(b1(O1)) (7) と表わされるということが要求される。 φ1(1)の値は、その数字の行列Bの状態1の列
のm=14の場所から取り出される。フレームt=
1の対数確率信号φ1(i)、但しi=2、3、4、
および5は、モデルではこれらの状態が許されな
いので、負に設定される。その後、数字に対する
行列Aの遷移確率信号と表1の第2の音声パター
ンフレーム量子化信号インデクスmに対応する行
列Bのシンボル生起確率信号とを用いて、lo(φ2
(j))信号がt=2のフレームに対し、 φ2(j)= maxi {φ1(i)+lo(ai1bj(O2)} (8) に従つて生成される。但しmax{1,j−2}
ijである。音声パターンフレーム2の各行き
先状態jに対し、信号φ2(j)が記憶されている。
フレーム列の連続する状態に対する対数確率信号
はその後数字のモデルのAおよびB行列信号と量
子化音声パターン信号インデクスtのフレーム列
とを用いて発生される。最後のフレームTの処理
の後、他の状態への遷移の許されない最終状態5
からの数字モデルに対する最大対数確率信号が得
られる。状態5は吸収状態である。数字の集合に
対する信号処理は、連続的に実行され、対応する
数字識別信号と同様に最大対数確率信号の最大の
ものが記憶に保持される。数字「9」に対するモ
デル処理の完了によつて、音声パターンは保持さ
れている最大対数確率信号に対する数字識別コー
ドとして識別される。 処理回路340で実行される第2図の箱22
5,230,235および240のマルコフモデ
ル処理は第5図のフローチヤートに示されてい
る。最初に量子化モードの終了とともに箱220
から箱501に入る。対数最大確率信号はその最
小値−∞に設定され、選択された参照パターンイ
ンデクスk*は−1に設定される。参照パターン
インデクスkは−1にリセツトされ(箱505)、
0に増加される(箱507)。その後、現在の参
照パターンインデクスkは箱510に従つて最終
のインデクス値Kと比較される。この時点でk=
0であるから、箱515が選ばれてk=0の数
字、すなわち「0」に対する行列AおよびBの信
号がアドレスされて参照パターンマルコフモデル
信号の記憶360から処理回路340を経て
RAM350へ転送される(箱515)。その後、
数字「0」に対する対数確率信号lnPcが箱52
0によつて発生される。前述のようにlnP0信号は
量子化入力音声パターンが数字「0」に対するマ
ルコフモデルから得られるという確率を表わす。
第6図のフローチヤートはlnPk信号生成の詳細な
装置を示している。 第6図では、表5の行列Bの第1列のm=14の
信号に対応して信号φ1(1)はln(b1(O1))に設定さ
れる(箱601)。現状態インデクスiは1に設
定され(箱605)、増加される(箱607)。i
>Nの最終状態になるまで、i=2、3、…Nに
対するlnφ1(i)は−∞に設定される。φ1(1)、φ1(2)、
…φ1(5)信号の集合はRAM350に記憶される。
これらのφ1(i)は、マルコフモデルはその第1の
音声パターンフレームの第1の状態から開始する
という制約に対応している。第7図は、連続する
入力音声時間フレーム1、2、3および4に対す
るマルコフモデルの状態系列を説明する格子状の
図である。列710は音声パターン量子化インデ
クス信号がO1=14である最初のフレームに対応
している。列720,730および740は第
2、第3および第4のフレームをそれぞれ表わし
ている。マルコフ状態は各列において上から下へ
の順序で並べられている。第7図に示す通り、状
態1だけが最初の時間フレームとして可能であ
る。 最初の時間フレームφ1(i)信号が生成された後、
入力音声時間フレームインデクスtが1に設定さ
れ増加されるべく、箱615および620に順に
入る。時間フレームインデクスtは最終時間フレ
ームTよりも大きくないから(判断用の箱62
5)、箱630によつて行き先状態インデクスj
は0に設定される。行き先インデクスjは箱63
5で1だけ増加され最終状態N=5と比較される
(判断用の箱640)。第1図の隠れマルコフモデ
ルの制約に従つて、次の2つの隣接する状態への
遷移だけが可能である。結果的に、現状態インデ
クスiは0に設定され(箱650)、マルコフモ
デルの制約に従がい1だけ増加される(箱65
2)。最大のφ2(i)、βは最初は−∞に設定される
(箱650)。増加された現状態インデクスiは箱
654に従つて現在の行き先の状態インデクスj
=1と比較され、音声パターン時間フレームt=
2、前フレームの現状態インデクスi=1および
行き先状態インデクスj=1という形で信号を生
成する箱660に入る。箱660の信号αは列7
10の状態1(t=1)から列720の状態2(t
=2)への経路に対応し、その値は以前に発生さ
れた信号φ1(1)とln(a11b1(O2))との和によつて得
られる。信号インデクスO2は表1のフレームt
=2に対する量子化音声パターン信号である。信
号a11は、表2の行列Aの信号の列i=1、行j
=1から得られ、b(O2)は表5の数字「0」の
行列Bの状態1の列のm=14の場所から得られ
る。この時α=−10.2で、βは箱665および6
70によつてこの値に設定される。そして現状態
のインデクスの増加(箱652)に移り、iは2
になる。 現状態インデクスiは行き先状態インデクスj
=1よりも大なのでφ2(1)はβに設定され(箱6
54および656)、行き先状態インデクスjは
2に増加される(箱635)。現状態インデクス
iは箱650および652において0にリセツト
され1だけ増加される。t=2、i=1、j=2
のインデクスに対する信号αは箱660で生成さ
れる。このようにして、列710の状態1から列
720の状態2への経路は第7図のようにたどら
れる。t=2、i=1、j=2の値のαはβ=−
∞の信号を置き換える(箱665および67
0))。 t=2、i=2、j=2に対して信号αが生成
されると、φ1(2)=−∞だからβより小となる。
従つて箱670ではβは変更されない。現状態イ
ンデクスiはその後増加される(箱652)。増
加したインデクスi=3はi=2より大だから、
φ2(2)はt=2、i=1およびj=2に対して得
られたβの値になる(箱656)。同様にφ2(3)は
第7図に示されるようにt=2、i=1およびj
=3に対する信号αに設定される。i>1に対す
るφ1(i)信号は−∞に設定される。従つてj>3
に対するφ2(j)信号は−∞に設定される。表8、
9および10は各時間フレームtのマルコフモデル
状態に対する対数確率信号φt(j)を示すものであ
る。
【表】
【表】
【表】
【表】
【表】
【表】 表8の第2行は、第2の音声フレームに対する
第6図に示したマルコフモデル信号処理で得られ
たφ2(1)、φ2(2)、φ2(3)、φ2(4)およびφ2(5)に対す

値である。 行き先状態jが判断用の箱640で最終状態N
=5より大きくなると第2の音声フレームの処理
は完了する。この時点で、音声フレームインデク
スtは3に増加され(箱620)、信号φ3(j)の処
理が箱630で開始される。第7図に示すよう
に、t=3の音声パターンフレームの可能な遷移
には、フレーム2(列720)の状態1からフレ
ーム3(列730)の状態1、2および3、フレ
ーム2(列720)の状態2からフレーム3(列
730)の状態2、3および4そしてフレーム2
(列720)の状態3からフレーム3(列730)
の状態3、4および5への遷移が含まれる。信号
φ3(j)の処理は、式(8)に従つて前の音声パターン
時間フレームに関して述べたように実行される。
しかしフレームt=3およびそれに続くフレーム
には各行き先状態に対しb以上の元の状態があ
る。例えば、第7図において列730の状態2は
列720の状態1および2から到達でき、列73
0の状態3は列720の状態1、2あるいは3か
ら到達できる。各行き先状態に対し、発生される
最大の信号αは箱665および670の操作を通
して信号φ3(j)として保持される。列730の状
態2については、 φ3(2)=maxφ2(1)+ln(a12b2(O3)) φ2(2)+ln(a22b2(O3)) t=3のフレームで得られるφ3(1)、φ3(2)、φ3
(3)、φ3(4)およびφ3(5)の信号は表8の第3行に記
載されており、t=4のフレーム処理の結果であ
るφ4(j)信号は表8の第4行に記載されている。 連続する音声フレームについて第6図に示した
信号処理は隠れマルコフモデルの制約に従つて、
各音声パターン時間フレームの各状態に対し数字
「0」のモデルAおよびB行列の信号から導出さ
れる。入力音声パターン「9」の最大確率を得る
ように実行される。インデクスt=36、i=5、
j=5に対しαが得られた後、最後の時間フレー
ム(T=36)の処理が箱665,670,65
2,654および656を経て完了する。そして
最終状態N=5に対する信号φT(N)=158.0が生
成される(箱656)。この信号は、音声パター
ンが数字「0」のマルコフモデルから導出される
最大の対数確率を表わし、表8の最終行(t=
36)の最後の位置に記載されている。 フレームtが最後の音声パターンフレームT=
36より大になると、判断用の箱625から箱62
8に入り、「0」に対する最大確率信号が記憶さ
れる。それから第5図の箱507に戻り、数字
「1」に対するマルコフ処理が開始される。表9
および10は数字「5」および「9」に対するマル
コフモデル処理を説明している。 箱525および530に示されているように、
各数字に対する最大対数確率信号が生成された
後、前の数字の確率の値の最大のものと比較され
最大の値とその識別コードk*だけが記憶される。
数字「0」に対する処理が終了すると、箱530
に従つてlnPmaxは−158.0に設定され(表8)k*
は0に設定される。入力音声パターン「9」に対
し第3図の装置で得られる数字の集合に対する
lnPk信号はフレームt=36での最後の吸収状態5
に対するものである。 数字k ln(Pk) 数字k ln(Pk) 0 −158.0 6 −175.3 1 −160.4 7 −160.4 2 −184.9 8 −168.9 3 −158.8 9 −156.9 4 −186.0 5 −174.5 従つてlnPmaxとk*は、数字「9」のモデルに
対する最大対数確率信号が判断用の箱525で
lnPmaxと比較されるまで数字「0」以来変更さ
れない。比較の箱での操作の結果として、箱53
0に入る。lnPmax信号は−156.9に設定され、k*
は9となる。マルコフモデル評価モードの終りで
記憶された最大確率信号は−156.9で選ばれた数
字はk*=9である。 ここで述べられた数字認識装置は電話番号やク
レジツトカード番号などの文字、数字あるいは単
語の一連の発声を認識するのに利用することがで
きる。第2図の箱240による最大確率信号P
(O|K)の参照モデルの選択の後、参照インデ
クス信号が発生され(箱245)、電話交換装置
あるいはビジネス処理用データ処理装置などの応
用装置280に転送される。そして判断用の箱2
05に入り、音声入力の次の音声パターンを処理
する。第3図の装置は適当なマルコフモデル参照
パターンを選ぶことによつて句や文章のようなそ
の他の音声パターンの認識に拡張できる。例えば
音素のような小さな音声要素のモデルを使用する
従来のマルコフモデル音声認識装置と比較して、
本発明は参照パターンとして発声を識別するため
に例えば単語や句のような全参照パターンの単一
モデルを使用する。有利な点は認識に必要な状態
数が削減され、音素やその他の基本的な音声セグ
メントを連結する困難さが解消され、利用可能な
データベースにより不特定話者の操作が実現でき
ることである。ROM360に記憶されたマルコ
フモデルパターンは、いかなる音源やいかなる話
者からの識別された音声パターンの発声から生成
されたものである。すでに利用可能な録音された
発声のデータバンクからのパターンを第3図の不
特定話者認識装置のための話者のマルコフモデル
を生成するのに利用することができる。
【図面の簡単な説明】
第1図は、本発明で使用される制約された隠れ
マルコフモデルの一例を示す模式図、第2図は本
発明の実施例を説明する概略フローチヤート、第
3図は本発明を実現する音声認識回路のブロツク
図、第4,5および6図は第3図の音声認識回路
の動作の一部を説明するためのより詳細なフロー
チヤート、第7図は第3図の回路の動作を説明す
る格子状の図である。

Claims (1)

  1. 【特許請求の範囲】 1 複数(例えばK)の参照パターンの1つとし
    て発声を認識するための音声分析器であつて、 前記参照パターンのk番目(k=1,2,…
    …,K)に対し制約されたN状態の隠れマルコフ
    モデル(HMM)に対応する複数の信号を記憶す
    る手段(360)と、 前記発声の音声特性を表す信号系列Ot(t=
    1,2,……,T、なおTとNは互いに独立)を
    形成するための手段(例えば310,320,330,
    370,365,340,350,355)と、 前記信号系列Ot及び前記参照パターンの各々
    に対する複数の信号に対し共に応動して、各参照
    パターン毎に、前記発声が前記k番目の参照パタ
    ーンであることの確率を表す信号Pnax(k)(k=
    1,2,……,K)を発生する手段(340,350,
    355)と、 前記信号Pnax(k)に応動して、前記発声として参
    照パターンの1つを選択するための手段(355,
    340)とから成る、音声分析器。 2 特許請求の範囲第1項に記載の音声分析器に
    おいて、 各参照パターンの制約された隠れマルコフモデ
    ル信号を記憶する前記の手段が、 初期状態に対応する信号と、中間状態に対応す
    る複数個の信号と、最終状態に対応する信号とを
    含むマルコフモデルの状態に対応する信号の集合
    を記憶する手段と、 所定の状態の対の間の遷移確率に各々対応する
    信号の集合を記憶する手段と、 定められた状態に生起する所定の特性信号の確
    率を各々表す信号の集合を記憶する手段とを含む
    ことを特徴とする音声分析器。 3 特許請求の範囲第2項に記載の音声分析器に
    おいて、 各参照パターンモデルに対し前記の確率を表す
    信号を発生する手段が、 音声パターンフレーム処理間隔信号を連続的に
    発生するよう動作し、 現在の音声パターンフレーム処理間隔におい
    て、現在の音声パターンフレームの選択された所
    定の特性を表す信号と、参照パターンのマルコフ
    モデル信号に応動して、参照パターンマルコフモ
    デルが前記の音声フレーム間に定められた状態に
    ある尤度を表す信号の集合を生じるよう動作し、 最後の音声パターンフレーム処理間隔におい
    て、最後の音声パターンフレーム間に参照パター
    ンマルコフモデルに対応する信号は最終状態にあ
    ることを表す尤度に応動して、音声パターンが参
    照パターンマルコフモデルから得られる確率を表
    す信号を形成するように動作することを特徴とす
    る音声分析器。 4 特許請求の範囲第3項に記載の音声分析器に
    おいて、 各音声パターンフレーム処理間隔において、前
    記の尤度を表す信号を作る前記の手段が、前記の
    マルコフモデル状態信号と前記の遷移確率信号と
    前記の特性信号生起確率信号とに応動して、現在
    のフレームまでの音声パターン部分に対応する参
    照パターンマルコフモデルが参照パターンマルコ
    フモデルの状態のそれぞれにあるという確率を表
    す信号の集合を発生することを特徴とする音声分
    析器。 5 特許請求の範囲第4項に記載の音声分析器に
    おいて、 前記音声分析器が、前記の参照パターンの音響
    特性の範囲をおおう定められた数の音響特性信号
    を記憶する手段を含むような音響特性を表す信号
    の定められた集合を記憶する手段を含むことを特
    徴とする音声分析器。 6 特許請求の範囲第5項に記載の音声分析器に
    おいて、 定められた数の音響特性信号を記憶する前記の
    手段が、前記の参照パターンの音響特性の範囲を
    おおう定められた数の線形予測特性原形信号を記
    憶する手段を含み、 音声パターンを表す音響特性信号の系列を構成
    する前記の手段が、音声パターンを表す線形予測
    パラメータ特性信号の系列を構成する手段を含む
    ことを特徴とする音声分析器。 7 特許請求の範囲第4項に記載の音声分析器に
    おいて、 第1の識別状態iから第2の識別状態jへの遷
    移でj<iかつj>i+2の場合に対応する遷移
    確率信号が0値の信号であることを特徴とする音
    声分析器。 8 特許請求の範囲第1項乃至第7項のいずれか
    に記載の音声分析器において、 前記の音声パターンが単語の発声であり、前記
    の参照パターンが識別された音声単語パターンで
    あることを特徴とする音声分析器。
JP58191711A 1982-10-15 1983-10-15 音声分析器 Granted JPS5991500A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US434516 1982-10-15
US06/434,516 US4587670A (en) 1982-10-15 1982-10-15 Hidden Markov model speech recognition arrangement

Publications (2)

Publication Number Publication Date
JPS5991500A JPS5991500A (ja) 1984-05-26
JPH0422276B2 true JPH0422276B2 (ja) 1992-04-16

Family

ID=23724541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58191711A Granted JPS5991500A (ja) 1982-10-15 1983-10-15 音声分析器

Country Status (5)

Country Link
US (1) US4587670A (ja)
JP (1) JPS5991500A (ja)
CA (1) CA1187995A (ja)
DE (1) DE3337353C2 (ja)
FR (1) FR2534719B1 (ja)

Families Citing this family (187)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
CA1243779A (en) * 1985-03-20 1988-10-25 Tetsu Taguchi Speech processing system
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
GB2179483B (en) * 1985-08-20 1989-08-02 Nat Res Dev Apparatus and methods for analysing data arising from conditions which can be represented by finite state machines
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
US4811199A (en) * 1987-05-08 1989-03-07 Kuechler William L System for storing and manipulating information in an information base
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
DE3916478A1 (de) * 1989-05-20 1990-11-22 Standard Elektrik Lorenz Ag Neuronale netzwerkarchitektur
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5119425A (en) * 1990-01-02 1992-06-02 Raytheon Company Sound synthesizer
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
DE4110300C2 (de) * 1991-03-28 1995-04-06 Telefonbau & Normalzeit Gmbh Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5371779A (en) * 1992-03-13 1994-12-06 Nec Corporation Call initiating system for mobile telephone units
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5745873A (en) * 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
GB2285700B (en) * 1994-01-12 1998-06-24 Drallim Ind Monitoring apparatus and method
CN1063554C (zh) * 1994-03-03 2001-03-21 李琳山 中文电脑的汉语语音输入系统及其方法
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
JP3703164B2 (ja) * 1995-05-10 2005-10-05 キヤノン株式会社 パターン認識方法及びその装置
US5752001A (en) * 1995-06-01 1998-05-12 Intel Corporation Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition
DE69635015T2 (de) * 1995-11-17 2006-03-30 At & T Corp. Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
DE19640587A1 (de) * 1996-10-01 1998-04-02 Siemens Ag Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6850888B1 (en) * 2000-10-06 2005-02-01 International Business Machines Corporation Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP4048741B2 (ja) * 2001-07-24 2008-02-20 セイコーエプソン株式会社 Hmmの出力確率演算方法および音声認識装置
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
DE102004017548B4 (de) * 2004-04-07 2007-12-27 Medav Gmbh Verfahren zur Erkennung und Analyse von Funksignalen
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9530412B2 (en) * 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9741342B2 (en) 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
IEEE TRANS COMMUN=1980 *
IEEE TRANSACTIONS ON ACOUSTICS SPEECH AND SIGNAL PROCESSING=1975 *
KIBERNETIKA=1968 *
PROC OF THE IEEE=1976 *
SPEECH RECOGNITION INVITED PAPERS PRESENTED AT THE 1974 IEEE SYMPOSIUM=1975 *

Also Published As

Publication number Publication date
JPS5991500A (ja) 1984-05-26
FR2534719B1 (fr) 1986-09-19
DE3337353C2 (de) 1996-05-09
US4587670A (en) 1986-05-06
FR2534719A1 (fr) 1984-04-20
CA1187995A (en) 1985-05-28
DE3337353A1 (de) 1984-04-19

Similar Documents

Publication Publication Date Title
JPH0422276B2 (ja)
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
US5857169A (en) Method and system for pattern recognition based on tree organized probability densities
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
US4783804A (en) Hidden Markov model speech recognition arrangement
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
US6208964B1 (en) Method and apparatus for providing unsupervised adaptation of transcriptions
JPH0583918B2 (ja)
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
JP2955297B2 (ja) 音声認識システム
US5487129A (en) Speech pattern matching in non-white noise
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
McDermott et al. Minimum classification error for large scale speech recognition tasks using weighted finite state transducers
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Moore Systems for isolated and connected word recognition
Rabiner et al. A continuous training procedure for connected digit recognition
JPH0997095A (ja) 音声認識装置
JP3231365B2 (ja) 音声認識装置
JPH04271397A (ja) 音声認識装置