JPH0583918B2 - - Google Patents

Info

Publication number
JPH0583918B2
JPH0583918B2 JP2053912A JP5391290A JPH0583918B2 JP H0583918 B2 JPH0583918 B2 JP H0583918B2 JP 2053912 A JP2053912 A JP 2053912A JP 5391290 A JP5391290 A JP 5391290A JP H0583918 B2 JPH0583918 B2 JP H0583918B2
Authority
JP
Japan
Prior art keywords
phoneme
context
processor
sequences
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2053912A
Other languages
English (en)
Other versions
JPH02273795A (ja
Inventor
Rai Baaru Raritsuto
Fuitsushu Buraun Piitaa
Uinsento Desooza Piitaa
Reroi Maakaa Robaato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH02273795A publication Critical patent/JPH02273795A/ja
Publication of JPH0583918B2 publication Critical patent/JPH0583918B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

【発明の詳細な説明】 A 産業上の利用分野 本発明は一般に音声認識の分野に関し、具体的
には、音声情報を処理して、例えば、連続音声認
識を容易にするために使用できる音韻規則を自動
的に生成するための方法に関するものである。
B 従来の技術 多くの音声認識装置は、少なくとも高い抽象レ
ベルではほぼ同じ方式で動作する。発声された不
連続な単語が、サンプリングされたデータ電気信
号に変換され、次にそれらの信号が解析されて、
特定の音を表す一連のトークンが発生される。こ
れらのトークンが解析されて、一連のトークンに
どの単語が対応するかが決定される。そのように
決定された単語が、音声認識装置の出力として供
給される。
この種の音声認識装置の多くは不連続音声、す
なわち、間に休止を挿んで発声された単語のみを
解析する。この制限を設けると、装置は設計し易
くなる。何故ならば、このように発声される単語
の音韻モデルは、より自然な連続音声に適用され
る規則よりも一貫性が高くなる傾向があるからで
ある。これらの音韻モデルは、サンプリングされ
た電気信号の解析で使用される。
不連続に発声された単語を認識するための代表
的装置を、第1図ないし第4図を参照して以下に
説明する。この装置では、定義された語彙中の各
単語は、音素と呼ばれる一連の構成要素部分とし
て表される。これらのシーケンスの各々は「ベー
スフオーム」と呼ばれ、単語の理想化された発音
を表している。これまで、音声ベースフオームは
音声学者によつて作られてきた。
以下に説明する装置では、ベースフオームの各
要素は、「音素フオーン・マシーン」と呼ばれる
統計モデルによつて表される。音素フオーン・マ
シーンは、音素を、「フイーニーム」、またはもつ
と簡単に「ラベル」と呼ばれる音のサンプルの確
率論的組合せとして表す。話された既知のテキス
トを解析することにより、各フオーン・マシーン
ごとに統計が作成される。既知の音声認識装置の
幾つかは、音素ではなくフイーニームを構成要素
部分とするベースフオームを使用している。この
場合には、フイーニーム・フオーン・マシーン、
すなわち、各フイーニームがフイーニームの確率
論的組合せとして表されるフオーン・マシーンを
使つて、フイーニームの発音のモデルが作られ
る。第1図ないし第4図に示した代表的装置は、
音素ベースフオーム及び音素フオーン・マシーン
を使用する。
フオーン・マシーン用の統計が作成されると、
それらを使つて、個々に発音された単語から得ら
れたフイーニームを表すサンプリングされたデー
タ信号を解析して、サンプリングされたデータ信
号に対応する1つまたは複数のもつともらしい音
素シーケンスを決定することができる。
次にこの音素シーケンスを、もつともらしい音
素シーケンスを含むベースフオームから選択され
た音素シーケンスと比較して、定義された語彙中
のどの単語が発声された公算が最も大きいかを決
定する。
この種の音声認識装置は不連続音声の場合かな
りよく働く。何故ならば、別々に発声された単語
は、理想化されたベースフオームに従う傾向があ
るからである。しかし、連続音声では、単語間の
同時調音により、発声された単語がベースフオー
ム等の理想化されたモデルに従う度合が低下する
傾向がある。
ベースフオームをそれが発音される文脈に基づ
いて修正する規則を指定することにより、音声ベ
ースフオームに対する同時調音効果を補償するこ
とができる。一般には、これらの規則も音声学者
によつて指定される。しかし、限定された語彙中
でさえ広範な同時調音効果が生じる可能性がある
ので、これらの修正規則の指定は手におえそうに
ない仕事になる恐れがある。
米国特許第4759068号は、発声された単語から
得られたトークン・ストリングを解析して、発声
された単語に最も対応する個々のフイーニームの
シーケンスを得る方法に関するものである。この
特許は典型的な音声認識装置の構造を詳細に開示
している。
米国特許第4559604号は、入力パターンを1組
の標準パターンと比較して、他のどのパターンよ
りも入力パターンに一致する公算が大きい1組の
パターンを定義するように構成したパターン認識
装置に関するものである。これらの選択されたパ
ターンのうち特定の1つが、4つの好ましい推論
基準の1つに基づいて、最も公算が大きいものと
推定される。
米国特許第4363102号は、対応する複数の話者
によつて発声された既知の単語に対応する複数の
テンプレートを作成する話者認識装置に関するも
のである。ある話者が発声した単語と、既知の話
者の1人に対応するテンプレートの間の確率論的
距離が最小の話者が識別される。
C 発明の要約 本発明の目的は、一組の単語の発音上の相異を
それらの単語が発声される文脈に基づいて記述す
る、音韻規則を自動的に生成するための方法及び
装置を提供することである。
本発明のもう1つの目的は、これらの音韻規則
を使つて、連続的に発声された単語を認識するこ
とである。
本発明は、所定の語彙を記述する一組の言語構
成要素を含む連続音声認識装置で具体化される。
既知のテキストに対応する発音を処理して、これ
らの発音を表すサンプルを言語構成要素と関連づ
ける。音韻的に類似した言語構成要素と関連づけ
たサンプルをクラスタにまとめて、その構成要素
の種々の発音を決定する。次にこれらのサンプル
を処理して、これらのクラスタを、サンプルによ
つて表される言語構成要素の文脈上の発生を示す
データと関係づける決定機構を作成する。この決
定グラフは、構成要素が発生する文脈による種々
の言語構成要素の発音上の変化を記述する音韻規
則を定義するものである。
D 実施例 孤立音声認識では、語彙中の各単語に関する1
つの静的音響モデルにより良好な結果を得ること
ができる。孤立して発声された単語間の同時調音
は無視できるので、所与の任意の単語の発音は事
例によつて非常にわずかしか変化せず、したがつ
て、単語の発音は静的モデルで十分に表せる。
しかし、連続音声認識では、単一の静的音響モ
デルでは不十分である。これは、間に休止を挿ま
ずに発声された単語間の同時調音が相当大きいた
めである。したがつて、各単語は多くの発音が可
能である。
この変動性を処理するための1つの方法は、音
韻規則を用いて同時調音の効果のモデルを作るこ
とである。これらの規則を使用すると、依然とし
て語彙中の各単語ごとに1つの音響モデルがある
が、それはもはや静的なものではない。各単語モ
デルは、同時調音がない場合の単語の発音を表
し、ベースフオームと呼ばれる。音韻規則はベー
スフオームに作用して、当該の場合、同時調音の
効果を反映するように、それらを変形する。した
がつて、音声認識装置によつて使用される実際の
単語モデルは、単語が現れる文脈に応じて動的に
変化することができる。
この手法の成否は、明らかに音韻規則の精度と
十分さによつて決まる。従来、音韻規則は音声学
に通じた言語学者により手作業で作られてきた。
以下に説明する本発明の実施例は、訓練テキス
ト及び対応する発音を解析することにより、一組
の音韻規則を生成することができる、自動音韻規
則生成機構を含む。これらの規則は、以下に説明
する実施例で音声認識装置に適用される。それら
の規則を音声合成装置に適用して、単語の発音を
その文脈に応じて変えることもでき、また、単に
言語学者がそれを解析して、この難解な技術に関
する知識を増大させることもできる。
音韻規則が連続音声認識装置でどのように使用
されるかを説明するには、まず孤立音声を認識す
るための装置について説明するのが有用である。
第1図は、米国特許第4759063号に開示されてい
るのと同様な音声認識装置のブロツク・ダイヤグ
ラムである。この特許を引用により本明細書に合
体する。この装置について、まず以下に簡単に説
明し、次に、装置の選択した態様について適宜詳
細に説明する。
第1図に示す装置で、マイクロホン及び増幅器
(図示せず)から供給された音声入力が、音響プ
ロセツサ1004に供給される。プロセツサ10
04は、連続した1/100秒間隔にわたつて音声入
力のスペクトル特性を解析し、各間隔にラベル
(すなわち、フイーニーム)を割り当てる。ラベ
ルは、1/100秒間隔の間の入力音声の特性のある
組合せに基づいて、異なるラベルのアルフアベツ
トから音響プロセツサが選択する。
音響プロセツサ1004によつて生成されたラ
ベルはスタツク・デコーダ1002に供給され
る。デコーダ1002は、高速突合せプロセツサ
1006、詳細突合せプロセツサ1008、言語
モデル1010及びワークステーシヨン1012
とインターフエースしている。デコーダ1002
はワークステーシヨン1012によつて制御され
て、詳細突合せプロセツサ1008と高速突合せ
プロセツサ1006及び言語モデルを、一連のフ
イーニームをワークステーシヨン1012に供給
される一連の単語に変換するように条件づける。
高速突合せプロセツサ1006及び詳細突合せ
プロセツサ1008は、それぞれ異なる確率論的
有限状態マシーン、すなわちフオーン・マシーン
のセツトを使用して、フイーニーム・シーケンス
を固定語彙中の単語と関連づける。高速突合せプ
ロセツサ1006は一組の比較的粗いフオーン・
マシーンを使つて、語彙中のより公算の大きい少
数の単語を迅速に選択する。詳細突合せプロセツ
サはより厳密な一組のフオーン・マシーンを使つ
て、高速突合せプロセツサから供給された少数の
単語から最も公算の大きい単語を選択する。
高速突合せプロセツサ1006及び詳細突合せ
プロセツサ1008は、発声された単語が占める
時間間隔の間に音声入力にのみ基づいて突合せを
行なうので、発声される単語はその音声的文脈に
関係する。したがつて、詳細突合せプロセツサか
ら供給される出力値は、一群の同音異義語を表す
ことがある。詳細突合せプロセツサ1008から
供給される同音異義語は、真の同音異義語である
ことも近似音語であることもある。たとえ、1つ
の単語が真の同音異義語でなくても、詳細突合せ
プロセツサによつて使用される確率論的方法を使
つて、音響プロセツサ1004から供給される信
号に基づいて、その単語を別の単語から確実に区
別することができない場合は、その単語は別の単
語の近似音語である。近似音語対の一例はアルフ
アベツト“B”と“D”の呼び名である。混乱を
避けるため、本明細書で「同音異義語」という用
語を使用する場合は、全て近似音語を含むものと
する。
同音異義語のグループから正しい単語を決定す
るため、言語モデル1010を使用する。本発明
のこの実施例で使用する言語モデル1010は、
音声認識装置によつて得られた先行の2つの単語
に基づいて、グループのどの単語が公算が最も大
きいかを決定する。この言語モデル解析によつて
決定された単語が、音声認識装置の出力となる。
第2図は、音響プロセツサ1004として使用
するのに適した装置のブロツク・ダイヤグラムで
ある。第2図で、音波入力(例えば、自然音声)
を表すアナログ電気信号が、アナログ・デイジタ
ル変換器(ADC)1102に供給される。ADC
1102は、音波を表すデイジタル・サンプルを
定義速度で発生する。典型的なサンプリング速度
は、50マイクロ秒毎に1サンプルである。ADC
1102から供給されたサンプルは、タイム・ウ
インドウ生成機構1104に供給され、タイム・
ウインドウ生成機構1104はデイジタル・サン
プルを、例えば400サンプルのオーバラツプ・グ
ループに分割する。タイム・ウインドウ生成機構
1104から供給されたデイジタル・サンプルの
グループは、高速フーリエ変換(FFT)要素1
106に供給される。
FFT要素1106はサンプル・グループを処
理して、一連のスペクトル・ベクトルを含む信号
SAを供給する。これらのベクトルはそれぞれ、
例えば、音波の出力を200個の互いに区別された
周波数帯で表す、200個1組の出力信号である。
各スペクトル・ベクトルは10ミリ秒(1/100秒)
間隔の間の音波を表す。
次にFFT要素1106から供給される信号SA
が処理されて、ラベル(またはフイーニーム)
y1,y2,……yfを発生する。4つの処理要素、
すなわち特徴選択要素1108、クラスタ要素1
110、プロトタイプ要素1112及びラベル表
示機構1114が、協働して信号SAからフイー
ニームを生成する。これらの要素は2つのモー
ド、すなわち、訓練モードとラベル表示モードで
働く。どちらのモードでも、特徴選択要素110
8は、ベクトル信号SAの選択された値を組み合
わせて、音響特徴信号のベクトルAFを発生する。
特定の周波数の出力レベルに加えて、音響特徴ベ
クトルの1要素は、例えば、信号の全体的ラウド
ネス、特定の周波数帯域でのラウドネス、また
は、音響入力が感覚しきい値Tfまたは聴覚しき
い値Thよりも高いとの指示を表すことができる。
訓練モードでは、比較的大きな一組の音響入力
から音響特徴ベクトルが生成され、クラスタ要素
1110に記憶される。記憶されたこれらのベク
トルの各々が、可能な音響特徴の状態ベクトルに
よつて定義される状態空間中の1点と見なされる
場合は、訓練データによつて発生された全ての点
の集合は状態空間中でクラスタにまとめることが
できる。所与のクラスタ中の各点は、クラスタ中
の他の点によつて表される音に統計的に類似した
声音の1/100秒サンプルとなる。
状態空間中の各クラスタは、それぞれ確率分布
の代表的サンプルであると考えることができる。
これらの確率分布の各々は、例えばガウス分布と
仮定することができ、ラベルすなわちフイーニー
ムのプロトタイプを定義する。音響プロセツサ1
004が訓練モードにあるときは、クラスタ要素
は、プロトタイプ要素にクラスタを供給する。プ
ロトタイプ要素は、ガウス分布を各クラスタにあ
てはめて、そのクラスタ内の全ての点を表すプロ
トタイプ・ラベルを定義する。音響プロセツサが
ラベル表示モードにあるときは、ラベル表示機構
1114はこれらのプロトタイプを使つて、特徴
選択要素1108によつて生成された特徴ベクト
ルにラベルを割り当てる。このようにプロトタイ
プ・ラベルを生成するための代表的装置は、A.
ナダス(Nadas)等の論文「ブートストラツピン
グ又はクラスタ化によつて得られる自動的に選択
された音響プロトタイプによる連続音声認識
(Continuous Speech Recognition with
Automatically Selected Acoustic Prototypes
Obtained By Either Bootstrapping or
Clustering)」、Proceedings of the ICASSP,
1981,pp.1153−1155に開示されている。
第3図は、第1図に示した音声認識装置のブロ
ツク・ダイヤグラムであり、スタツク・デコーダ
1002をさらに詳細に示してある。スタツク・
デコーダの中央の要素は探索プロセツサ1020
である。上述のように、ラベル・シーケンスがス
タツク・デコーダに供給されたとき、探索プロセ
ツサ1020はまずそれを高速突合せプロセツサ
1006に供給する。プロセツサ1006は、ラ
ベルのシーケンスとの突合せ相手となる語彙中の
比較的公算が大きい少数の単語以外の全ての単語
を除去する。高速突合せプロセツサ1006によ
つて決定された単語が、次に探索プロセツサ10
20により、ラベル・シーケンスと共に詳細突合
せプロセツサに供給される。詳細突合せプロセツ
サ1020は、供給された単語のうちのどれが、
供給されたラベル・シーケンスに対応する公算が
最も大きいかを決定する。
本発明のこの実施例で使用される探索プロセツ
サ1020、高速突合せプロセツサ1006、詳
細突合せプロセツサ1008及び言語モデル10
10によつて実施される方法は、上で引用した米
国特許第4759068号に記載されたものとほぼ同じ
である。代表的な実施例を以下に説明する。
第3図に示す認識装置では、辞書の各単語は音
素シーケンスとして表され、各音素はフオーン・
マシーンにより表される。フオーン・マシーンは
音素の発音のマルコフ・モデルであり、音素とラ
ベル・シーケンスの間の確率論的関係を定義す
る。
高速突合せ動作では、音響プロセツサ1004
によつて生成されたラベル・シーケンスは、高速
突合せプロセツサ1006により、語彙中の単語
を表す簡略フオーン・マシーンと突き合わされ
る。これらの単語は、プロセツサ1006で使用
するため木構造に配列されているので、共通の語
頭音素を有する単語は、分化するまで、木中で共
通経路を通る。高速突合せプロセツサ1006
は、語彙中の他の単語よりもラベル・シーケンス
に一致する公算が大きい一組の単語を供給する。
これらの単語が次に言語モデル1010によつて
解析されて、例えば、2つの最も最近に認識され
た単語に照らして、その文脈に基づく公算の小さ
い単語が除去される。この処理で比較的小さな一
組の候補単語が発生し、これらの単語が次に、音
響プロセツサ1004から供給されたラベル・シ
ーケンスと共に、詳細突合せプロセツサ1008
に供給される。
詳細突合せ動作は、一組のより厳密なフオー
ン・マシーンを使つて、音響プロセツサ1004
から供給されたラベルをその一組の候補単語と突
き合わせるものである。次に第4A図及び第4B
図を参照しながら詳細突合せプロセツサによつて
使用される代表的フオーン・マシーンについて説
明する。この説明に続いて、高速突合せプロセツ
サ1006用の簡略フオーン・マシーンを作るた
めのこのフオーン・マシーンの修正について説明
する。
音素フオーン・マシーン1200を第4A図に
示す。このフオーン・マシーンは、マルコフの過
程として音素の発音のモデルを作る。音素フオー
ン・マシーンは、音声ベースフオームによつて指
示されるように連結されて、単語の発音のマルコ
フ・モデルを生成する。
フオーン・マシーン1200は7種類の状態
S1ないしS7を含み、また選択された状態の間の
13種類の遷移を含む。各遷移は確率を伴い、さら
に、破線で示したもの(すなわち、tr11,tr1
2,及びtr13)を除くこれらの遷移の各々は、
当該の200種類の可能なラベルのそれぞれがその
遷移で現れる確率を表す200個の確率値のベクト
ルを伴つている。破線の遷移は、ラベルが生成さ
れない、ある状態から別の状態への遷移を表す。
これらの遷移は空遷移と呼ばれる。実線の遷移
は、ある状態から別の状態に遷移する際の発声を
表す。破線の遷移は、完了するのに時間がかから
ず、発声がない、言い換えると、単語モデルにラ
ベルがない、ある状態から別の状態への遷移を表
す。遷移がある状態で始まつて同じその状態で終
る場合、この遷移は、1サンプル期間(すなわ
ち、1/100秒)よりも長く保持される発声を表す。
フイーニーム・フオーン・マシーン1210を
第4B図に示す。このマシーンは、フイーニーム
の発音をマルコフ過程としてモデル化する。全て
のフイーニーム・フオーン・マシーンは、第4B
図に示す構造、すなわち、2つの状態SiとSf、及
び3つの遷移tr1とtr2とtr3を有する。遷移tr
1及びtr2はそれぞれ遷移確率及び、200個のフ
イーニームのどれかが遷移中に生成される確率を
表す200個の確率値のベクトルを有する。遷移tr
3は空遷移である。フイーニーム・フオーン・マ
シーンは、音素フオーン・マシーンと同じように
連結して、単語の発音を記述するマルコフ・モデ
ルを生成することができる。これらのモデルは、
単語を表すフイーニーム・シーケンス中のフイー
ニームを当該のフイーニーム・フオーン・マシー
ンで置き換えることにより、自動的に生成するこ
とができる。フイーニーム・フオーン・マシーン
は、音素フオーン・マシーンの代替物として提供
される。第3図に示す音声認識装置に関する議論
でフオーン・マシーンと言うときはすべて、音素
フオーン・マシーンを指すものとする。
詳細突合せプロセツサ1008では、音響プロ
セツサ1004によつて生成されたラベル・シー
ケンスが、高速突合せ動作によつて生成された当
該の候補単語に関連するフオーン・マシーン・シ
ーケンスと突き合わさせる。高速突合せプロセツ
サ1006及び詳細突合せプロセツサ1008の
どちらにも使用される代表的突合せ手順は、F.ジ
エリネク(Jelinek)の論文「統計的方法による
連続音声認識(“Continuous Speech
Recognition by Statistical Methods)」,
Proceedings of the IEEE,Vo1.64,1976,
pp.532−556に記載された周知の「将来確率」手
法である。
第4A図に示すモデルは、高速突合せプロセツ
サ1006で使用するため、単語モデルでの種々
の遷移に関連する200個の値ラベル確率ベクトル
のそれぞれを単一の200値確率ベクトルで置き換
えることにより、簡略化することができる。この
ベクトルの各要素は、そのモデルで使用される全
てのベクトル中で対応する最大の値である。これ
らの簡単なフオーン・マシーンを評価するために
必要な計算は、より厳密なフオーン・マシーンを
評価する場合よりもはるかに少ない。
上述のように、高速突合せ動作と詳細突合せ動
作の後、探索プロセツサ1020が、言語モデル
1010を呼び出して、新たに選択された単語
が、前に選択された単語の文脈に適合するかどう
か決定する。言語モデル1010は、詳細突合せ
プロセツサに供給する候補単語を減らす他に、詳
細突合せ動作の結果供給される一組の同音異義語
の区別を行なう。第3図に示すシステムで使用さ
れる言語モデルは、3グラム言語モデル、言い換
えると、3つの連続した単語のグループの出現尤
度に関する統計を有する言語モデルである。
以下の例は、言語モデル1010の動作を示す
ものである。“To be or not to be”という句が
発声されたものと仮定する。高速突合せプロセツ
サ及び詳細突合せプロセツサによる処理後、
“TO”と“TOO”と“TWO”から成る第1の同
音異義語グループが探索プロセツサ1020によ
つて決定される。これは句の始めなので、文脈を
利用することはできず、したがつて、言語モデル
1010が1グラム言語モデルとして呼び出さ
れ、第1の同音異義語グループ中の3つの単語の
出現の相対確率をもたらす。この同音異義語グル
ープは探索プロセツサ1020に記憶される。次
の単語がこのシステムで処理されるとき、“BE”
と“BEE”と“B”及び“D”という単語から
なる第2の同音異義語グループが発声される。
“D”という文字がこのグループに含まれている
のは、他の“B”単語の近似音語だからである。
言い換えると、たとえ“B”単語の同音異義語で
はなくとも、統計モデルを使つてそれを他の
“B”単語から確実に区別することができないの
で、同音異義語として扱われる。これら2つの単
語グループに基づいて、“TOO”及び“BEE”と
いう単語は公算が小さいとして除外される。これ
で、3種類の可能な2語の組合せ“TO BE”,
“TWO B及び“TWO D”が残る。認識装置に
供給される次の単語は、“OR”と“OAR”と
“ORE”からなる第3の同音異義語グループを生
成する。このグループ及び可能な2語の組合せを
言語モデルに適用することにより、第1のグルー
プから単語“TWO”、第2のグループから単語
“B”及び“D”、第3のグループから単語
“OAR”及び“ORE”が除外される。句全体が
解析されるまで、この処理が継続される。
高速突合せプロセツサ1006、詳細突合せプ
ロセツサ1008及び言語モデル1010を使用
して探索プロセツサ1020によつて決定された
単語のシーケンスが、上で概説したように、音声
認識装置の出力となる。
上述のように、この従来技術の音声認識装置
は、状態間の遷移で生成されるフイーニームに対
して一定の確率値を有するフオーン・マシーンを
使用するので、連続的に発声された単語の認識が
困難である。2つの単語の同時調音によつて単語
の一方の構成音素の発音が変わる場合は、詳細突
合せプロセツサは、その発音が固定したフオー
ン・マシーンで表される正しい目標音素に一致す
る公算が小さいと見なす。この場合、音声認識装
置は誤まつた結果を生じる可能性がある。
以下に説明する本発明の実施例は、この問題に
対する解決策である。この実施例では、音韻規則
プロセツサ(PRP)1030は音声認識装置に
含まれている。このプロセツサは、訓練データか
ら文脈における音素の発音に関する音韻規則を生
成する。これらの規則はとりわけ同時調音の効果
を補償するが、認識される単語の文脈に基づいて
プロセツサ1008が使用するフオーン・マシー
ンを変更するため、詳細突合せプロセツサ100
8に供給される。
本発明のこの実施例で使用されるPRP103
0はプログラム式デイジタル・コンピユータであ
り、探索プロセツサ1020から独立しているこ
とが望ましい。PRP1030は、PRPインター
フエース回路1032を介して探索プロセツサ1
020と連絡する。PRP1030は、2つのモ
ード、すわなち既知のテキストから音韻規則を生
成する訓練モードと、これらの音韻規則を使つて
発声された未知の単語を認識する動作モードで動
作する。
以下はPRP1030の動作の要約である。次
に第6A図ないし第9D図を参照しながらPRP
1030を制御するプログラムの詳細について説
明する。訓練モードでは、PRP1030は訓練
テキスト中のどのフイーニーム・シーケンスがど
の音素を表すかを決定する。次に各音素に対する
フイーニーム・シーケンスが、音素の類似した発
音を表すグループにまとめられる。訓練モードの
最後のステツプでは、音素が出現する文脈に基づ
いて音素の発音を予測する2進判断木が生成され
る。左(L)文脈、すなわち目標音素に先行する
音素と、右(R)文脈、すなわち目標音素に続く
音素と、音節で表した、目標音素が出現する単語
の長さとが、グラフを生成する際の文脈上の標識
として使用される。
動作モードでは、PRP1030は、探索プロ
セツサ1020から現在のL文脈及び目標単語の
音声ベースフオームを供給される。この情報に基
づいて、プロセツサ1030は、目標単語中のそ
れぞれの音素のベースフオームを定義するフイー
ニーム・フオーン・マシーンのシーケンスを見つ
ける。これらのフイーニーム・ベースフオーム
は、詳細突合せプロセツサ1008に供給され
る。詳細突合せプロセツサ1008は、これらの
フイーニーム・ベースフオームを連結してその単
語のマルコフ・モデルを形成し、次にこのモデル
を使つて、認識しようとするフイーニーム・シー
ケンスが目標単語を表す尤度を決定する。
第6A図、第6B図及び第6C図は、PRP1
030を制御するプログラムを記述する流れ図を
構成する。第6A図及び第6B図は訓練モードを
記述し、第6C図は動作モードを記述する。第6
A図のステツプ1602で、すべての訓練データがフ
イーニーム・アルフアベツトを使つてラベルをつ
けられる。この手順は、受け取つた際の入力デー
タの通常のラベル付けとは異なる。何故ならば、
音韻規則を定義する以下のステツプがこのデータ
に繰返しアクセスするからである。次のステツプ
1604は、ラベル付き訓練データ、訓練データで表
される既知のテキスト、及び音声ベースフオーム
のアルフアベツトを使つて、音声ベースフオーム
に対応する音声フオーン・マシーンを定義する統
計を集める。これらの統計は、例えば、周知の順
逆アルゴリズムを使つてラベル付き訓練データを
既知のテキストによつて示された音声ベースフオ
ームに適用することにより、決定することができ
る。次に、ステツプ1606で、この処理によつて定
義された音声フオーン・マシーンが、ラベル付き
訓練データにおけるフイーニーム・シーケンスに
整合される。この整合動作は周知のヴイテルビ
(Viterbi)整合アルゴリズムを使用する。順逆ア
ルゴリズム及びヴイテルビ・アルゴリズムは、L.
R.バール(Bahl)等の論文「連続音声認識のた
めの最大尤度法(A Maximum Likelihood
Approach to Continuous Speech
Recognition)」,IEEE Transactions on
Pattern Analysis and Machine Intelligence,
Vo1.5,No.2,1983年3月、pp.179−190に記載
されている。
次のステツプ1608では、訓練テキスト内の個々
の音素に対応する全てのフイーニーム・シーケン
スを抜き出す。これらのフイーニーム・シーケン
スは、それらが表す音素に従つてグループにまと
められる。特定グループ中のシーケンスは、その
グループに関連する音素のそれぞれ異なる可能な
発音に対応する。
ステツプ1610で、各グループの各フイーニー
ム・シーケンスについてフイーニーム・ベースフ
オームが生成される。この動作はフイーニーム・
シーケンスを複写し、複写されたシーケンス中の
フイーニームをフイーニーム・フオーン・マシー
ンに変換し、次にフイーニーム・フオーン・マシ
ーンを連結してフイーニーム・ベースフオームを
生成する。代表的なフイーニーム・フオーン・マ
シーンについては、第4B図に関連して上で説明
した。各ベースフオームは、基礎となるフイーニ
ーム・シーケンスをそこから得た特定の音素の発
音のモデルを作るフイーニーム・フオーン・マシ
ーンのシーケンスを表す。次のステツプ1612で、
順逆アルゴリズムを用いて、各フイーニーム・ベ
ースフオーム中の構成フイーニーム・フオーン・
マシーンについて、訓練された統計を得る。以下
に述べるように、これらの訓練された統計を使つ
て、フイーニーム・フオーン・マシーンをクラス
タにまとめる。
ステツプ1614で、音素の発音の文脈上の相異を
記述する一組の音韻規則を生成するため、第1の
音素及びその対応するフイーニーム・ベースフオ
ーム・グループを選択する。ステツプ1616で、こ
の動作を開始して、選択されたグループの各フイ
ーニーム・シーケンスに、そのL文脈及びR文
脈、ならびにフイーニーム・シーケンスがそこか
ら得られた元の単語の長さで注釈を付ける。本発
明のこの実施例では、L文脈は、訓練テキスト中
でこのシーケンスがそこから得られた元の音素の
前に現れる5つの音素を含み、R文脈は、元の音
素の後に現れる5つの音素を含む。ステツプ1616
の実行後、第6A図及び第6B図の結合子Aで示
すように、第6B図のステツプ1618に移る。
ステツプ1618で、選択されたグループのフイー
ニーム・シーケンスを、それに関連するフイーニ
ーム・ベースフオームを使つてクラスタにまとめ
る。このステツプでは、選択された音素の類似の
発音を表すフイーニーム・シーケンスを、クラス
タと呼ばれるそれぞれ異なるサブグループに関連
付ける。これらのクラスタにはそれぞれ固有の識
別番号を割り当てる。フイーニーム・シーケンス
のクラスタ化動作については、後で第7図に関し
て説明する。
ステツプ1620で、グループ内の各フイーニー
ム・シーケンスにそのクラスタ番号で注釈を付け
る。各クラスタ番号は、選択された音素の類似の
発音のクラスを示す。
ステツプ1620に続くステツプ1621で、訓練デー
タを2つの部分に分割する。第1の部分は生成用
データと呼ばれ、以下に説明するように、2進判
断木に対する質問を生成するために使用される。
第2の部分は検査用データと呼ばれ、生成用デー
タを使つて生成された質問が特定の1組の生成用
データについてだけでなく、一般に有効となるよ
うにするために使用される。
次のステツプ1622で、生成用データ及び検査用
データを使つて、判断グラフを作成する。このグ
ラフは、所与のフイーニーム・シーケンスのL文
脈とR文脈及び単語長データからクラスタ番号を
予測するために使用される。本発明のこの実施例
では、判断グラフは、パイロン条件を有する2進
木に基づくイデイオツト・システムである。イデ
イオツト・システムとは、自習エキスパート・シ
ステム、すなわち、エキスパート・ガイダンスな
しで構成されたエキスパート・システムである。
一般に、このグラフはグループ内のフイーニー
ム・シーケンスを、木の葉の所にあるサブセツト
に区分する。サブセツト内の各フイーニーム・シ
ーケンスは、その音素のほぼ同じ発音を表す。判
断木の構成については、後で第8A図、ないし第
8D図、第9A図及び第9B図に関して説明す
る。
所与のフイーニーム・シーケンスの文脈に関す
る質問をすることにより判断木を走査してサブセ
ツトに達する。これらの質問は自動的に生成さ
れ、木のノードで「パイロン」に配置される。後
で第8A図及び第8B図に関して説明するよう
に、パイロンは、あるノードでデータを2つの適
当なサブセツトに分割する。理想的には、これら
のサブセツトはほぼ等しい数の異なるクラスタを
含む。しかし、サブセツトが等しくないときで
も、パイロンによる分割によつて、親サブセツト
に関して知られている情報に比べて各子サブセツ
トの内容に関して知られている情報が増加する傾
向がある。この2進木の構成は、自動規則生成機
構が注釈付きフイーニーム・シーケンスからそれ
以上情報を引き出すことができなくなるまで継続
する。木の構成が終了したとき、木の各葉は、一
組の文脈環境における選択された音素の発音を記
述する一組のフイーニーム・シーケンスを含む。
次のステツプ1624で、音素に対する一組のベー
スフオーム(判断木の各葉ごとに1つのベースフ
オーム)を生成する。これらのベースフオームは
それぞれ一連のフイーニーム・フオーン・マシー
ンから成る。ベースフオームを生成するには、例
えば、葉ノードで異なるフイーニーム・シーケン
スの全てから1つまたは複数の包括的ベースフオ
ームを生成し、次に順逆アルゴリズムを使つて、
包括的ベースフオームを構成するフイーニーム・
フオーン・マシーンに関する統計を集める。
選択された音素に対する判断木の各葉に対する
フイーニーム・ベースフオームを生成した後、ス
テツプ1626で、選択された音素が音素アルフアベ
ツト中で最後のものであつたかどうか判定する。
そうでない場合は、アルフアベツト中の次の音素
を選択し、次に結合子Bを介して第6A図のステ
ツプ1616に分岐して戻り、新たに選択された音素
に対する判断木を生成する。しかし、ステツプ
1626で選択された音素がアルフアベツト中で最後
のものである場合は、結合子Lを介して第6C図
のステツプ1630に分岐する。
第6C図の流れ図は、第5図に示した音声認識
装置の動作を示す。ステツプ1630で、受け取つた
発話が、第1図及び第2図に関連して上述したよ
うに、フイーニーム・アルフアベツトを使つて音
響プロセツサ1004によりラベルをつけられ
る。次に、ステツプ1632で、発話に応答して生成
された一連のフイーニーム(ラベル)が高速突合
せプロセツサ1006に供給される。プロセツサ
1006は上述のように動作して、一連のラベル
が表す公算の大きな単語の予備セツト(シヨー
ト・リスト)を提供する。
これらの単語の各々に対する音声ベースフオー
ム、及び以前に認識された単語から得られた関連
のL文脈が、探索プロセツサ1020により音韻
規則プロセツサ1030に加えられる。ステツプ
1634で、適用された単語のシラブルで表した単語
長、供給されたL文脈、及び適用されたベースフ
オームから得られた部分的なL文脈とR文脈を使
つて、その単語を構成する音素に対する適当なフ
イーニーム・ベースフオームを見つける。次にス
テツプ1635で、プロセツサ1030は、詳細突合
せプロセツサ内の対応する音素フオーン・マシー
ンを、判断木から決定された音素のフイーニー
ム・ベースフオームの連結によつて得られたフイ
ーニーム・フオーン・マシーンで置き換える。
やはりステツプ1635で、詳細突合せプロセツサ
1008は、第3図に関連して上述したように、
目標ラベル・シーケンスを、適用された単語の音
声ベースフオームと対照して評価する。ただし、
詳細突合せプロセツサは、音素フオーン・マシー
ンを使用する代りに、音韻規則プロセツサ103
0から供給されたフイーニーム・ベースフオーム
から得られたフイーニーム・フオーン・マシーン
を使用する。この種の評価は、ステツプ1636及び
1637に示すように、シヨート・リスト内の各ワー
ドについて実行される。目標ラベル・シーケンス
が単語の各々に一致する尤度を示す値が、探索プ
ロセツサ1020に供給される。これらの尤度値
は、言語モデル1010に適用される単語として
シヨート・リストから最も公算の大きな単語を選
択するため、ステツプ1638で探索プロセツサ10
20が使用する。
言語モデル1010は上述のように動作して、
探索プロセツサ1020により最も公算が大きい
と決定された音声ベースフオームで表される任意
の同音異義語のうちから1単語を選ぶ。さらに、
言語モデル1010は、前に認識された単語のシ
ーケンスを評価して、シーケンス中のいずれかの
単語が公算が小さいかどうか決定することができ
る。
ステツプ1642でそのシーケンスが公算が大きい
ことが判明した場合、ステツプ1644で、最も最近
認識された単語がワークステーシヨン1012に
供給される。しかし、そのシーケンスが公算が小
さいと決定された場合は、ステツプ1646で、音韻
規則プロセツサ1030及び詳細突合せプロセツ
サ1020を使つて、シーケンス内の各単語を、
そのシヨート・リスト内の他の単語と対照して再
評価する。目標単語の各々に続く公算の大きな単
語が決定されているので、この再評価ステツプで
より完全なR文脈を利用することができる。この
追加文脈は、音韻規則プロセツサ1030に一組
のより正確なフイーニーム・フオーン・マシーン
を詳細突合せプロセツサ1008に供給させるこ
とにより、単語の一層正確な認識を可能にするこ
とができる。
ステツプ1648で、再評価された選択の各々が言
語モデル1010に適用されて、同音異義語のう
ちから1つの単語を選ぶ。その結果得られた単語
が、ステツプ1650でワークステーシヨン1012
に供給される。ステツプ1644とステツプ1650の後
で、ステツプ1630に分岐して戻り、次の発話によ
つて生成されたラベル・シーケンスを得る。音声
認識処理はこのラベル・シーケンスで継続する。
不必要な複雑さを避けるため、音声認識アルゴリ
ズムが逐次処理であるとして説明してきた。しか
し、パイプライン式処理も使用できるようになつ
ている。パイプライン式システムでは、音響プロ
セツサ1006、詳細突合せプロセツサ1008
及び言語モデル1010によつて実行される処理
ステツプを、オーバーラツプさせることができ
る。
上述のように、第7図は、第6B図のステツプ
1618の一層の詳細、すなわち、注釈付きのフイー
ニーム・シーケンスをクラスタにまとめるための
アルゴリズムを示す流れ図である。このアルゴリ
ズムは、フイーニーム・シーケンス中のフイーニ
ームの生成をポアツソン過程として処理するモデ
ルに基づいている。このアルゴリズムでは、第6
A図のステツプ1612で生成されたフイーニーム・
フオーン・マシーンが、各フイーニーム・シーケ
ンスごとに、フイーニーム・アルフアベツト中の
各フイーニームの予想出現頻度を提供する。さら
に、クラスタ内のフイーニーム・シーケンスは、
アルフアベツト中の各フイーニームの実測出現頻
度を提供する。2つのクラスタの予想頻度と実測
頻度を統計的に比較して、2つのクラスタの実測
シーケンスが同じフイーニーム・フオーン・マシ
ーンによつて生成された公算が大きいかどうかが
決定される。この尤度が所定のしきい値よりも高
く、これらのクラスタが互いに最も類似している
場合は、この2つのクラスタが組み合わされる。
この処理は、それ以上クラスタを組み合わせるこ
とができなくなるまで、組み合わされたクラスタ
で継続する。
このアルゴリズムの最初のステツプ1702で、各
フイーニーム・シーケンスをそれ自体のクラスタ
に割り当てることにより、最初のクラスタ・セツ
トを設定する。このステツプは、実測フイーニー
ム・ヒストグラム(フイーニーム・シーケンスの
ヒストグラム)及びマルコフ・モデル(対応する
フイーニーム・ベースフオームのヒストグラム)
を各クラスタと関連付ける。次に、ステツプ1704
で、式(1)で定義される近似を使つて、フイーニー
ム・アルフアベツト中の各フイーニームの予想
頻度μiを計算する。
μiNj=1 ×jPr(fi|Fj) (1) 式(1)で、fiはi番目のフイーニームを表示し、
Fiは、フオーン・アルフアベツト中に合計N個の
フオーンがある場合のj番目のフイーニーム・フ
オーンを表示し、Xjはクラスタのヒストグラム
中のfjの実測頻度を示し、Pr(fi|Fj)は、フイー
ニームfiが、フイーニーム・フオーンFjによつて
生成されたとマルコフ・モデルから決定される確
率を表す。
第7図の流れ図の次のステツプ1706で、各クラ
スタを他の全てのクラスタと比較して、それらの
クラスタを結合して1つのクラスタにすべきかど
うか判断する。このステツプを実行するとき、プ
ログラムは、2つのクラスタを比較する対数尤度
比を計算する。対数尤度比をLで表すと、関数−
2Lは漸近x2乗分布を有する。したがつて、関数
−2Lの値が定数Kを超える場合は、2つのクラ
スタは大きく異なつていると見なせる。この定数
を変更すると、最終的に生成されるクラスタの数
を変えることがでる。本発明のこの実施例では、
Kの値は、約3000個のフイーニーム・シーケンス
から50個ないし100個のクラスタを発生するよう
に選択される。式(2)は、受入れ可能な結果をもた
らすものと本発明者等が決定した対数尤度比の近
似値を定義するものである。
L=n1Ni=1 {xi1nμi(M3) −μi(M3)}− n1Ni=1 {xi1nμi(M1)−μi(M1)}+ n2Ni=1 {yi1nμi(M3)−μi(M3)}− n2Ni=1 {yi1nμi(M2)−μi(M2)} (2) 式(2)で、M1及びM2項は、評価される2つのク
ラスタを表示し、値n1及びn2はそれぞれこれら2
つのクラスタ中のフイーニーム・シーケンスの数
を表す。M3項は、クラスタM1とM2を組み合わ
せることによつて発生されるクラスタを表す。変
数iはフイーニーム・アルフアベツト中のN個の
フイーニームのうちの1つを示し、値xi及びyi
は、それぞれクラスタM1及びM2内のフイーニー
ムiの実測フイーニーム頻度の平均を示し、μi
(M1),μi(M2),μi(M3)項は、それぞれクラス
タM1,M2,M3内のフイーニームiの予想フイ
ーニーム頻度を示す。μi(M1),μi(M2)の値は式
(1)を使つて決定することができ、μi(M3)の値
は、式(3)で記述した近似値を使つて計算すること
ができる。
μi(M3)={n1μi(M1)+n2μi(M2)}/ (n1+n2)(i=1〜Nの場合) (3) ステツプ1708で、ステツプ1706で評価された各
クラスタ対について、値−2Lが決定され、しき
い値Kよりも小さい最小の−2L値を有する、比
較されたクラスタ対が組み合わされる。組み合わ
されたクラスタの予想フイーニーム頻度は、式(3)
を使つて計算された値μi(M3)である。
ステツプ1710で、ステツプ1708の組合せ動作後
のクラスタの数が、ステツプ1708の前に存在した
数と比較される。これらの数が等しくない場合
は、プログラムは、ステツプ1706に分岐して、存
在するクラスタをさらに組み合わせようとする。
しかし、これらの数が等しい場合は、それ以上ク
ラスタを組み合わせることができず、プログラム
はステツプ1712に分岐して、クラスタに識別番号
を割り当てる。上述のように、これらの識別番号
は、第6B図のステツプ1620で、フイーニーム・
シーケンスに注釈を付けるために使用される。
第6A図及び第6B図は、それぞれパイロン条
件を有する2進決定木の概念及びパイロン条件の
概念を示す。第8A図に示す木構造は、3つの判
断ノードN0,N1,N2と4つの葉ノードL1,L2,
L3,L4を有する。各判断ノードは、第8B図に
さらに詳細に示すパイロン条件と関連付けられて
いる。第8A図に示す形式の判断木を作成するに
は、一組のデータ、この例では一組の注釈付きフ
イーニーム・シーケンスを使つてパイロン条件、
例えば、ノードN0におけるパイロン条件を生成
する。この条件は、データを2つの別々の部分、
すなわち、パイロン条件が「真」と評価される部
分(すなわち、N1)と、パイロン条件が「偽」
と評価される部分(すなわち、N2)に分割する。
次にノードN1におけるデータを使つて、そのデ
ータを2つの部分L1とL2に分割する第2のパイ
ロン条件を生成する。同じ様にして、ノードN2
におけるデータを使つて、ノードN2におけるデ
ータを2つの部分L3とL4に分割する第3のパイ
ロン条件を生成する。本発明のこの実施例では、
葉ノードL1ないしL4におけるデータは、それぞ
れ所与の音素を、その音素が出現する文脈に基づ
いて発音する種々の方法を表す。
第8B図は代表的なパイロン条件を示す。一般
に、パイロン条件は幾つかの質問、この例では5
つの質問から成る。これらの質問の各々は、「xi
は集合Siの構成要素か」(すなわち、xiεSi)とい
う形とする。ただし、xiは、テストされるフイー
ニーム・シーケンスに対する特定の文脈標識を表
し、Siはその文脈標識に対する一組の可能な値を
表す。例えば、評価されるフイーニーム・シーケ
ンスのグループが音素“B”の異なる発音を表す
場合、質問の例は、「フイーニーム・シーケンス
の後に“R”が続いているか」、すなわち、目標
フイーニーム・シーケンス(xi)の各文脈内の最
初の音素が“R”音素の集合(Si)の構成要素で
あるかとなる。
第8B図に示す最初の質問Q1について、この
質問を生成するために使用された全てのデータは
「偽」とマークされる。この質問が評価されると
き、このデータのうちのあるもの、すなわち、質
問に対する答えが肯定であるものが「真」とマー
クされる。この質問は、予測されるデータ、すな
わちクラスタ番号を、このとき「真」と「偽」の
マークをつけられたデータに分離させる場合に、
有効であると見なされる。言い換えると、質問後
の「偽」データの集合が「真」データの集合より
も、クラスタ番号Qで注釈を付けられたシーケン
スのずつと大きな部分を占める場合、またはそれ
と逆の場合に、その質問は有効と見なされる。こ
の分離の概念は、情報理論ではデータのエントロ
ピーの減少として知られている。何故ならば、元
の集合のデータの構成について知られていたより
も多くのことが、サブセツトの各々におけるデー
タの構成について知られているからである。有効
な質問と見なされた場合のみ、その質問はパイロ
ン条件に含まれる。
次に質問Q1によつて「真」とマークされたデ
ータを使つて、質問Q2が評価される。質問Q2は
「真」データのあるものを「偽」に変えることが
できる。質問Q2の有効性が前と同様に評価され、
質問が有効であると決定された場合は、この質問
は保持される。質問Q2によつて「偽」とマーク
されたデータは、Q1の評価後に「偽」のままで
あつたデータと組み合わされる。次にこの組み合
わされたデータを使つて、質問Q3を評価する。
Q3によつて「真」と決定されたデータは、Q2の
評価後に「真」のままであつたデータと組み合わ
され、組み合わされたデータを使つて質問Q4が
評価される。
この処理は、「真」及び「偽」とマークされた
データのエントロピーをさらに減少させる質問を
それ以上見つけることができなくなるまで継続す
る。例えば、第6A図ノードN0でそういう状態
になると、「偽」とマークされたデータは同様に
処理されて、ノードN1でパイロン条件を生成し、
「真」とマークされたデータは処理されて、ノー
ドN2でパイロン条件を生成する。データのエン
トロピーをさらに減少させる質問を見つけること
ができなくなると、葉ノード、例えば、L1ない
しL4が生成される。
第8C図及び第8D図は、第6B図のステツプ
1622に関連して上述した、2進決定木を構成する
ための代表的アルゴリズムを示す。第8C図及び
第8D図に記述されたアルゴリズムは、再帰的ア
ルゴリズム、すなわち、それ自体のコピーを呼び
出すことができるアルゴリズムである。アルゴリ
ズムが呼び出される度に、一組のデータが、パイ
ロン質問によつて決定される2つの適切なサブセ
ツトに分割される。呼出しの度に、アルゴリズム
は、サブセツトをさらに分割することが望ましい
かどうかを決定するため、生成された2つのサブ
セツトの各々について1度ずつそれ自体を呼び出
す。最後の呼出しで、それ以上の分割が望ましく
ないと判断されたとき、2進判断木が完成する。
このアルゴリズムの最初のステツプ1802で、生
成用データ及び検査用データの全てを「偽」とマ
ークする。この動作で、パイロン質問を生成し、
評価するために使用されるデータの初期条件が設
定される。
ステツプ1804で、「偽」とマークされる生成用
データの条件付きエントロピーを最小にし、検査
用データのエントロピーの正味の減少を生じるxi
εSiの形の質問を生成する。ステツプ1804で使用
されるアルゴリズムについては、後で第9A図及
び第9B図に関連して説明する。この質問がステ
ツプ1806で「良」と判定された場合は、ステツプ
1810でそれがパイロンに記憶される。この質問が
良でない、すなわち無効な質問である場合は、ス
テツプ1808で、xiεOがパイロンに加えられる。
無効な質問は「真」データを「偽」に変えず、ま
た「偽」データを「真」に変えない。ステツプ
1804,1806,1808及び1810によつて生成される質
問が、「偽」とマークされたデータに適用されて、
そのデータの幾つかを「真」としてマークする。
したがつて、この質問は、第8B図に関連して上
述した質問Q1,Q3またはQ5の1つでしかありえ
ない。ステツプ1812,1814,1816及び1818は、
「真」とマークされたデータを処理して、そのデ
ータの幾つかに「偽」とマークする質問を生成す
るために使用される。
ステツプ1812で、「真」とマークされたデータ
の条件エントロピーを最小にするxiεSiの形の質
問を見つける。ステツプ1012で発生された質問が
「良」だつた場合は、ステツプ1814及びステツプ
1816でそれが(例えば、第8B図に示す例では
Q2またはQ4として)パイロンに記憶される。質
問が「良」でなかつた場合は、ステツプ1818で無
効な質問が記憶される。
ステツプ1818に続いて、ステツプ1820で、パイ
ロンに記憶された最後の2つの質問が無効であつ
たかどうか決定する。無効でなかつた場合は、さ
らに質問をパイロンに加えることにより、エント
ロピーがさらに多少減少する。この条件は、ステ
ツプ1816が実行された後でも満たされる。したが
つて、ステツプ1820の「否定」分岐でもステツプ
1816でも制御がステツプ1804に移り、ステツプ
1804で「偽」データに対する次の質問を生成す
る。
しかし、最後の「真」質問及び最後の「偽」質
問が共に無効な質問であつた場合は(すなわち、
ステツプ1820からの「肯定」分岐)、ステツプ
1022で、パイロンに記憶された質問を検査する。
少なくとも1つの無効でない質問がパイロンに記
憶されていた場合は、判断木構成アルゴリズムは
ステツプ1824でそれ自体を呼び出して、「真」と
マークされた生成用データ及び検査用データをそ
れぞれ第1の呼出しに対する生成用データ及び検
査用データとして提供し、ステツプ1826で、「偽」
とマークされた生成用データ及び検査用データを
それぞれ第2の呼出しに対する生成用データ及び
検査用データとして提供する。これらの呼出しは
それぞれ木のサブノードを構成する。ステツプ
1824では、第8A図に示すように右側のサブノー
ドを形成し、ステツプ1826では左側のサブノード
を形成する。
ステツプ1822で、最後のパイロン条件に無効な
質問のみが記憶されていると決定した場合は、ス
テツプ1830で、そのノードに対する生成用データ
及び検査用データが組み合わされ、ノードは葉ノ
ードと呼ばれる。ステツプ1830の後、ステツプ
1832が実行されて、判断木生成アルゴリズムがス
テツプ1622,1824または1826で呼び出されたかど
うかによつて、それぞれ主プログラム(すなわ
ち、第6B図のステツプ1624)、ステツプ1826ま
たはステツプ1828に制御が戻る。
パイロン条件に関する個々の質問を生成及び検
査するためのアルゴリズムを、第9A図及び第9
B図に示す。このアルゴリズムの目的は、質問xi
εSiによつてフイーニーム・シーケンスができる
だけ大きなエントロピーの減少をもたらすサブセ
ツトに分割されるような、文脈変数xiの値の集合
Siを見つけることである。あるパイロン条件に対
して1つの質問を生成するため、以下に説明する
アルゴリズムは、各文脈変数ごとに1ずつ、11の
質問を生成する。これら11の質問のうち1つの質
問だけが、すなわち生成用データに適用されたと
き最大のエントロピー減少を生じる質問だけが保
持される。次にこの質問が、第8C図のステツプ
1804に関連して上述したように、検査用データに
対して検査される。
集合Siには、左文脈変数及び右文脈変数に対す
る音素集合と、単語長文脈変数に対する数値集合
の2種類がある。最初、所与の文脈変数に対する
集合Siは空である。すなわち、空集合である。音
素集合では、音素アルフアベツトから1度に1つ
の音素が、その集合の初期項またはシード項とし
て試される。このアルゴリズムは次に音素アルフ
アベツト中の可能な各音素を、1度に1つづつ集
合Siに加え、その質問が生成用データに適用され
たとき、どの追加が最大のエントロピー減少を生
じるかを決定する。次に、集合内の各項を試しに
削除して、どの削除が生成用データに対して最大
のエントロピー減少を生じるかを決定する。この
処理は、初めに1つの新しい項を試みに集合に追
加し、次に1つの既存項を集合から削除して、そ
れ以上エントロピーの減少が認められなくなるま
で続行する。この質問は、所与の文脈変数に対す
る最良の質問として選択される。単語長変数の集
合Siの生成は、シラブル数で表した可能な単語長
の代りに、音素アルフアベツトの音素を使用する
点を除いて、上で概説したのと同じ方法で進行す
る。
11の質問が(11個の文脈変数の各々について1
つずつ)見つかつたとき、生成用データに適用さ
れたとき最大のエントロピー減少を生じる質問が
「最良の」質問として選択される。次にこの最良
の質問xiεSiを検査用データに対して検査して、
そのデータの正味のエントロピー減少もあること
を確認する。
本明細書では、エントロピーは、ある状況に関
する情報の欠如の度合を意味する。この例では、
注釈付きフイーニーム・シーケンスの集合におけ
る情報の欠如または混乱の度合である。シーケン
スの集合のクラスタ番号注釈は、その集合の混乱
の量、すなわちエントロピーを決定するために使
用され、文脈注釈は、集合を再分割して、親集合
よりも混乱の少ないサブセツトを生成するために
使用される。n個の可能な値y1,y2,…,ynを
有する離散確率変数YのエントロピーH(Y)を
定義する式は式(4)で表される。
H(Y)=−oi=1 Pr(Y=yi)log2Pr(Y=yi) (4) m個の可能な値xi,x2,…,xnを有するもう1
つの離散確率変数をxとすると、xが与えられた
ときのYの平均条件エントロピーは式(5)で表され
る。
H(Y|X)=−ni=1 Pr(X=xioi=1 Pr(Y=yi|X=xj)log2Pr(Y=yi|X=xi)(5) 確率変数Xに対するデータのサンプルが与えら
れると、式(5)における確率をこのサンプルにおけ
る値yi及びxjの出現頻度及び出現の相対頻度で置
き換えることにより、条件エントロピーH(Y|
X)の推定値を得ることができる。以下に述べる
アルゴリズムの説明では、式H(Y|S)(ただ
し、Sはデータの集合)は、Xが与えられたとき
のYの条件エントロピーの近似値を意味する。た
だし、サンプルとして使用されるxiのみが集合S
に含まれるxiである。
質問生成アルゴリズムを開始する前に、2種類
のテーブル、すなわち、音素アルフアベツト中の
全ての音素のテーブルと、可能な全ての単語長の
テーブルが存在するものと仮定する。
質問生成アルゴリズムの最初のステツプは、変
数iに値0を割り当てることである。次のステツ
プ1904で、iの値が増分される。ステツプ1906
で、iをNと比較する。ただし、Nは可能な文脈
変数の数である。本発明のこの実施例では、Nは
11に等しい。ステツプ1906でiがNよりも小さい
場合は、ステツプ1910が実行されて、文脈変数xi
の最初の可能な値viを含むように集合Siを初期設
定し、文脈値の集合Siが与えられたとき確率変数
Yの条件エントロピー値を含むように変数Hi
初期設定する。ステツプ1912で、Hiの値が変数
H。にセーブされる。ステツプ1914で、可能な各
文脈値が集合Siへの追加項として試みられて、集
合Siに加えられたとき、どれが確率変数Yの条件
エントロピーの最大の減少をもたらすかを決定す
る。ステツプ1916で、viで表された選択された文
脈値が、集合Siの諸要素と共に集合Siに含まれ、
ステツプ1914で決定された最小条件エントロピー
値が変数H′にセーブされる。
ステツプ1918で、値H′が値Hiと比較されて、
文脈値viを集合Siに加えることにより正味のエン
トロピー減少があつたかどうかが決定される。そ
うであつた場合は、ステツプ1920でSiをS′で置き
換え、HiをH′で置き換える。次のステツプ1922
で、集合Si内の各項の削除を試みて、いずれかの
項が削除されたとき、確率変数Yの条件エントロ
ピーの正味の減少が生じるかどうか決定する。最
低の条件エントロピー値を生じる、削除された文
脈値はv″で表され、文脈標識の集合Si−v″はS″で
表され、ステツプ1922で決定された最小の条件エ
ントロピー値はH″で表される。ステツプ1924で、
H″がHiよりも小さいことがわかつた場合は、ス
テツプ1926が実行されて、S″がSiに割り当てら
れ、H″がHiに割り当てられる。
ステツプ1928で、Hiの値が、ステツプ1912で
保管された値H。と比較されて、v′を集合Siに加
え、または集合Siからv″を削除し、あるいはその
両方を行なうことにより、生成用データのエント
ロピーの正味の減少があつたかどうかが決定され
る。正味の減少があつた場合は、ステツプ1928の
肯定分岐からステツプ1912に分岐して、上述した
ように別の文脈標識の追加または削除あるいはそ
の両方を行なうことにより、Yの条件エントロピ
ーをさらに減少させようとする。
しかし、エントロピーの減少がなかつたと決定
された場合は、ステツプ1928の否定分岐からステ
ツプ1904に分岐して、変数iを増分して次の文脈
変数に対する集合Siを生成する。
N個の条件エントロピー値(Hi)が(N個の
文脈変数の各々について1つずつ)決定される
と、ステツプ1906からステツプ1930に分岐する。
ステツプ1930で、最大のエントロピー減少を生じ
た集合Siを見つけ、その集合のインデツクスを変
数iに割り当てる。次にステツプ1932で、集合Si
に基づく生成用データでの2つの相対頻度分布
P′及びP″を計算する。xjがSiの構成要素であると
すると、P′は確率変数Yの相対頻度分布であり、
xjがSiの構成要素であるとすると、P″は確率変数
Yの相対頻度分布である。したがつて、これらの
分布は、頻度分布Pで記述される親ノードの
「真」及び「偽」の子ノードに関係する。
アルゴリズムの次のステツプ1934では、式(6)及
び(7)で示されるような、分布P,P′及びP″から
得られた、平滑化された分布Q′及びQ″を使つて、
2つの子ノードの条件エントロピーを計算し、合
計する。
Q′(Y|xiεSi)=wp(Y)+(1−w) (P′(Y|xiεSi) (6) Q″(Y|xiεSi)=wp(Y)+(1−w) (P″(Y|xiεSi) (7) 平滑分布Q′及びQ″を条件付き頻度分布Pr(Y=
yi|X=xj)の代りに式(5)に代入して、「真」及
び「偽」の子ノードにおける検査用データの条件
エントロピーをそれぞれ計算するために使用され
る2つの式を得る。
平滑相対頻度分布Q′及びQ″は分布P′及びP″の
代りに使用される。何故ならば、親ノードに対す
る生成用データに現れるが、一方または他方の子
ノードの生成用データには現れない文脈値があり
得るからである。この例で、頻度分布P′及び
P″を、式(5)で使用して一方の子ノードの条件エ
ントロピーを計算した場合は、式(5)のlog2因子
は、無効なゼロの値の引数をもつことになる。
平滑分布Q′及びQ″は、例えば、wの値を0.1刻
みで0.1から1.0まで変化させ、分布Q′及びQ″を使
つて得られる条件エントロピーの和を最小にする
wの値を選ぶことにより得ることができる。この
和が、条件エントロピー値であり、ステツプ1934
で示すように、変数Hcに割り当てられる。
次のステツプ1936で、親ノードの頻度分布P及
び式(4)を使つて、そのノードにおける検査用デー
タの条件エントロピーHuを計算する。ステツプ
1940で、HcとHuを比較する。HcがHuよりも小
さい場合は、その質問は検査用データに対する正
味のエントロピー減少を生じ、ステツプ1942でそ
の質問が「良」とマークされる。そうでない場合
は、ステツプ1944でその質問は「不良」とマーク
される。これらのマークされた表示は、ステツプ
1806及び1814で、第8C図に関連して上述したよ
うに、パイロン条件に質問を選択的に加えるため
に使用される。
第6B図に関連して上述したように、音韻規則
プロセツサ1030は2進判断木を生成すると、
次に木の各葉に対するフイーニーム・フオーン・
マシーンを生成する。この処理は第6B図のステ
ツプ1624で示されている。木内の各音素は、それ
が現れる文脈に基づく音素の代替発音を表す一組
の葉で表される。ステツプ1624で生成される各フ
オーン・マシーンは、葉の1枚で表された音素の
ある代替発音の統計モデルである。
第10図は、音韻規則プロセツサ1030で2
進判断木を使つてこれらのフイーニーム・フオー
ン・マシーンを生成する方法を示す流れ図であ
る。第10図で示されるプログラムは、例えば、
再帰的2進木走査アルゴリズムを使つて判断木の
各葉にアクセスする。この種のアルゴリズムは当
技術では周知である。第10図では、このアルゴ
リズムはサブルーチンNEXT LEAFで表されて
いる。このサブルーチンを繰り返して呼び出すこ
とにより、2進判断木の各葉が調べられる。
第10図に示すプログラムの最初のステツプ
11002で、変数LEAFを0に初期設定する。次の
ステツプ11004でサブルーチンNEXT LEAFを
呼び出して、木の最初の葉を選択する。次にステ
ツプ11006で、選択された葉に属する全てのフイ
ーニーム・シーケンスを集める。これらのフイー
ニーム・シーケンスは、第7図に関連して上述し
たのと同じアルゴリズムを使つて、ステツプ
11008でクラスタにまとめられる。判断木を生成
し、検査するために使用されるデータは、各音素
ごとに約3000個のフイーニーム・シーケンスを含
み、かつ2進判断木はこれら3000個のシーケンス
を分割して、各音素ごとに50ないし100枚の葉を
形成するものと仮定すると、クラスタ化ステツプ
11008で、各葉におけるフイーニーム・シーケン
スをほぼ5つのクラスタに分割することが望まし
い。
ステツプ11010で、選択された葉におけるクラ
スタの各々に対してフイーニーム・ベースフオー
ムを生成する。これは、ジエリネク等の上記論文
に記載された順逆アルゴリズムを使つて実現され
る。次のステツプ11012でこれらのフイーニー
ム・ベースフオームを接続して、複合ベースフオ
ームを定義する1つのネツトワークにする。この
ネツトワークは、人為的な初期状態及び最終状態
を、この初期状態から選択された葉の各フイーニ
ーム・ベースフオームの最初の状態への空遷移、
及び各フイーニーム・ベースフオームから人為的
最終状態への空遷移で定義することにより形成さ
れる。フイーニーム・シーケンスの5つのクラス
タを有する葉に対する複合ベースフオームを第1
0A図に示す。ステツプ11014で変数LEAFをテ
ストして、それが木の最後の葉を表しているかど
うか決定する。表していない場合は、ステツプ
11004に分岐して戻り、次の葉を選択して、その
複合フイーニーム・ベースフオームを生成する。
ステツプ11014で最後の葉が処理されたと決定し
た場合は、ステツプ11016が実行されて、判断木
の葉にインデツクスされたテーブルに全ての複合
ベースフオームを記憶する。
動作モードでは、音韻規則プロセツサ1030
は、高速突合せプロセツサ1006から供給され
た音声単語モデル中の各音素シーケンスごとに呼
び出される。供給された音素に文脈で注釈が付け
られる。これらの文脈注釈を使つて、プロセツサ
1030は、シーケンス内の各音素に対応する音
韻上の葉を探し出す。各葉に対する複合フイーニ
ーム・ベースフオームが連結されて、単語全体に
対するフイーニーム・フオーン・マシーンを生成
する。このフイーニーム・フオーン・マシーン
は、第6C図のステツプ1635に関連して上述した
ように、詳細突合せプロセツサに適用される。
音声認識装置で音韻規則を生成し、使用するた
めの方法及び装置について上述した。頭記の特許
請求の範囲で定義された本発明の範囲から逸脱す
ることなく、本明細書で開示した方法及び装置に
修正及び変更を加えることができる。
【図面の簡単な説明】
第1図(従来技術)は、既知の音声認識装置の
ブロツク・ダイヤグラムである。第2図(従来技
術)は、第1図に示した音声認識装置での使用に
適した音響プロセツサのブロツク・ダイヤグラム
である。第3図(従来技術)は、スタツク・プロ
セツサ要素をさらに詳細に示す、第1図に示した
音声認識装置のブロツク・ダイヤグラムである。
第4A図及び第4B図(共に従来技術)は、幾つ
かの文脈で第1図及び本発明の実施例で示す音声
認識装置によつて使用されるマルコフ・モデルを
表す状態図である。第5図は、本発明の一実施例
を含む音声認識装置のブロツク・ダイヤグラムで
ある。第6A図、第6B図及び第6C図は、第5
図に示した音韻規則生成機構の動作を示す流れ図
である。第7図は、本発明で使用できるポアツソ
ン投票手順を示す流れ図である。第8A図及び第
8B図は、パイロン条件及び、パイロン条件を有
する2進木の概念を説明するのに有用な説明図で
ある。第8C図及び第8D図は、第5図に示した
規則生成機構で使用できる、パイロン条件を有す
る2進判断木を構成するための方法を示す流れ図
である。第9A図及び第9B図は、パイロン条件
の単一構成要素質問を定義するための方法を示す
流れ図である。第10図は、第5図に示す音韻規
則プロセツサが2進判断木を使つてフイーニー
ム・フオーン・マシーンを生成する方法を示す流
れ図である。第10A図は、フイーニーム・シー
ケンスの5つのクラスタを有する葉に対する複合
ベースフオームを示す状態図である。 1000……音声認識装置、1002……スタ
ツク・デコーダ、1004……音響プロセツサ、
1006……高速突合せプロセツサ、1008…
…詳細突合せプロセツサ、1010……言語モデ
ル、1012……ワークステーシヨン、1020
……探索プロセツサ、1030……音韻規則プロ
セツサ。

Claims (1)

  1. 【特許請求の範囲】 1 言語成分の発音に関する音韻規則を自動的に
    生成する音声認識方法であつて、 A 訓練テキスト及び、訓練テキストを表す発声
    を処理して、上記発声の言語成分を表す複数の
    サンプルを得るステツプ、 B 上記複数のサンプルから、発声における選択
    された言語成分のそれぞれを表す一組のサンプ
    ルを選択するステツプ、 C 上記の選択されたサンプルの各々に、上記の
    選択されたサンプルと文脈的に関係のある少な
    くとも1つの言語成分の標識で注釈を付けるス
    テツプ、及び、 D 上記選択されたサンプルを、それぞれ異なる
    文脈における上記選択された言語成分の発音を
    表す個別の葉グループに、上記文脈標識に基づ
    いて分離する判断木を、上記選択され注釈を付
    けられたサンプルから、生成するステツプ、 を含むことを特徴とする連続音声認識方法。 2 一連の言語成分を、連続して発声された一連
    の単語を表すサンプリングされたデータ信号に関
    連付ける連続音声認識方法であつて、 A 第1の言語成分を上記のサンプリングされた
    データ信号の第1の組のサンプルと関連付ける
    ステツプ、 B 上記のサンプリングされたデータ信号の第2
    の組のサンプルを第2の言語成分と関連付ける
    ステツプ、 C 選択された言語成分に対する複数の文脈標識
    によつて、上記選択された言語成分のそれぞれ
    異なつた発音を表す複数の確率モデルを定義す
    ることのできる判断手段に、上記第一の言語成
    分を文脈標識としてアクセスして、上記第2の
    組のサンプルを上記第2の言語成分に関連付け
    るために使用される確率モデルを定義するステ
    ツプ、及び、 D 上記の定義された確率モデルから、上記第2
    の言語成分が上記第2の組のサンプルに対応す
    る尤度を計算するステツプ を含むことを特徴とする連続音声認識方法。
JP2053912A 1989-03-14 1990-03-07 連続音声認識方法 Granted JPH02273795A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/323,479 US5033087A (en) 1989-03-14 1989-03-14 Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US323479 1989-03-14

Publications (2)

Publication Number Publication Date
JPH02273795A JPH02273795A (ja) 1990-11-08
JPH0583918B2 true JPH0583918B2 (ja) 1993-11-30

Family

ID=23259375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2053912A Granted JPH02273795A (ja) 1989-03-14 1990-03-07 連続音声認識方法

Country Status (4)

Country Link
US (1) US5033087A (ja)
EP (1) EP0387602B1 (ja)
JP (1) JPH02273795A (ja)
DE (1) DE69010941T2 (ja)

Families Citing this family (221)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
DE69128582T2 (de) * 1990-09-13 1998-07-09 Oki Electric Ind Co Ltd Methode zur Phonemunterscheidung
GB9021489D0 (en) * 1990-10-03 1990-11-14 Ensigma Ltd Methods and apparatus for verifying the originator of a sequence of operations
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
JPH04182000A (ja) * 1990-11-16 1992-06-29 A T R Jido Honyaku Denwa Kenkyusho:Kk 連続音声認識装置
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
JPH05108704A (ja) * 1991-10-18 1993-04-30 Matsushita Electric Ind Co Ltd 接続マトリクス作成方法およびその装置
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US6311157B1 (en) 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
KR100309207B1 (ko) * 1993-03-12 2001-12-17 에드워드 이. 데이비스 음성-대화식언어명령방법및장치
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
NL9301119A (nl) * 1993-06-25 1995-01-16 Nederland Ptt Methode voor de detectie van het beste pad door een stochastisch netwerk, in het bijzonder voor spraak- of beeldherkenning.
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
ATE200590T1 (de) * 1993-07-13 2001-04-15 Theodore Austin Bordeaux Spracherkennungssystem für mehrere sprachen
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
JPH07319924A (ja) * 1994-05-24 1995-12-08 Matsushita Electric Ind Co Ltd 手書き電子文書のインデックス付けおよび探索方法
US5649023A (en) * 1994-05-24 1997-07-15 Panasonic Technologies, Inc. Method and apparatus for indexing a plurality of handwritten objects
US5710916A (en) * 1994-05-24 1998-01-20 Panasonic Technologies, Inc. Method and apparatus for similarity matching of handwritten data objects
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
US5680509A (en) * 1994-09-27 1997-10-21 International Business Machines Corporation Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
WO1996013830A1 (en) * 1994-10-26 1996-05-09 Dictaphone Corporation (U.S.) Decision tree classifier designed using hidden markov models
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
JPH08248975A (ja) * 1995-03-09 1996-09-27 Nec Corp 標準パターン学習装置およびこの装置を使用した音声認識装置
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5719996A (en) * 1995-06-30 1998-02-17 Motorola, Inc. Speech recognition in selective call systems
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6601027B1 (en) 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
JP2982689B2 (ja) * 1996-04-19 1999-11-29 日本電気株式会社 情報量基準を用いた標準パターン作成方式
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
US5875426A (en) * 1996-06-12 1999-02-23 International Business Machines Corporation Recognizing speech having word liaisons by adding a phoneme to reference word models
US5758024A (en) * 1996-06-25 1998-05-26 Microsoft Corporation Method and system for encoding pronunciation prefix trees
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6224636B1 (en) 1997-02-28 2001-05-01 Dragon Systems, Inc. Speech recognition using nonparametric speech models
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6195635B1 (en) 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US6269335B1 (en) 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
DE19912405A1 (de) * 1999-03-19 2000-09-21 Philips Corp Intellectual Pty Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner
US6711541B1 (en) * 1999-09-07 2004-03-23 Matsushita Electric Industrial Co., Ltd. Technique for developing discriminative sound units for speech recognition and allophone modeling
US6928448B1 (en) * 1999-10-18 2005-08-09 Sony Corporation System and method to match linguistic structures using thesaurus information
US6529865B1 (en) 1999-10-18 2003-03-04 Sony Corporation System and method to compile instructions to manipulate linguistic structures into separate functions
US6721697B1 (en) 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6535886B1 (en) 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7328404B2 (en) * 2000-07-21 2008-02-05 Microsoft Corporation Method for predicting the readings of japanese ideographs
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network
JP3799280B2 (ja) * 2002-03-06 2006-07-19 キヤノン株式会社 対話システムおよびその制御方法
CN1647079A (zh) * 2002-04-19 2005-07-27 计算机联合思想公司 使用神经网络进行数据挖掘
US7777743B2 (en) * 2002-04-19 2010-08-17 Computer Associates Think, Inc. Viewing multi-dimensional data through hierarchical visualization
US7444310B2 (en) * 2002-04-19 2008-10-28 Computer Associates Think, Inc. Automatic model maintenance through local nets
EP1652173B1 (en) 2002-06-28 2015-12-30 Chemtron Research LLC Method and system for processing speech
US7206738B2 (en) * 2002-08-14 2007-04-17 International Business Machines Corporation Hybrid baseform generation
FI118062B (fi) * 2003-04-30 2007-06-15 Nokia Corp Pienimuistinen päätöspuu
CN1327406C (zh) * 2003-08-29 2007-07-18 摩托罗拉公司 开放式词汇表语音识别的方法
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP5322655B2 (ja) 2005-12-08 2013-10-23 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 莫大な語彙を有する音声認識システム
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
US7365991B2 (en) * 2006-04-14 2008-04-29 Renaissance Lighting Dual LED board layout for lighting systems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008091947A2 (en) * 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101785050B (zh) * 2007-07-31 2012-06-27 富士通株式会社 语音识别用对照规则学习系统以及语音识别用对照规则学习方法
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8073693B2 (en) 2008-12-04 2011-12-06 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8200478B2 (en) * 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719023B2 (en) 2010-05-21 2014-05-06 Sony Computer Entertainment Inc. Robustness to environmental changes of a context dependent speech recognizer
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8959014B2 (en) * 2011-06-30 2015-02-17 Google Inc. Training acoustic models using distributed computing techniques
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
KR101482148B1 (ko) * 2011-12-23 2015-01-14 주식회사 케이티 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
JP7013172B2 (ja) * 2017-08-29 2022-01-31 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4091237A (en) * 1975-10-06 1978-05-23 Lockheed Missiles & Space Company, Inc. Bi-Phase harmonic histogram pitch extractor
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4307446A (en) * 1979-05-02 1981-12-22 Burroughs Corporation Digital communication networks employing speed independent switches
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
US4466060A (en) * 1982-02-11 1984-08-14 At&T Bell Telephone Laboratories, Incorporated Message routing in a computer network
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
DE3680903D1 (de) * 1986-03-27 1991-09-19 Ibm Verfahren zur erzeugung vor wortmustern aus mehreren aeusserungen fuer spracherkennung.
EP0238693B1 (en) * 1986-03-27 1991-08-21 International Business Machines Corporation Speech recognition system and method using statistical models for words
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling

Also Published As

Publication number Publication date
US5033087A (en) 1991-07-16
EP0387602B1 (en) 1994-07-27
JPH02273795A (ja) 1990-11-08
DE69010941T2 (de) 1995-03-16
DE69010941D1 (de) 1994-09-01
EP0387602A3 (en) 1991-05-15
EP0387602A2 (en) 1990-09-19

Similar Documents

Publication Publication Date Title
JPH0583918B2 (ja)
US10074363B2 (en) Method and apparatus for keyword speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6182039B1 (en) Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6208964B1 (en) Method and apparatus for providing unsupervised adaptation of transcriptions
US4977599A (en) Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US5502791A (en) Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
EP0984428B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
EP0570660A1 (en) Speech recognition system for natural language translation
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
JPH0581918B2 (ja)
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JPH0422276B2 (ja)
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
Shaikh Naziya et al. Speech recognition system—a review
CA2151370C (en) A speech recognition system
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
Ström Continuous speech recognition in the WAXHOLM dialogue system
Erman A functional description of the Hearsay-II speech understanding system