JPH03147079A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JPH03147079A
JPH03147079A JP2244139A JP24413990A JPH03147079A JP H03147079 A JPH03147079 A JP H03147079A JP 2244139 A JP2244139 A JP 2244139A JP 24413990 A JP24413990 A JP 24413990A JP H03147079 A JPH03147079 A JP H03147079A
Authority
JP
Japan
Prior art keywords
feature
expected
value
event
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2244139A
Other languages
English (en)
Other versions
JPH0756675B2 (ja
Inventor
Arthur J Nadas
アーサー・ジエー・ナダス
David Nahamoo
デービツド・ナハモー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH03147079A publication Critical patent/JPH03147079A/ja
Publication of JPH0756675B2 publication Critical patent/JPH0756675B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業−1−の利用分野 この発明は、パターン認1システムにおいて用いる決定
ツリー(decision tree)を構成するため
の、観察イベントの2進分類に関するものである。
観察イベントとは、例えば、口頭ワードまたは筆記キャ
ラクタであればよい。この発明に従って分類できるその
他の観察イベントには、それに限られるものではないが
、医療上の症状および対象のレーダ・パターンが含まれ
る。
B、従来の技術 より詳細にいえば、この発明は、2進決定ツリーを生成
させる観察イベントのセット(即ち、観察イベントの学
習セット)についての、最適もしくは最適近傍の2進分
類を発見することに関するものである。2進決定ツリー
においては、ツリーの各ノードは1個の入力パスと2個
の出力ハス(例えば、出力バス八と出力バスB)とを有
している。ツリーの各ノードにおいては、“Xはセット
Sxの要素であるか?”なる形式の質問が出される。そ
の応答がYes″であるときには、該ノードからは出力
パス八が追従される。これに対して、その応答が“No
”であるときには、該ノードからは出力パスBが追従さ
れる。
一般的にいえば、分類されるべき各観察イベントは予想
特徴Xおよびカテゴリ特徴Yを備えている。予想特徴は
M個の異なるjiJ能性のある値Xmの中の1個を有し
ており、また、カテゴリ特徴はN個の異なる可能性のあ
る値Xmの中の1個を有している。ここに、mおよびn
は、それぞれに、MおよびNよりも小さいかこれに等し
い正の整数である。
2進決定ツリーを構成するときに有利なことは、カテゴ
リ特徴Yに関する情報が最大化され、該カテゴリ特徴Y
における不確実性が最小化されるような、SXのサブセ
ラ) S X 、、、を発見することである。“分類さ
れるべき観察イベントに対して、予想特徴Xの値はサブ
セットSXi−tの要素であるか?”なる質問に対する
応答として与えられることは、複数個の観察イベントに
おける平均として、カテゴリ特徴Yの値に関する不確実
性の減少が最大になることである。
カテゴリ特徴Yにおける不確実性を最小にするために最
良のサブセットSXi、PIを発見する一つの既知の方
法は、Sxの全てのサブセットを列挙L、そして、各サ
ブセットに対するカテゴリ特徴Yの値における情報また
は不確実性を計算することによるものである。M個の要
素を有するセットSXに対しては、2(Xm 1個の異
なる可能性のあるサブセットかび在する。このために、
Sxの最良のサブセットを発見するためには、2 (M
−111個の情報または不確実性の計算が必要とされる
ことになる。従って、自動的な音声認識において経験さ
れるようなMの大きな値のために、この方法は実際的に
は不可能なことである。
レオ・プレイマン外(1,eo Brei*an et
 a1)のく分類および回帰ツリー”C1assifi
cation AndRegression Tree
s  、ワズワース社’ WadsvorthInc、
  、カリフォルニア州、モントレイ“MonLere
y   I 984、l O1−102ペイジ)によれ
ば、カテゴリ特徴Yが2個だけの可能性のある異なる値
YnおよびY2を有している特別なケース(即ち、N=
2なる特別なケース)に対する最良のサブセットSXo
□を発見するための方法が記述されている。この方法に
おいては、2 fM−111個の情報の計算を必要とす
る完全な列挙を、(M−1)個だけのサブセットに対す
る情報の計算で置換することができる。
プレイマン外による方法は次の事実を基礎とするもので
ある。即ち、予想特徴Xの各値Xmに対して、カテゴリ
特徴Yの1個の値Ynについての条件付き確率の増大し
ていく値に従い、セットSXの最良のサブセット5Xo
ptは、予想特徴値Xmの順序付けによって規定される
ような、サブセットの増大していくシーケンスの中にあ
るという゛ド実を基礎とするものである。
即ち、プレイマン外による方法においては、+3(Yn
|Xn)の値に従って、予想特徴値Xmが第1の順序に
される。これに次いでセットSxの多くのサブセットS
XIが規定されるが、ここで各すブセットSx1に含ま
れているのは、条件付き確率p(y、1x=)について
i個の最低値を有する値Xmのちのだけである。Xmに
ついてM個の異なる値が存在するときには、(M−1)
個のサブセットSxIが存在することになる。
プレイマン外によって説明されているように、サブセッ
トSXiの中の1個が情報を最大化させるものであり、
従って、クラスYの値における不確実性を最小化させる
ものである。
プレイマン外によって提供されている短縮化された方法
は、イベントが2個のクラスまたはカテゴリYnおよび
Ynに入るだけの簡単なケースのために、測定または予
想変数Xに従って、イベントの最良の2進分類を発見す
るためのものであるが、イベントが2個よりも多くのク
ラスまたはカテゴリに入るときに、予想変数Xの最良の
サブセットをどのようにして発見するかについて、プレ
イマン外は説明をしていない。
C0発明が解決しようとする課題 こノ発明の目的は、観察イベントのセットに−〕いて、
3個以上の兄なる可能性のある値Xmをイfする予想特
徴に従って、観察イベントのカテゴリ特徴Y(ここで、
カテゴリ特徴は3個以上の可能性のある値Yn、を有し
ている)の値における不確実性を最小にするように、最
適または最適近傍の2進分類を発見するための方法およ
び装置を提供することにある。
この発明の別の目的は、予想特徴Xの値の可能性のある
異なるサブセットを全て列挙することなく、また、各サ
ブセットに対するカテゴリ特徴Yの値における不確実性
を計算することなく、予想特6thxの最適または最適
近傍の分類を発見することができる、このような分類方
法を提供することにある。
100課題を解決するための手段 この発明は、観察イベントのセットを分類するための方
法および装置である。谷イベントは予想特徴Xおよびカ
テゴリ特徴Yを有している。予想特徴はM個の異なる可
能性のある値Xmの中の1個を有しており、また、カテ
ゴリ特徴はN個のiiJ能性のある値Ynの中の1個を
有している。この方法において、MおよびNは3よりも
大きいかこれに等しい整数、mはIからMまでの整数で
ありまた、nは1からNまでの整数である。
この発明によれば、観察イベントのセットにおける各イ
ベントの予想特徴値Xmおよびカテゴリ特徴値Ynの測
定がなされる。測定された予想特徴値および測定された
カテゴリ特徴値から、カテゴリ特徴値Ynおよび予想特
徴値Xmを有するイベントの生起する確率P (X I
I+ Y 、、)が、3Ynおよび各Xmに対して評価
される。
これに次いで、予想特徴値Xmの出発セットs x u
pt(t )が選択される。変数【は任意の初期値を有
している。
この評価された確率から、カテゴリ特徴値がYn、であ
るときの、セットs x 0pc(t )における予想
特徴値の条件付きの確率P (S X 、、、(t )
|Yn)が、各Ynに対して計算される。
この条件付きの確率P(SXi、1(t)|Yn)から
、カテゴリ特徴値Ynの多くの対のセy+−s”y’、
1(t)およびSYj(t)が規定される。ここに、j
は1から(N−1)までの整数である。各セット5Yj
(t)に含まれているものは、条件付きの確率P(SX
opt(t)|Yn)についてj個の最低値を有するそ
れらのカテゴリ特徴値Yn%だけである。
各セットsy、(Hに含まれているものは、条件付きの
確率P (S X npt(t )IY 、)について
(N−j)個の最高値を有するそれらのカテゴリ特徴値
Yn。
だけである。かくして、SYj(t)は5Yj(t)を
補完するものである。
上記のように規定された(N−1)対のセットから、予
想特徴値における最低の不確実性を有するものとして、
甲一対のセットSYopt(t)およびSYj(t)が
発見される。
ここで、評価されたイベントの確率り (X 、、 Y
 n)から、予想特徴値がXmであるときにセットSY
j、1(t)にカテゴリ特徴値を有する条件付きの確率
P(S Xm、、(t )|Xn)が各値Xmに対して
計算される。予想特徴値Xmの多くの対のセットSXi
(t+1)およびsx、(t+1)の規定がナサれるが
、ここで1はIからMまでの整数である。
各セットSx、(+−+−t)に含まれているものは、
条件付きの確率P(SXi、t(t)|Xm)について
個の最低値を有するそれらの予想特徴値Xmだけである
。各セットsx、(t+1)に含まれているものは、該
条件付きの確率について(M−i)個の最高値を有する
それらの予想特徴値Xmだけである。このようなセット
が(M −1)対だけ存在する。
−に記のように規定された(M−1)対のセットから、
カテゴリ特徴値における最低の不確実性を(fするもの
として、弔一対のセットSXo□(t+1)オヨびS 
X 、、、t(t + ] )が発見される。
その後で、イベントの予想特徴値がセットS xopt
(t + 1 )のメンバであるときには、該イベント
は第1のクラスに分類される。また、イベントのF 想
特61 値がセットs x、、、(t +1)のメンバ
であるときには、該イベントは第2のクラスに分類され
る。
この発明の一つの局面においては、イベントが第1のク
ラスまたは第2のクラスのメンバであることを識別する
分類信号を生成させることにより、当該イベントは第1
のクラスまたは第2のクラスに分類される。
この発明の他の局面においては、セットS Xm、、1
(t + 1 )が先行のセットSXipt(t)に等
しくなるまで、または実質的に等しくなるまで、この方
法が繰り返して反復される。
より好適には、セットの6対に対する不確実性の計算を
することによって、最低の不確実性を有するセットの対
が発見される。
これに代えて、増大する条件付きの確率の順序において
セットの6対に対する不確実性の計算をすることにより
、最低の不確実性を有するセットの対が発見される。計
算される不確実性の減少が停止1−シたときに、最低の
不確実性を存するセットの対が発見される。
この発明の更に別の局面においては、イベントのセ・ッ
ト内には存在しないイベントの予想特徴値が測定される
。該予想特徴値がセット S Xopt(t + I )のメンバであるときには
、該当のイベントは第1のクラスに分類されろ。そして
、該予想特徴値がセットT玉。p+、(: t + 1
)のメンバであるときには、該当のイベントは第2のク
ラスに分類される。
この発明による方法および装置においては、谷イベント
は、例えば、一連の口頭による発IIの中のある1個の
口頭による発声であればよい。この発明による発声の分
類は、例えば、類似の発声のモデルを生成させる目的を
もって行うことができる。これに代えて、この発明によ
る発声の分類は、例えば、[」頭による発声を認識する
目的をもって行うことができる。
その他の例においては、各イベントは、一連の[−]頭
によるワードの中のある1個の[1頭によるワードであ
る。ワードの予想特徴値には、該一連の口頭によるワー
ドにおいて直前を先行するワードの識別が含まれている
また、この発明は、[1頭による発声を自動的に認識す
るための方法および装置にも関するものである。発声さ
れる予想ワードを表す丘想ワード信号は、決定セットに
おける予想特徴信号と比較される。該予想ワード信号が
該決定セットのメンバであるときには第1の予想ワード
が出力され、そうでないときには第2の予想ワードが出
力される。
この発明による方法および装置は次の理由によ。
て有利である。即ち、この発明のh′法および装置によ
れば、観察イベントのセットに対して、該イベントのカ
テゴリ特徴値における不確実性を最小または最小近傍に
するような、当該イベントの予想特徴値のサブセットを
識別することができる。
ここで、カテゴリ特徴は、3個またはこれより多くの可
能性のある値を有している。この発明によれば、予想特
徴値の全ての可能性のあるサブセットについて完全な列
挙を必要とすることなく、効率的な態様をもって、この
予想特徴値のサブセットが発見される。
E、実施例 第1図は、この発明によって観察イベントのセットを分
類する方法についてのフローチャートである。観察イベ
ントのセットにおける各イベントは、予想特徴Xおよび
カテゴリ特徴Yをイfしている。
予想特徴はM個の異なるiiJ能性のある値Xmの中の
1個を有している。カテゴリ特徴はN個の可能性のある
値Ynの中の1個を有している。MおよびNは3よりも
大きいかこれに等しいIFの整数であるが、互いに等し
いことは必要ではない。変数mはMよりも小さいかこれ
に等しい正の整数である。変数nはNよりも小さいかこ
れに等しい正の整数である。
観察イベントのセットにおける各イベントは、例えば、
発jtIされるrノードのシーケンスであることができ
る。例えば、各イベントを構成できるものは、先行ワー
ドと、この先行ワードに追従する認識ワードである。予
想特徴が先行ワードであるときには、カテゴリ特徴が認
識ワードである。そして、認識ワードの値における不確
実性を最小にする先行ワードの最良のサブセットを発見
することによってイベントを分類することが所望される
とすると、先行ワードが知られているときに、認識ワー
ドの1個またはそれより多くの候補値を識別4−るため
に、この発明による分類方法を用いることができる。
この発明の方法によって分類できるr・想特徴/カテゴ
リ特徴をHする他のタイプの観察イベントに含まれるも
のは、例えば、医療上の症状/病気、レーダ・パターン
/対象、および、可視的なパターン/キャラクタである
。その他の観察イベントもこの発明の方法によって分類
することができる。
この発明の詳細な説明する目的のために、観察イベント
は先行ワード/認識ワード・イベントとして説明してい
く。実際には、ある1個のへ′語(ランゲージ)モデル
に対して数トものワードがあることから、ある1個のイ
ベントの予想特徴は、数千ものソシなる利用1TiJ能
性のある予想特徴値の中の1個である。これと同様にし
て、ある1個のイベントのカテゴリ特徴は、数千もの異
なる利用ljJ能性のあるカテゴリ特徴値の中の1個で
ある。このような場合において、該カテゴリ特徴の値に
おける不確実性を最小にするような、予想特徴値の最良
のサブセットSXi、、を発見するためには、2 +M
−11,,1個のサブセットを列挙することが必要とさ
れる。この値が数千というようなときには、これは実際
的ではない。
この発明によれば、以下に説明されるように、最良のサ
ブセラ)SXi□を発見するためには、多くとも近似的
にK (M + N )個のサブセットを列挙すること
が必要とされるだけである。ここでKは定数であって、
例えば6である。
予想特徴およびカテゴリ特徴は数千の異なる可能性のあ
る値を有するものであるが、この発明を説明する1」的
のために、M=5であり、N−5である例について説明
する。なお、一般的には、MがNに等しいことは必要で
はない。
第1表には、5個の異なる可能性のある値XないしXm
を有する予想特徴が例示されている。
予想特徴(先行ワード)値は、それぞれに、“トラベル
(trave1)″  “クレジット(credit)
”   ”スペシャル(specia1)”   ”ト
レード(trade)”および“ビジネス(busin
ess)”である。
第2表には、5個の異なるiiJ能性のある値Yないし
Ynを44するカテゴリ特徴が例示されている。カテゴ
リ特徴(認識ワードB+l’iは、それぞれに、エージ
ェント(agent)”ブレティン(bulletin
)”マネージメント(managelIlent)”コ
ンサルタント(consultant)”および“カー
ド(card)″である。
ここで第1図に戻ると、イベントのセットにおけるδイ
ベントの予想特徴値Xoおよびカテゴリ特徴値Ynが、
この発明によって11111定される。第3表には、1
0個の仮説的なイベントに対する[lJ能な測定が例示
されている。
第3表における測定されたF想特徴値および6(1定さ
れたカテゴリ特徴値から、カテゴリ特徴値Ynおよび予
想特徴値Xmを有するイベントの生起する確・ト目)(
Xm、Yn)が、各Ynおよび各Xmに対して評価され
る。イベントのセットが十分に大きいときには、カテゴ
リ特徴値Y5および予想特徴値X4を有するイベントの
生起する確・l?P(Xm、Yb)が、観察イベントの
全体数によって除算された特徴値(X 11+ Y b
)を有する観察イベントのセットにおけるイベントの全
体数として評価される。
第4表には、確i1 1) (X 、、 Y b)の仮
説的な評価が例示されている。
確率の評価がなされた後で、予想特徴値Xmの出発セッ
トS X o、、ct >が選択される。変数tは任意
の初期値を有するものである。ここでの例においては、
f想特徴値XmおよびXt(即ち、先行ワードの“トラ
ベル”および“クレジット″)に等しい出発セットS 
X 、pl(t )が任意に選択される。
第1図におけるフローチャートを継続して参照すると、
評価された確59< P (X 、、 Y n)から、
カテゴリ特徴の値がYnであるときに、セ、トsx、p
t(t)において予想特徴値を自するという条件付きの
確率P (S X opt(L) i Y 、)が、各
Ynに対して計算される。第5表に例示されているもの
は、tが1に等しいときに、SXi、、(t)とYnと
のジヨイント確率、sx、pt(t)とYn、とのジヨ
イント確率、および、カテゴリ特徴Yの各値Ynに与え
られるsx、pt(t)の条件付き確率である。
これらの数は第4表に示されている確率に基づくもので
ある。ここに、 P(SXopt(t)、Yn)   =   P(Xm
、Yo)   斗  r’(Xm、Yn)。
そ P(SXi、1(t)、Yn)  =  P(Xmして
、 1’(SXi、+(t)|Yn、) ip(sx、、t (t)、 y、)1÷1P(SXo
pt(t)、y、、) Yn) 十 + 十 P(Xm、 Yn) P(Xs、y−)。
p(sx、、、 (t)、 y、)1 条件付き確率の計算がなされた後で、カテゴリ特徴値Y
nについての多くの順序付けられた対のセットsy、+
(t)およびSYj(t)の規定がなされる。セットの
数jは、(N−1)より小さいかこれに等しい正の整数
である。各セットSYj(t)に含まれているものは、
条件付き確j:+(P (S X opl (t)Yn
)についてj個の最低値を有するような、それらのカテ
ゴリ特徴値Ynである。各セットsy、+(t)に3ま
れでいるものは、条件付き確率について(N−j)個の
最高値を有するような、それらのカテゴリ特徴値Yn.
である。
第5表における条件付き確率から、第6表には、セット
SYj(t)およびs y 、(t )からSYj(t
)およびSYj(t)までの、順序付けられた対が例示
されている。また、この第6表には、各セットにおける
カテゴリ特徴値Yn、も示されている。
(N−1)個の順序付けられた対のセ・yhsYn、+
およびSYjの各々に対して、予想特徴値Xmにおける
不確実性を、2通りの異なるやり方で計算することがで
きる。より好適には、該不確実性の計算は、第4表の確
率からなされる。これに代えて、該不確実性の計算は、
第5表の確率から行うこともできる。一般的にいえば、
第4表における個別の確率に基づく不確実性の計算の方
が、第5表におけるセットSx4.Pl(t)および5
Xopt(j)ノ確率に基づく不確実性の計算よりは正
確である。しかしながら、減退型の第5表における不確
実性の計算の方が迅速であつて、同様な結果が得られる
第6表において、セットSYj(t)およびsy、+(
t)に対する、予想特徴Xの値における不確実性H(S
 p l i t S YJ(t ))の計算は、第4
表の確率から次の式に従ってなされた。
tl(St)lit Sち(t)) = P(SYj(t)) II(XmlSYj+(t)
)+ p(syJ(t)) H(x、lsy、+(t)
)。
ここに、 11(Xm1SYJ(t)) −−Σ P(X−lsYJ(t))Qog P(Xηs
y、+(t))。
気11L !’(Xm1SYJ(t))  =  P(Xm、SY
j(t)−P(SYjI(t))そして、 第6表においては、2を基数とする対数が用いられてい
る。(例えば、昧4!1字専1jリマ7」−2□をEn
cyclopedia or 5tatistical
 5ciences。
volu+*e 2”  ジョン・ワイリー・アンド・
→ンズ社“John Wilcy & 5ons   
1982年、512516ペイジを診照。) かくして、一対のセットに対する特徴値における不確実
性は、例えばP(SYj(t))のような、該当のセッ
トにおけるある1個のイベントの生起確率について、当
該セットに対する例えばII□IIs YJ(t ))
のような不確実性を乗算するようにして、このような積
の和として計算された。
第6表において示されているように、予想特徴Xの値に
おいて最低の不確実性を有するセットS Y 、、、、
(t )およびs y op+N )の対は、第4表に
おける確率から計算されるようなセソF S Yr(t
 )およびSYj(t)の対である。
評価された確率P(Xm、Yn、)から、予想特徴の値
がXmであるときに、セットs y 、、p、(t )
においてカテゴリ特徴の値を有するような条件付きの確
率p(s y、pt(t )1x、)が、各Xmに対し
て計算される。第7表に示されているものは、第4表に
おけるジ3インド確率に基づく、これらの条件付き確率
である。ここに、 P(SYjPl(t)、Xm)   =゛  P(Y4
.Xm)   七  P(Y6.Xm)P(SYjPL
(L)、Xm) == P(Yn、Xm) 十P(Yr
、Xm)1−  P(Y3.Xm) P(SYj、p、(t)|Xn) P(SYopt (t)、 Xm) ÷1P(SYopt(t)、Xm)  @  P(SY
jpt(t)、X=月次に、予想特徴Xmのセット5X
m(tI−1)およびsx、(t+1)の順序付けられ
た対の規定がなされる。変数1は(M−1)より小さい
かこれに等しい正の整数である。各セ・y トsX+(
t + ])に含まれているものは、条件付きの確率 P (S Y op、(t )IX 、)のi個の最低
の値を有するそれらの予想特徴値Xmだけである。各セ
ットSXi(t+1)に含まれているものは、条件付き
の確率の(M−i)個の最高の値を有するそれらの予想
特徴値Xmだけである。
第8表に示されているものは、第7表における条件付き
の確率に基づく予想特徴値の、セットSXi(t+1)
およびSXi(t+1)からsx、(t+1)およびS
Xi(L+])まT(7)、順序付けられた対である。
また、この第8表には各セットに関連した予想特徴値も
示されている。
第6表に関して−L述されたと同様な態様をもって、カ
テゴリ特徴値における不確実性の計算が、第4表および
第7表における確率からのセットの各対についてそれぞ
れになされた。第8表に示されているように、カテゴリ
特徴値において最低の不確実性を有するセットSXi、
、(L + 1)およびsx、、(t + 1)の対は
、第4表の確率から計算されるように、sx、(t+1
)であった。なお、ここにt=1である。
最後に、セット5x6pl(t←■)およびSXipl
(t+1)の対が発見されると、イベントの予想特徴値
がセットS xapt(t + 1 )のメンバである
ときには、該イベントは第1のクラスに分類される。イ
ベントの予想特徴値がセットSXi9.(t+1)のメ
ンバであるときには、該イベントは第2のクラスに分類
される。
SXi、、、(を斗1)およびs x opc (t 
+ ] ) lこりいて得られた第1の値に従って観察
イベントの分類をすることは、この発明によれば可能で
あるけれども、このプロセスを繰り返すことによって更
に良好なサブセットを得ることができる。即ち、対のセ
ットS X opL(t + 1 )およびs x、p
t(t t−i)を発見した後であるが、イベントの分
類をするのに先立ってtを1だけ増大させ、これに次い
で、s Xopt(j + 1)およびSXoい、(t
+1)の発見を通して条件付きの確率P (S Y 、
pc(t )IY n)を計算するステップを繰り返す
ことが好適である。これらのステ、ブは、例えば、該当
のセットs x apt(t +I )が先行のセット
S X upt(t )と等しくなるまで、または実質
的に等しくなるまで繰り返すことができる。これに代え
て、これらのステップをある選択された回数だけ繰り返
すことができる。
−L述されたステップを繰り返すことにより、そして、
S x、pl(t + 1 )= S Xm、I(t 
)になったときにこの繰り返しを停止することにより、
ランダムに発生された確率の分布に基づ(イベントのセ
ットを分類するために、この発明が用いられた。Mの値
が2から12まで、また、Nの値が2から16までに対
して、分類の繰り返しが100回にゎたってなされた。
全てのケースにおいて、5回以上の繰り返しをすること
なく分類が完1′シた。そのために、試験されたサブセ
ットは5(M −1−N )個に満たないものであった
。この発明によって得られた分類における情報(不確実
性)は最適に近いものであった。
第2図のフローチャートは、予想・特徴の値において最
低の不確実性を有するセラhsYnpt(t)およびs
 y 、、、t(t )を発見する−っの態様を示すも
のである。セットSYJおよびSYjの順序付けられた
対が規定された後で、変数jが1に専しく設定される。
これに続けて、セットSYj(1)および5yJ(Hに
対する不確実性It(SplitSYJ(t))が計算
され、また、セットS Y i、+、z(t )および
S Y +、+、++(t )に対する不確実性)((
S p l ! t  S Y IJ、11(t ))
が計算される。
次に、不確実性+1(S p I i t  S Yn
(t ))が不確実性H(S p i i t  S 
Y +、+−++(t ))と比較される。
11(Sp I t t  SYj(t))がH(S 
p I I t  S Y +、+−++(L ))よ
りも小さいときには、sy、、、+(t)がSYj(t
)に等しく設定され、また、SYj、、(t)は5yj
(t)に等しく設定される。!((S p I i t
  S YJ(t ))が!I (S p ! ! t
  S Y +J、++D ))よりも小さくないとき
にはjが1だけ増大され、そして、jの新規な値に対す
る不確実性の計算がなされる。
カテゴリ特徴の値において最低の不確実性を有するセッ
トS X op l(t−+1)およびS Xm、、(
t + 1)を、同様な態様で発見することができる。
第3図には、観察イベントのセットを分類するための装
置が概略的に示されている。この装置を構成することが
できるものは、例えば、適切にプログラムされたコンピ
ュータ・システムである。
この例において、該装置を構成する汎用デジタル・プロ
セッサ10は、データ・エントリ用のキーボード12、
デイスプレィ14、ランダム・アクセス・メモリ1G、
および、蓄積デバイス18が備えられている。ランダム
・アクセス・メモリ16に蓄積されているプログラムの
制御の下に、プロセッサ10は蓄積デバイス18におけ
る学習テキストから、予想特徴値Xmおよびカテゴリ特
徴値Y nの探索をする。該学習テキストにおける特徴
値から、プロセッサ10は評価確率P (X 、、 Y
 n)の計算を行い、この評価確率を蓄積デバイス18
に蓄積する。
次いで、プロセッサ10は予想特徴値の出発セット5x
upt(t)の選択をする。例えば、【が初期値を有す
るときのセットs x、、t(t )には、(Mが偶数
の整数であるときの)予想特徴値XmないしX 、、、
、または、(Nが奇数の整数であるときの)Xmないし
X(、*1lttを含ませることができる。他のどのよ
うな選択でも受は入れることができる。
蓄積デバイス18における確率1) (X 、、 Y 
n)から、プロセッサ10は条件付き確率 P (S X 、pt(t )IY 、)(7)計算を
行い、コレラヲ蓄積デバイス18に蓄積させる。該条件
付きの確率から、セットSYバt)およびSYj(t)
の順序付けられた対の規定がなされて、蓄積デバイス1
8に蓄積される。
なおもプログラムの制御の下に、プロセッサ10はセッ
トの(N−1)個の順序付けられた対についての不確実
性の計算を行い、そして、予t!特徴の値において最低
の不確実性を有するセットSYopt(t)お、上びS
Yjpt(t)を蓄積デバイス18に蓄積する。
プロセッサ10は、同様な態様をも−〕で、カテゴリ特
徴の値において最低の不確実性をイ1゛するセットS 
Xm、p、(t + 1 >およびS Xop+(t 
+ I )の発見および蓄積を行う。
第4図には、この発明の方法および装置によって発生で
きる決定ツリー(decision tree)が例示
されている。第4図に示されているように、該決定ツリ
ーの各7−ドは、イベントのセットSZ。
ないしSZ、と関連している。該ツリーの頂点部におけ
るセットSzoには、全ての予想特徴の全ての値が含ま
れている。セットSZoにおけるイベントは、この発明
の方法および装置を用いることにより、第1の予想特徴
X゛に従って、該ツリーの第2のレベルに分類される。
例えば、該第1の予想特徴X′が認識されるべきワード
Yの直前を先行するワードであるときには、該イベント
のセットSzoは、先行のワードがセットSX゛。、の
メンバであるようなイベントのセットs z 、、およ
び、その先行のワードがセ。
トsx−,,のメンバであるようなセットSZ、に分割
される。
該ツリーの第3のレベルにおいては、イベントのセット
SZIおよびSZ、は、例えば、第2の予想値X“(認
識されるべきワードに対して次に先行するワード)によ
っ°(更に分割される。該決定ツリーの各ノードは、認
識されるべきワードの値(カテゴリ特徴の値)に対する
確率分布に関連付けられている。ある1個が該決定ツリ
ーを通って進行するにつれて、認識されるべきワードY
の値における不確実性が連続的に減少する。
第5図は、この発明による分類方法および装置が用いら
れる自動的な音声認識システムを示すブロック図である
。これと同様なシステムは、例えば、米国特許第4,7
59,068号において説明されている。第5図に示さ
れたシステムには、ある1個の発声を電気的な信号に変
換するためのマイクロホン20が含まれている。音響ラ
ベル・プロトタイプ蓄積部24からの、最も良くマ・ツ
チングがとれた音響ラベル・プロトタイプを発見する、
音響プロセッサ/ラベル・マツチング部22によって、
該マイクロホンからの信号が処理される。急速音響ワー
ド・マツチング・プロセッサ26は、蓄積部28におけ
る短縮音響ワード・モデルに対して音響プロセッサ22
からのラベル・ストリングのマツチングをさせて、ある
1個の発声信号を生成させる。
該急速音響ワード・マツチング・プロセッサによって出
力された発声信号には、該発声の予想ワードを表す少な
くとも1個の予想ワード信号が含まれている。ただし、
−・般的には、該急速音響マツチング・プロセッサは多
くの候補としての予想ワードを出力するものである。
a 急速音1’Pワード・マツチング・プロセッサ26
によって生成された各予想ワード信号は、ワード関連マ
ツチング部30に人力される。このワード関連マツチン
グ部30においては、ワードの関連を蓄積部32からの
ランゲージ・モデルと対比して、ある1個の候補として
の予想ワードを表す少なくとも1個のカテゴリ特徴信号
を出力する。
該急速音響マツチング部およびランゲージ・モデルによ
って生成された認1候補から、詳細音響マツチング部3
4は、蓄積部36における詳細音響ワード・モデルに対
して、音響プロセッサ22からのラベル・ストリングと
マツチングさせて、該当の発声に対応するワード・スト
リングを出力する。
第6図は、ワード関連マツチング部30およびランゲー
ジ・モデル32の部分についての、更に詳細なブロック
図である。該ワード関連マツチング部30およびランゲ
ージ・モデル32に含まれているものは、全ての予想ワ
ードを蓄積するための予想特徴信号蓄積部38である。
(第3図に関して前述された装置のような)決定セット
・ゼネレータ40は、該当の決定セットに対する予想ワ
ードのサブセットを発生させるものである。
コントローラ42は、急速音響ワード・マ・ツチング・
プロセッサ26からの予想ワード信号を、予想ワード信
号蓄積部44に蓄積させる。
コントローラ42によってアドレスされた予想ワード信
号は、コンパレータ46において、該コントローラ42
によってアドレスされた予想特徴信号と比較される。予
想ワード信号が決定セ・ノドと比較された後で、該予想
ワード信号が決定セ・ットのメンバであるときには、第
1のカテゴリ特徴信号が出力される。そうでないときに
は、第2のカテゴリ特徴信号が出力される。
ワード関連マツチング部30およびランゲージ・モデル
32の動作の一例については、第1表、第2表および第
9表を参照して説明することができる。
ワード・ストリングの発声において、先行のワード(即
ち、認識されるべきワードの直前を先行するワード)は
、ワード“トラベル”として試験的に識別される。第1
表によれば、該先行rノード“トラベル”は予想特徴値
Xmを有している。第9表からみて、該ワード”トラベ
ル”はセットSXi、l(t +1)内にある。従−)
で、認識されるべきワードの6値Yaの確率は、第9表
における条件付きの確率P(YnIsXo、I(t +
 1))によって与えられる。
第1および第2に高い条件付きの確率を有するワードの
選択をすると、ランゲージ・モデル26からは、“トラ
ベル”に追従する認識ワードに対する候補として、ワー
ドY3およびYn(“マネージメント”および“コンサ
ルタント″)が出力される。これに次いで、該候補は詳
細音響マツチング部に呈示されて、更に調査を受けるこ
とになる。
【図面の簡単な説明】
第1図は、この発明による観察イベントのセットを分類
する方法のフローチャート図である。 第2図は、最低の不確実性を有するセットの発見のしか
たを示すフローチャート図である。 第3図は、この発明による観察イベントのセットを分類
する装置のブロック図である。 第4図は、この発明による方法および装置によって生成
された分類から構成することができる決定ツリーの図で
ある。 第5図は、この発明によるワード関連マツチング部を含
む音声認識システムのブロック図である。 第6図は、前記第5図におけるワード関連マツチング部
のブロック図である。 第3図において: 10は汎用デジタル・プロセッサ、 12はキーボード、 14はデイスプレィ、 16はランダム・アクセス・メモリ、 18はJ!rft!!デバイス。 II+6図

Claims (13)

    【特許請求の範囲】
  1. (1)観察イベントのセットを分類する方法であって、
    各イベントは予想特徴Xおよびカテゴリ特徴Yを有し、
    前記予想特徴はM個の異なる可能性のある値X_mの1
    個を有し、前記カテゴリ特徴はN個の異なる可能性のあ
    る値Y_nの1個を有しており、ここに、Mは3よりも
    大きいかこれに等しい整数、Nは3よりも大きいかこれ
    に等しい整数、mはゼロよりも大きく、かつ、Mより小
    さいかこれに等しい整数、そして、nはゼロよりも大き
    く、かつ、Nより小さいかこれに等しい整数であり、: (a)該イベントのセットにおける各イベ ントの予想特徴値X_mおよびカテゴリ特徴値Y_nを
    測定するステップ; (b)該測定された予想特徴値および該測 定されたカテゴリ特徴値から、各Y_nおよび各X_m
    に対して、カテゴリ特徴値Y_nおよび予想特徴値X_
    mを有するイベントを生起させる確率P(X_m、Y_
    n)を評価するステップ; (c)tが初期値であるときに、予想特徴 値X_mの出発セットSX_o_p_t(t)を選択す
    るステップ; (d)該評価された確率P(X_m、Y_n)から、各
    Y_nに対するカテゴリ特徴の値がY_nであるとき、
    予想特徴がセットSX_o_p_t(t)における値を
    有するように、条件付きの確率P(SX_o_p_t(
    t)|Y_n)を計算するステップ; (e)カテゴリ特徴値Y_nの多数対のセットSY_j
    (t)および@SY@_j(t)を定義するステップ(
    ここに、jはゼロよりも大きく、かつ、(N−1)より
    小さいかこれに等しい整数であり、各セットSY_j(
    t)はP(SX_o_p_t(t)|Y_n)のj個の
    最低値を有するカテゴリ特徴値Y_nだけを含み、各セ
    ット@SY@_j(t)はP(SX_o_p_t(t)
    |Y_n)の(N−j)個の最高値を有するカテゴリ特
    徴値Y_nだけを含んでいる); (f)セットSY_o_p_t(t)および@SY@_
    o_p_t(t)の対が予想特徴の値における最低の不
    確実性を有するように、セットSY_j(t)および@
    SY@_j(t)の対の中からセットSY_o_p_t
    (t)および@SY@_o_p_t(t)の対を発見す
    るステップ;(g)該評価された確率P(X_m、Y_
    n)から、各X_mに対するカテゴリ特徴の値がX_m
    であるとき、予想特徴がセットSY_o_p_t(t)
    における値を有するように、条件付きの確率P(SY_
    o_p_t(t)|X_n)を計算するステップ; (h)予想特徴値X_mの多数対のセット SX_i(t)および@SX@_i(t)を定義するス
    テップ(ここに、iはゼロよりも大きく、かつ、(M−
    1)より小さいかこれに等しい整数であり、各セットS
    X_i(t+1)はP(SY_o_p_t(t)|X_
    m)のi個の最低値を有する予想特徴値X_mだけを含
    み、各セット@SX@_i(t+1)はP(SY_o_
    p_t(t)|X_m)の(M−i)個の最高値を有す
    る予想特徴値X_mだけを含んでいる); (i)セットSX_o_p_t(t+1)および@SX
    @_o_p_t(t+1)の対がカテゴリ特徴の値にお
    ける最低の不確実性を有するように、セット SX_i(t+1)および@SX@_i(t+1)の対
    の中からセットSX_o_p_t(t+1)および@S
    X@_o_p_t(t+1)の対を発見するステップ; (l)イベントの予想特徴値がセット SX_o_p_t(t+1)のメンバであるときには、
    該イベントを第1のクラスに分類するステップ;および (m)イベントの予想特徴値がセット @SX@_o_p_t(t+1)のメンバであるときに
    は、該イベントを第2のクラスに分類するステップ;を
    有する前記の方法。
  2. (2)イベントを該第1のクラスに分類するステップに
    は、該イベントの予想特徴値がセットSX_o_p_t
    (t+1)のメンバであるときに、該イベントを該第1
    のクラスのメンバとして識別する分類信号を発生させる
    ステップが含まれており;また イベントを該第2のクラスに分類するス テップには、該イベントの予想特徴値がセットSX_o
    _p_t(t+1)のメンバであるときに、該イベント
    を該第2のクラスのメンバとして識別する分類信号を発
    生させるステップが含まれている;ことを特徴とする請
    求項1に記載の方法。
  3. (3)セットSX_o_p_t(t+1)および@SX
    @_o_p_t(t+1)の対の発見の後であるが、イ
    ベントの分類に先立って、 (j)tを1だけ増大させるステップ;お よび (k)セットSX_o_p_t(t+1)Sが先行のセ
    ットX_o_p_t(t)と実質的に等しくなるまで、
    ステップ(d)ないし(k)を繰り返すステップ;を更
    に有する請求項2に記載の方法。
  4. (4)セットSY_o_p_t(t)および@SY@_
    o_p_t(t)の対が予想特徴の値における最低の不
    確実性を有するように、セットSY_j(t)および@
    SY@_j(t)の対の中からセットSY_o_p_t
    (t)および@SY@_o_p_t(t)の対を発見す
    るステップは; (f)(1)j=1にセットするステップ;(f)(2
    )セットSY_j(t)および @SY@_j(t)の対に対する予想特徴値における不
    確実性H(SplitSY_j(t))、および、セッ
    トSY_(_j_+_i_)(t)および@SY@_(
    _j_+_i_)(t)の対に対する予想特徴値におけ
    る不確実性 H(SplitSY_(_j_+_i_)(t))を計
    算するステップ; (f)(3)H(SplitSY_j(t))をH(S
    plitSY_(_j_+_i_)(t))と比較する
    ステップ;および (f)(4)H(SplitSY_j(t))がH(S
    plitSY_(_j_+_i_)(t))よりも小さ
    いときには、SY_o_p_t(t)=SY_j(t)
    および@SY@_o_p_t(t)=@SY@_j(t
    )にセットし、そうでないときには、jを1だけ増大さ
    せて、ステップ(f)(2)ないし(f)(4)を繰り
    返すステップ; を有することを特徴とする請求項3に記 載の方法。
  5. (5)セットSX_o_p_t(t+1)および@SX
    @_o_p_t(t+1)の対がカテゴリ特徴の値にお
    ける最低の不確実性を有するように、セット SX_i(t+1)および@SX@_i(t+1)の対
    の中からセットSX_o_p_t(t+1)および@S
    X@_o_p_t(t+1)の対を発見するステップは
    ; (i)(1)i=1にセットするステップ;(i)(2
    )セットSX_i(t+1)および@SX@_i(t+
    1)の対に対するカテゴリ特徴値における不確実性H(
    SplitSX_i(t+1))、および、セットSX
    _i(t+1)および @SX@_(_i_+_j_)(t+1)の対に対する
    カテゴリ特徴値における不確実性H(SplitSY_
    (_i_+_1_)(t))を計算するステップ; (i)(3)H(SplitSX_i(t+1))をH
    (SplitSX_(_i_+_1_)(t+1))と
    比較するステップ;および (i)(4)H(SplitSX_i(t+1))がH
    (SplitSX_(_i_+_1_)(t+1))よ
    りも小さいときには、SX_o_p_t(t+1)=S
    X_i(t+1)および@SX@_o_p_t(t+1
    )=@SX@_i(t+1)にセットし、そうでないと
    きには、iを1だけ増大させて、ステップ(i)(2)
    ないし(i)(4)を繰り返すステップ;を有すること
    を特徴とする請求項4に記 載の方法。
  6. (6)セットSX_i(t+1)および @SX@_i(t+1)に対するカテゴリ特徴値におけ
    る不確実性は、セット@SX@_i(t+1)に対する
    カテゴリ特徴値における不確実性の乗算がなされる、セ
    ット@SX@_i(t+1)における予想特徴値を有す
    るイベントの生起確率に、セットSX_i(t+1)に
    対するカテゴリ特徴値における不確実性の乗算がなされ
    る、セットSX_i(t+1)における予想特徴値を有
    するイベントの生起確率を加えたものに等しいことを特
    徴とする請求項5に記載の方法。
  7. (7)イベントのセット内には存在しないイベントの予
    想特徴値を測定するステップ; イベントの予想特徴値がセット SX_o_p_t(t+1)のメンバであるときには、
    該イベントを第1のクラスに分類するステップ;および イベントの予想特徴値がセット @SX@_o_p_t(t+1)のメンバであるときに
    は、該イベントを第2のクラスに分類するステップ;を
    更に有する請求項6に記載の方法。
  8. (8)各イベントは一連の口頭による発声における1個
    の口頭による発声であることを特徴とする請求項7に記
    載の方法。
  9. (9)各イベントは一連の口頭によるワードにおける1
    個の口頭によるワードであり;またワードの予想特徴値
    は、該一連の口頭に よるワードにおいて直前を先行するワードを識別するも
    のである; ことを特徴とする請求項8に記載の方法。
  10. (10)観察イベントのセットを分類する装置であって
    、各イベントは予想特徴Xおよびカテゴリ特徴Yを有し
    、前記予想特徴はM個の異なる可能性のある値X_mの
    1個を有し、前記カテゴリ特徴はN個の異なる可能性の
    ある値Y_nの1個を有しており、ここに、Mは3より
    も大きいかこれに等しい整数、Nは3よりも大きいかこ
    れに等しい整数、mはゼロよりも大きく、かつ、Mより
    小さいかこれに等しい整数、そして、nはゼロよりも大
    きく、かつ、Nより小さいかこれに等しい整数であり、
    ; (a)該イベントのセットにおける各イベ ントの予想特徴値X_mおよびカテゴリ特徴値Y_nを
    測定する手段; (b)該測定された予想特徴値および該測 定されたカテゴリ特徴値から、各Y_nおよび各X_m
    に対して、カテゴリ特徴値Y_nおよび予想特徴値X_
    mを有するイベントを生起させる確率P(X_m、Y_
    n)を評価する手段; (c)tが初期値であるときに、予想特徴 値X_mの出発セットSX_o_p_t(t)を選択す
    る手段;(d)該評価された確率P(X_m、Y_n)
    から、各Y_nに対するカテゴリ特徴の値がY_nであ
    るとき、予想特徴がセットSX_o_p_t(t)にお
    ける値を有するように、条件付きの確率P(SX_o_
    p_t(t)|Y_n)を計算する手段; (e)カテゴリ特徴値Y_nの多数対のセットSY_j
    (t)および@SY@_j(t)を定義する手段(ここ
    に、jはゼロよりも大きく、かつ、(N−1)より小さ
    いかこれに等しい整数であり、各セットSY_j(t)
    はP(SX_o_p_t(t)|Y_n)のj個の最低
    値を有するカテゴリ特徴値Y_nだけを含み、各セット
    @SY@_j(t)はP(SX_o_p_t(t)|Y
    _n)の(N−j)個の最高値を有するカテゴリ特徴値
    Y_nだけを含んでいる); (f)セットSY_o_p_t(t)および@SY@_
    o_p_t(t)の対が予想特徴の値における最低の不
    確実性を有するように、セットSY_j(t)およびS
    Y_j(t)の対の中からセットSY_o_p_t(t
    )および@SY@_o_p_t(t)の対を発見する手
    段;(g)該評価された確率P(X_m、Y_n)から
    、各X_mに対するカテゴリ特徴の値がX_mであると
    き、予想特徴がセットSY_o_p_t(t)における
    値を有するように、条件付きの確率P(SY_o_p_
    t(t)|X_n)を計算する手段; (h)予想特徴値X_mの多数対のセット SX_i(t+1)およびSX_i(t+1)を定義す
    る手段(ここに、iはゼロよりも大きく、かつ、(M−
    1)より小さいかこれに等しい整数であり、各セットS
    X_i(t+1)はP(SY_o_p_t(t)|X_
    m)のi個の最低値を有する予想特徴値X_mだけを含
    み、各セット@SX@_i(t+1)はP(SY_o_
    p_t(t)|X_m)の(M−i)個の最高値を有す
    る予想特徴値X_mだけを含んでいる); (i)セットSX_o_p_t(t+1)および@SX
    @_o_p_t(t+1)の対がカテゴリ特徴の値にお
    ける最低の不確実性を有するように、セット SX_i(t+1)および@SX@_i(t+1)の対
    の中からセットSX_o_p_t(t+1)および@S
    X@_o_p_t(t+1)の対を発見する手段; (l)イベントの予想特徴値がセット SX_o_p_t(t+1)のメンバであるときには、
    該イベントを第1のクラスに分類する手段;および(m
    )イベントの予想特徴値がセット @SX@_o_p_t(t+1)のメンバであるときに
    は、該イベントを第2のクラスに分類する手段; を備えてなる前記の装置。
  11. (11)イベントのセット内には存在しないイベントの
    予想特徴値を測定する手段; イベントの予想特徴値がセット SX_o_p_t(t+1)のメンバであるときには、
    該イベントを第1のクラスに分類する手段;およびイベ
    ントの予想特徴値がセット @SX@_o_p_t(t+1)のメンバであるときに
    は、該イベントを第2のクラスに分類する手段; を更に備えてなる請求項10に記載の装 置。
  12. (12)発声を当該発声を表す発声信号に変換するステ
    ップ(ここに、発声は一連の少なくとも1個の予想ワー
    ドおよび1個の予想されたワードからなり、発声信号は
    該予想ワードを表す少なくとも1個の予想ワード信号か
    らなるものである);それぞれに予想特徴値X_mを有
    するMセットの予想特徴信号を生成させるステップ(こ
    こに、Mは3よりも大きいかこれに等しい整数、mはゼ
    ロよりも大きく、かつ、Mよりも小さいかこれに等しい
    整数であり、該当のセット内の各予想特徴信号は異なる
    ワードを表している); 該当のワードを表すM個の予想特徴信号 のサブセットを含む決定セットを発生させるステップ; 該当の予想ワード信号を該決定セット内 の予想特徴信号と比較するステップ; 該予想ワード信号が決定セットのメンバ であるときに、第1の予想されたワードを表す第1のカ
    テゴリ特徴信号を出力させるステップ(前記第1のカテ
    ゴリ特徴信号はN個のカテゴリ特徴信号の中の1個であ
    り、各カテゴリ特徴信号は異なるワードを表し、カテゴ
    リ特徴値Y_nを有しており、ここに、Nは3よりも大
    きいかこれに等しい整数、nはゼロよりも大きく、かつ
    、Nよりも小さいかこれに等しい整数である);および
    該予想ワード信号が決定セットのメンバ ではないときに、該第1のカテゴリ特徴信号とは異なり
    、該第1の予想されたワードとは異なる第2の予想され
    たワードを表している、第2のカテゴリ特徴信号を出力
    させるステップ; を有する自動的な音声認識方法であって 観察イベントのセットを含む学習テキス トを用意するステップであって、各イベントは予想ワー
    ドを表す予想特徴Xおよび予想されたワードを表すカテ
    ゴリ特徴Yを有し、前記予想特徴はM個の異なる可能性
    のある値X_mの1個を有し、各X_mは異なる予想ワ
    ードを表しており、前記カテゴリ特徴はN個の異なる可
    能性のある値Y_nの1個を有し、各Y_nは異なる予
    想されたワードを表している前記のステップ; (a)イベントのセットにおける各イベン トの予想特徴値X_mおよびカテゴリ特徴値Y_nを測
    定するステップ; (b)該測定された予想特徴値および該測 定されたカテゴリ特徴値から、各Y_nおよび各X_m
    に対して、カテゴリ特徴値Y_nおよび予想特徴値X_
    mを有するイベントを生起させる確率P(X_m、Y_
    n)を評価するステップ; (c)tが初期値であるときに、予想特徴 値X_mの出発セットSX_o_p_t(t)を選択す
    るステップ; (d)該評価された確率P(X_m、Y_n)から、各
    Y_nに対するカテゴリ特徴の値がY_nであるとき、
    予想特徴がセットSX_o_p_t(t)における値を
    有するような、条件付きの確率P(SX_o_p_t(
    t)|Y_n)を計算するステップ; (e)カテゴリ特徴値Y_nの多数対のセットSY_j
    (t)および@SY@_j(t)を定義するステップ(
    ここに、jはゼロよりも大きく、かつ、(N−1)より
    小さいかこれに等しい整数であり、各セットSY_j(
    t)はP(SX_o_p_t(t)|Y_n)のj個の
    最低値を有するカテゴリ特徴値Y_n、だけを含み、各
    セット@SY@_j(t)はP(SX_o_p_t(t
    )|Y_n)の(N−j)個の最高値を有するカテゴリ
    特徴値Y_nだけを含んでいる); (f)セットSY_o_p_t(t)および@SY@_
    o_p_t(t)の対が予想特徴の値における最低の不
    確実性を有するように、セットSY_j(t)および@
    SY@_j(t)の対の中からセットSY_o_p_t
    (t)および@SY@_o_p_t(t)の対を発見す
    るステップ;(g)該評価された確率P(X_m、Y_
    n)から、各X_mに対するカテゴリ特徴の値がX_m
    であるとき、予想特徴がセットSY_o_p_t(t)
    における値を有するように、条件付きの確率P(SY_
    o_p_t(t)|X_n)を計算するステップ; (h)予想特徴値X_mの多数対のセット SX_i(t+1)および@SX@_i(t+1)を定
    義するステップ(ここに、1はゼロよりも大きく、かつ
    、(M−1)より小さいかこれに等しい整数であり、各
    セットSX_i(t+1)はP(SY_o_p_t(t
    )|X_m)のi個の最低値を有する予想特徴値X_m
    だけを含み、各セット@SX@_i(t+1)はP(S
    Y_o_p_t(t)|X_m)の(M−i)個の最高
    値を有する予想特徴値X_mだけを含んでいる); (i)セットSX_o_p_t(t+1)および@SX
    @_o_p_t(t+1)の対がカテゴリ特徴の値にお
    ける最低の不確実性を有するように、セット SX_i(t+1)および@SX@_i(t+1)の対
    の中からセットSX_o_p_t(t+1)および@S
    X@_o_p_t(t+1)の対を発見するステップ;
    および (l)該決定セットをセット SX_o_p_t(t+1)に等しくセットするステッ
    プ;によって該決定セットの内容が発生され ることを特徴とする前記の方法。
  13. (13)発声を当該発声を表す発声信号に変換する手段
    (ここに、発声は一連の少なくとも1個の予想ワードお
    よび1個の予想されたワードからなり、発声信号は該予
    想ワードを表す少なくとも1個の予想ワード信号からな
    るものである);それぞれに予想特徴値X_mを有する
    Mセットの予想特徴信号を生成させる手段(ここに、M
    は3よりも大きいかこれに等しい整数、mはゼロよりも
    大きく、かつ、Mよりも小さいかこれに等しい整数であ
    り、該当のセット内の各予想特徴信号は異なるワードを
    表している); 該当のワードを表すM個の予想特徴信号 のサブセットを含む決定セットを発生させる手段該当の
    予想ワード信号を該決定セット内 の予想特徴信号と比較する手段; 該予想ワード信号が決定セットのメンバ であるときに、第1の予想されたワードを表す第1のカ
    テゴリ特徴信号を出力させる手段(前記第1のカテゴリ
    特徴信号はN個のカテゴリ特徴信号の中の1個であり、
    各カテゴリ特徴信号は異なるワードを表し、カテゴリ特
    徴値Y_nを有しており、ここに、Nは3よりも大きい
    かこれに等しい整数、nはゼロよりも大きく、かつ、N
    よりも小さいかこれに等しい整数である);および 該予想ワード信号が決定セットのメンバ ではないときに、該第1のカテゴリ特徴信号とは異なり
    、該第1の予想されたワードとは異なる第2の予想され
    たワードを表している、第2のカテゴリ特徴信号を出力
    させる手段; からなる自動的な音声認識装置であって 観察イベントのセットを含む学習テキス トを蓄積する手段であって、各イベントは予想ワードを
    表す予想特徴Xおよび予想されたワードを表すカテゴリ
    特徴Yを有し、前記予想特徴はM個の異なる可能性のあ
    る値X_mの1個を有し、各X_mは異なる予想ワード
    を表しており、前記カテゴリ特徴はN個の異なる可能性
    のある値Y_nの1個を有し、各Y_nは異なる予想さ
    れたワードを表している前記の手段; (a)イベントのセットにおける各イベン トの予想特徴値X_mおよびカテゴリ特徴値Y_nを測
    定する手段; (b)該測定された予想特徴値および該測 定されたカテゴリ特徴値から、各Y_nおよび各X_m
    に対して、カテゴリ特徴値Y_nおよび予想特徴値X_
    mを有するイベントを生起させる確率P(X_m、Y_
    n)を評価する手段; (c)tが初期値であるときに、予想特徴 値X_mの出発セットSX_o_p_t(t)を選択す
    る手段;(d)該評価された確率P(X_m、Y_n)
    から、各Y_nに対するカテゴリ特徴の値がY_nであ
    るとき、予想特徴がセットSX_o_p_t(t)にお
    ける値を有するような、条件付きの確率P(SX_o_
    p_t(t)|Y_n)を計算する手段; (e)カテゴリ特徴値Y_nの多数対のセットSY_j
    (t)およびSY_j(t)を定義する手段(ここに、
    jはゼロよりも大きく、かつ、(N−1)より小さいか
    これに等しい整数であり、各セットSY_j(t)はP
    (SX_o_p_t(t)|Y_n)のj個の最低値を
    有するカテゴリ特徴値Y_nだけを含み、各セット@S
    Y@_j(t)はP(SX_o_p_t(t)|Y_n
    )の(N−j)個の最高値を有するカテゴリ特徴値Y_
    nだけを含んでいる); (f)セットSY_o_p_t(t)および@SY@_
    o_p_t(t)の対が予想特徴の値における最低の不
    確実性を有するように、セットSY_j(t)および@
    SY@_j(t)の対の中からセットSY_o_p_t
    (t)および@SY@_o_p_t(t)の対を発見す
    る手段;(g)該評価された確率P(X_m、Y_n)
    から、各X_mに対するカテゴリ特徴の値がX_mであ
    るとき、予想特徴がセットSY_o_p_t(t)にお
    ける値を有するように、条件付きの確率P(SY_o_
    p_t(t)|X_n)を計算する手段; (h)予想特徴値X_mの多数対のセット SX_i(t+1)および@SX@_i(t+1)を定
    義する手段(ここに、iはゼロよりも大きく、かつ、(
    M−1)より小さいかこれに等しい整数であり、各セッ
    トSX_i(t+1)はP(SY_o_p_t(t)|
    X_m)のi個の最低値を有する予想特徴値X_mだけ
    を含み、各セット@SX@_i(t+1)はP(SY_
    o_p_t(t)|X_m)の(M−i)個の最高値を
    有する予想特徴値X_mだけを含んでいる); (i)セットSX_o_p_t(t+1)および@SX
    @_o_p_t(t+1)の対がカテゴリ特徴の値にお
    ける最低の不確実性を有するように、セット SX_i(t+1)および@SX@_i(t+1)の対
    の中からセットSX_o_p_t(t+1)および@S
    X@_o_p_t(t+1)の対を発見する手段;およ
    び (l)該セットSX_o_p_t(t+1)を決定セッ
    トとして出力する手段; によって該決定セットの発生手段が構成 されていることを特徴とする前記の装置。
JP2244139A 1989-10-26 1990-09-17 音声認識方法および装置 Expired - Lifetime JPH0756675B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/427,420 US5263117A (en) 1989-10-26 1989-10-26 Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US427420 1989-10-26

Publications (2)

Publication Number Publication Date
JPH03147079A true JPH03147079A (ja) 1991-06-24
JPH0756675B2 JPH0756675B2 (ja) 1995-06-14

Family

ID=23694801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2244139A Expired - Lifetime JPH0756675B2 (ja) 1989-10-26 1990-09-17 音声認識方法および装置

Country Status (4)

Country Link
US (1) US5263117A (ja)
EP (1) EP0424665A2 (ja)
JP (1) JPH0756675B2 (ja)
CA (1) CA2024382C (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
US5680509A (en) * 1994-09-27 1997-10-21 International Business Machines Corporation Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
WO1996037881A2 (en) * 1995-05-26 1996-11-28 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US5864819A (en) * 1996-11-08 1999-01-26 International Business Machines Corporation Internal window object tree method for representing graphical user interface applications for speech navigation
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6304773B1 (en) 1998-05-21 2001-10-16 Medtronic Physio-Control Manufacturing Corp. Automatic detection and reporting of cardiac asystole
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7133856B2 (en) * 2002-05-17 2006-11-07 The Board Of Trustees Of The Leland Stanford Junior University Binary tree for complex supervised learning
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US7292982B1 (en) * 2003-05-29 2007-11-06 At&T Corp. Active labeling for spoken language understanding
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
JPS57211338A (en) * 1981-06-24 1982-12-25 Tokyo Shibaura Electric Co Tatal image diagnosis data treating apparatus
JPS58115497A (ja) * 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
US4658429A (en) * 1983-12-29 1987-04-14 Hitachi, Ltd. System and method for preparing a recognition dictionary
JPS60262290A (ja) * 1984-06-08 1985-12-25 Hitachi Ltd 情報認識システム
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
FR2591005B1 (fr) * 1985-12-04 1988-01-08 Thomson Csf Procede d'identification de structure arborescentes dans des images numeriques et son application a un dispositif de traitement d'images
US4719571A (en) * 1986-03-05 1988-01-12 International Business Machines Corporation Algorithm for constructing tree structured classifiers
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling

Also Published As

Publication number Publication date
US5263117A (en) 1993-11-16
JPH0756675B2 (ja) 1995-06-14
CA2024382A1 (en) 1991-04-27
CA2024382C (en) 1994-08-02
EP0424665A2 (en) 1991-05-02
EP0424665A3 (ja) 1994-01-12

Similar Documents

Publication Publication Date Title
JPH03147079A (ja) 音声認識方法および装置
Sigtia et al. An end-to-end neural network for polyphonic piano music transcription
US11361758B2 (en) Multi-stage machine learning and recognition
US11475273B1 (en) Deep convolutional neural networks for automated scoring of constructed responses
Chen et al. Recurrent neural networks as weighted language recognizers
Morrison et al. Ensemble methods for spoken emotion recognition in call-centres
US20210125101A1 (en) Machine learning device and method
Sigtia et al. A hybrid recurrent neural network for music transcription
JP2019194808A (ja) 事象予測装置、予測モデル生成装置および事象予測用プログラム
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
CN110796231B (zh) 数据处理方法、装置、计算机设备和存储介质
US20020002457A1 (en) Method and configuration for determining a representative sound, method for synthesizing speech, and method for speech processing
US20220223066A1 (en) Method, device, and computer program product for english pronunciation assessment
JP2006201265A (ja) 音声認識装置
Marck et al. Identification, analysis and characterization of base units of bird vocal communication: The white spectacled bulbul (Pycnonotus xanthopygos) as a case study
Wen et al. Learning auxiliary categorical information for speech synthesis based on deep and recurrent neural networks
Koya et al. Deep bidirectional neural networks for robust speech recognition under heavy background noise
EP4167227B1 (en) System and method for recognising chords in music
JP2006084942A (ja) 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム
Huang Recurrent Poisson Process Unit for Automatic Speech Recognition
Edholm et al. A comparison between aconventional LSTM network and agrid LSTM network applied onspeech recognition
Naaman et al. Learning Similarity Functions for Pronunciation Variations
Sundberg et al. Automatic Voice Trading Surveillance: Achieving Speech and Named Entity Recognition in Voice Trade Calls Using Language Model Interpolation and Named Entity Abstraction
Rajan et al. Paraconsistent Feature Analysis for the Competency Evaluation of Voice Impersonation
Ahmed Speech emotion recognition