JPH0756675B2 - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JPH0756675B2
JPH0756675B2 JP2244139A JP24413990A JPH0756675B2 JP H0756675 B2 JPH0756675 B2 JP H0756675B2 JP 2244139 A JP2244139 A JP 2244139A JP 24413990 A JP24413990 A JP 24413990A JP H0756675 B2 JPH0756675 B2 JP H0756675B2
Authority
JP
Japan
Prior art keywords
predictor
opt
feature
word
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2244139A
Other languages
English (en)
Other versions
JPH03147079A (ja
Inventor
アーサー・ジエー・ナダス
デービツド・ナハモー
Original Assignee
インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン filed Critical インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Publication of JPH03147079A publication Critical patent/JPH03147079A/ja
Publication of JPH0756675B2 publication Critical patent/JPH0756675B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 この発明は、パターン認識システムにおいて用いる決定
ツリー(decision tree)を構成するための、観察事象
の2進分類に関するものである。観察事象とは、例え
ば、口頭ワードまたは筆記キャラクタであればよい。こ
の発明に従って分類できるその他の観察事象には、それ
に限られるものではないが、医療上の症状および対象の
レーダ・パターンが含まれる。
B.従来の技術 より詳細にいえば、この発明は、2進決定ツリーを生成
させる観察事象の集合(即ち観察事象の学習集合)に最
適もしくは最適近傍の2進分類を発見することに関する
ものである。2進決定ツリーにおいては、ツリーの各ノ
ードは1個の入力パスと2個の出力パス(例えば、出力
パスAと出力パスB)とを有している。ツリーの各ノー
ドにおいては、"Xは集合SXの要素であるか?"なる形式の
質問が出される。この応答が“Yes"であるときには、該
ノードからは出力パスAが追従される。これに対して、
その応答が“No"であるときには、該ノードからは出力
パスBが追従される。
一般的にいえば、分類されるべき各観察事象は予測子特
徴Xおよびカテゴリ特徴Yを備えている。予測子特徴は
M個の異なる可能性のある値Xmの中の1個を有してお
り、また、カテゴリ特徴はN個の異なる可能性のある値
Yn中の1個を有している。ここに、mおよびnは、それ
ぞれに、MおよびNよりも小さいかこれに等しい正の整
数である。
2進決定ツリーを構成するときに有利なことは、カテゴ
リ特徴Yに関する情報が最大化され、該カテゴリ特徴Y
における不確実性が最小化されるような、SXの部分集合
SXoptを発見することである。“分類されるべき観察事
象に対して、予測子特徴Xの値は部分集合SXoptの要素
であるか?"なる質問に対する答は、複数個の観察事象に
わたる平均として、カテゴリ特徴Yの値に関する不確実
性を最大限に減少させる。
カテゴリ特徴Yにおける不確実性を最小にするために最
良の部分集合SXoptを発見する一つの既知の方法は、SX
の全ての部分集合を列挙し、そして、各部分集合に対す
るカテゴリ特徴Yの値における情報または不確実性を計
算することによるものである。M個の要素を有する集合
SXに対しては、2(M-1)−1個の異なる可能性のある部分
集合が存在する。このために、SXの最良の部分集合を発
見するためには、2(M-1)−1個の情報または不確実性の
計算が必要とされることになる。従って、自動的な音声
認識において経験されるようなMの大きな値のために、
この方法は実際的に不可能なことである。
レオ・ブレイマン外(Leo Breiman et al)の(分類お
よび回帰ツリー“Classifcation And Regression Tree
s"、ワズワース社“Wadsworth Inc."カリフォルニア
州、モントレイ“Monterey"、1984、101−102ペイジ)
によれば、カテゴリ特徴Yが2個だけの可能性のある異
なる値Y1およびY2を有している特別なケース(即ち、N
=2なる特別なケース)に対する最良の部分集合SXopt
を発見するための方法が記述されている。この方法にお
いては、2(M-1)−1個の情報の計算を必要とする完全な
列挙を、(M−1)個だけの部分集合に対する情報の計
算で置換することができる。
ブレイマン外による方法は次の事実を基礎とするもので
ある。即ち、予測子特徴Xの各値Xmに対して、カテゴリ
特徴Yの1個の値Y1についての条件付き確率の増大して
い値に従い、集合SXの最良の部分集合SXoptは、予測子
特徴値Xmの順序付けによって規定されるような、部分集
合の増大していくシーケンスの中にあるという事実を基
礎とするものである。
即ちブレイマン外による方法においては、P(Y1|Xm
の値に従って、予測子特徴値Xmが第1の順序にされる。
これに次いで集合SXの多くのサブセットSXiが規定され
るが、ここで各部分集合SXiに含まれているのは、条件
付き確率P(Y1|Xm)についてi個の最低値を有する値X
mのものだけである。XmについてM個の異なる値が存在
するときには、(M−1)個の部分集合SXiが存在する
ことになる。
ブレイマン外によって説明されているように、部分集合
SXiの中に1個が情報を最大化させるものであり、従っ
て、クラスYの値における不確実性を最小化させるもの
である。
ブレイマン外によって提供されている短縮化された方法
は、事象が2個のクラスまたはカテゴリY1およびY2に入
るだけの簡単なケースのために、測定または予測子変数
Xに従って、事象の最良の2進分類を発見するためのも
のであるが、事象が2個よりも多くのクラスまたはカテ
ゴリに入るときに、予測子変数Xの最良の部分集合をど
のようにして発見するかについて、ブレイマン外は説明
をしていない。
C.発明が解決しようとする課題 この発明の目的は、観察事象の集合について、3個以上
の異なる可能性のある値Xmを有する予測子特徴に従っ
て、観察事象のカテゴリ特徴Y(ここで、カテゴリ特徴
は3個以上の可能性のある値Ynを有している)の値にお
ける不確実性を最小にするように、最適または最適近傍
の2進分類を発見するための方法および装置を提供する
ことにある。
この発明の別の目的は、予測個特徴Xの値の可能性のあ
る異なる部分集合を全て列挙することなく、また、各部
分集合に対するカテゴリ特徴Yの値における不確実性を
計算することなく、予測子特徴Xの最適または最適近傍
の分類を発見することができる、このような分類方法を
提供することにある。
D.課題を解決するための手段 この発明は、観察事象の集合を分類するための方法およ
び装置である。各事象は予測子特徴Xおよびカテゴリ特
徴Yを有している、予測子特徴はM個の異なる可能性の
ある値Xmの中の1個を有しており、また、カテゴリ特徴
はN個の可能性のある値Ynの中の1個を有している。こ
の方法において、MおよびNは3よりも大きいかこれに
等しい整数、mは1からMまでの整数でありまた、nは
1からNまでの整数である。
この発明によれば、観察事象のセットにおける各事象の
予測子特徴値Xmおよびカテゴリ特徴値Ynの測定がなされ
る。測定された予測子特徴値および測定されたカテゴリ
特徴値から、カテゴリ特徴値Ynおよび予測子特徴値Xm
有する事象の生起する確率P(Xm,Yn)が、各Ynおよび
各Xmに対して評価される。
これに次いで、予測子特徴値Xmの出発集合SXopt(t)
が選択される。変数tは任意の初期値を有している。
この評価された確率から、カテゴリ特徴値がYnであると
きの、集合SXopt(t)における予測子特徴値の条件付
きの確率P(SXopt(t)|Yn)が各Ynに対して計算され
る。
この条件付きの確率P(SXopt(t)|Yn)から、カテゴ
リ特徴値Ynの複数の対の集合SYj(t)および▲▼
(t)が規定される。ここに、jから1から(N−
1)までの整数である。各集合SYj(t)に含まれてい
るものは、条件付きの確率P(SXopt(t)|Yn)につい
てj個の最低値を有するそれらのカテゴリ特徴値Ynだけ
である。各集合▲▼(t)に含まれるものは、条
件付きの確率P(SXopt(t)|Yn)について(N−j)
個の最高値を有するそれらのカテゴリ特徴値Ynだけであ
る。かくして、▲▼(t)はSYj(t)を補完す
るものである。
上記のように規定された(N−1)対の集合から、予測
子特徴値における最低の不確実性を有するものとして、
単一対の集合SYopt(t)および▲▼opt(t)が発
見される。
ここで、評価された事象の確率P(Xm,Yn)から、予測
子特徴値がXmであるときに集合SYopt(t)にカテゴリ
特徴値を有する条件付きの確率P(SYopt(t)|Xm)が
各値Xmに対して計算される。予測子特徴値Xmの複数の対
の集合SXi(t+1)および▲▼(t+1)の規
定がなされるが、ここではiは1からMまでの整数であ
る。各集合SXi(t+1)に含まれているものは、条件
付きの確率P(SYopt(t)|Xm)についてi個の最低値
を有するそれらの予測子特徴値Xmだけである。各集合▲
(t+1)に含まれているものは、該条件付き
の確率について(M−i)個の最高値を有するそれらの
予測子特徴値Xmだけである。このような集合が(M−
1)対だけ存在する。
上記のように規定された(M−1)対の集合から、カテ
ゴリ特徴値における最低の不確実性を有するものとし
て、単一対の集合SXopt(t+1)および▲▼
opt(t+1)が発見される。
その後で、事象の予測子特徴値が集合▲▼opt(t
+1)のメンバであるときには、該事象は第1のクラス
に分類される。また、事象の予測子特徴値が集合SXopt
(t+1)のメンバであるときには、該事象は第2のク
ラスに分類される。
この発明の一つの局面においては、事象が第1のクラス
または第2のクラスのメンバであることを識別する分類
信号を生成させることにより、当該事象は第1のクラス
または第2のクラスに分類される。
この発明の他の局面においては、集合SXopt(t+1)
が先行の集合SXopt(t)に等しくなるまで、または実
質的に等しくなるまで、この方法が繰り返して反復され
る。
より好適には、集合の各対に対する不確実性の計算をす
ることによって、最低の不確実性を有する集合の対が発
見される。
これに代えて、増大する条件付きの確率の順序において
集合の各対に対する不確実性の計算をすることにより、
最低の不確実性を有する集合の対が発見される。計算さ
れる不確実性の減少が停止したときに、最低の不確実性
を有する集合の対が発見される。
この発明の更に別の局面においては、事象の集合内には
存在しない事象の予測子特徴値が測定される。該予測子
特徴値が集合SXopt(t+1)のメンバであるときに
は、該当の事象は第1のクラスに分類される。そして、
該予測子特徴値が集合▲▼opt(t+1)のメンバ
であるときには、該当の事象は第2のクラスに分類され
る。
この発明による方法および装置においては、事象は、例
えば、一連の口頭による発声の中にある1個の口頭によ
る発声であればよい。この発明による発声の分類は、例
えば、類似の発声のモデルを生成させる目的をもって行
うことができる。これに代えて、この発明による発声の
分類は、例えば、口頭による発声を認識する目的をもっ
て行うことができる。
その他の例においては、各事象は、一連の口頭によるワ
ードの中にある1個の口頭によるワードである。ワード
の予測子特徴値には、該一連の口頭によるワードにおい
て直前を先行するワードの識別が含まれている。
また、この発明は、口頭による発声を自動的に認議する
ための方法および装置にも関するものである。発声され
る予測子ワードを表す予測子ワード信号は、決定集合に
おける予測子特徴信号と比較される。該予測子ワード信
号が該決定集合のメンバであるときには第1の予測され
たワードが出力され、そうでないときには第2の予測さ
れたワードが出力される。
この発明による方法および装置は次の理由によって理由
である。即ち、この発明の方法および装置によれば、観
察事象の集合に対して、該事象のカテゴリ特徴値におけ
る不確実性を最小または最小近傍にするような、当該事
象の予測子特徴値の部分集合を識別することができる。
ここで、カテゴリ特徴は、3個またはこれより多くの可
能性のある値を有している。この発明によれば、予測子
特徴値の全ての可能性のある部分集合について完全な列
挙を必要とすることなく、効率的な態様をもって、この
予測子特徴値の部分集合が発見される。
E.実施例 第1図は、この発明によって観察事象の集合を分類する
方法についてのフローチャートである。観察事象の集合
における各事象は、予測子特徴Xおよびカテゴリ特徴Y
を有している。予測子特徴値はM個の異なる可能性のあ
る値Xmの中の1個を有している。カテゴリ特徴はN個の
可能性のある値Ynの中の1個を有している。MおよびN
は3よりも大きいかこれに等しい正の整数であるが、互
いに等しいことは必要ではない。変数mはMよりも小さ
いかこれに等しい正の整数である。変数nはNよりも小
さいかこれに等しい正の整数である。
観察事象の集合における各事象は、例えば、発声される
ワードのシーケンスであることができる。例えば、各事
象を構成できるものは、先行ワードと、この先行ワード
に追従する認識ワードである。予測子特徴が先行ワード
であるときには、カテゴリ特徴が認識ワードである。そ
して、認識ワードの値における不確実性を最小にする先
行ワードの最良の部分集合を発見することによって事象
を分類することが所望されるとすると、先行ワードが知
られているときに、認識ワードの1個またはそれより多
くの候補値を識別するために、この発明による分類方法
を用いることができる。
この発明の方法によって分類できる予測子特徴/カテゴ
リ特徴を有する他のタイプの観察事象に含まれるもの
は、例えば、医療上の症状/病気、レーダ・パターン/
対象、および、可視的なパターン/キャラクタである。
その他の観察事象もこの発明の方法によって分類するこ
とができる。
この発明の動作を説明する目的のために、観察事象は先
行ワード/認識ワード・事象として説明していく。実際
には、ある1個の言語(ランゲージ)モデルに対して数
千ものワードがあることから、ある1個の事象の予測子
特徴は、数千もの異なる利用可能性のある予測子特徴値
の中の1個である。これと同様にして、ある1個の事象
のカテゴリ特徴は、数千もの異なる利用可能性のあるカ
テゴリ特徴値の中の1個である。このような場合におい
て、該カテゴリ特徴の値における不確実性を最小にする
ような、予測子特徴値の最良の部分集合SXoptを発見す
るためには、2(M-1)−1個のサブセットを列挙すること
が必要とされる。この値が数千というようなときには、
これは実際的ではない。
この発明によれば、以下に説明されるように、最良の部
分集合SXoptを発見するためには、多くとも近似的にK
(M+N)個の部分集合を列挙することが必要とされる
だけである。ここでKは定数であって、例えば6であ
る。
予測子特徴およびカテゴリ特徴は数千の異なる可能性の
ある値を有するものであるが、この発明を説明する目的
のために、M=5であり、N=5である例について説明
する。なお、一般的には、MがNに等しいことは必要で
はない。
第1表には、5個の異なる可能性のある値X1ないしX5
有する予測子特徴が例示されている。予測子特徴(先行
ワード)値は、それぞれに、“トラベル(travel)”、
“クレジット(credit)”、“スペシャル(specia
l)”、“トレード(trade)”および“ビジネス(busi
ness)”である。
第2表には、5個の異なる可能性のある値Y1ないしY5
有するカテゴリ特徴が例示されている。カテゴリ特徴
(認識ワード)値は、それぞれに、“エージェント(eg
ent)”、“ブレティン(bulletin)”、“マネージメ
ント(Management)”、”コンサルタント(consultan
t)",および“カード(card)”である。
ここで第1図に戻ると、事象のセットにおける各事象の
予測子特徴値Xmおよびカテゴリ特徴値Ynが、この発明に
よって測定される。第3表には、10個の仮説的な事象に
対する可能な測定が例示されている。
第3表における測定された予測子特徴値および測定され
たカテゴリ特徴値から、カテゴリ特徴値Ynおよび予測子
特徴値Xmを有する事象の生起する確率P(Xm,Yn)が、
各Ynおよび各Xmに対して評価される。事象の集合が十分
に大きいときには、カテゴリ特徴値Ybおよび予測子特徴
値Xaを有する事象の生起する確率P(Xa,Yb)が、特徴
値(Xa,Yb)を有する観察事象における事象の総数を観
察事象の集合における事象の総数で割ったものとして評
価される。
第4表には、確率P(Xa,Yb)の仮説的な評価が例示さ
れている。
確率の評価がなされた後で、予測子特徴値Xmの出発集合
SXopt(t)が選択される。変数tは任意の初期値を有
するものである。ここでの例においては、予測子特徴値
X1およびX2(即ち、先行ワードの“トラベル”および
“クレジット”)に等しい出発集合SXopt(t)が任意
に選択される。
第1図におけるフローチャートを継続して参照すると、
評価された確率P(Xm,Yn)から、カテゴリ特徴の値がY
nであるときに、集合SXopt(t))において予測子特徴
値を有するという条件付きの確率P(SXopt(t)|Yn
が、各Ynに対して計算される。第5表に例示されている
ものは、tが1に等しいときに、SXopt(t)とYnとの
ジヨイント確率、▲▼opt(t)とYnとのジヨイン
ト確率、および、カテゴリ特徴Yの各値Ynに与えらるX
opt(t)の条件付き確率である。これらの数は第4表
に示されている確率に基づくものである。ここに、 P(SXopt(t)、Yn)=P(X1,Yn)+P(X2,Yn), P(▲▼opt(t)、Yn)=P(X3,Yn)+P(X4,Y
n) +P(X5,Yn) そして、 P(SXopt(t)|Yn) =P(SXopt(t)、Yn)/{P(SXopt(t)、Yn) +P(▲▼opt(t)、Yn)} 条件付き確率の計算がなされた後で、カテゴリ特徴値Yn
についての多くの順序付けられた対の集合SYj(t)お
よび▲▼(t)の規定がなされる。集合の数j
は、(N−1)より小さいかこれに等しい正の整数であ
る。各集合SYj(t)に含まれているものは、条件付き
確率P(SXopt(t)|Yn)についてj個の最低値を有す
るように、それらのカテゴリ特徴値Ynである。各集合▲
(t)に含まれているものは、条件付き確率に
ついて(N−j)個の最高値を有するような、そのカテ
ゴリ特徴値Ynである。
第5表における条件付き確率から、第6表には、集合SY
1(t)および▲▼(t)からSY4(t)および▲
(t)までの、順次付けられた対が例示されて
いる。また、この第6表には、各集合けるカテゴリ特徴
値Ynも示されている。
(N−1)個の順序付けられた対の集合SYJおよび▲
の各々に対して、予測子特徴値Xmにおける不確実
性を、2通りの異なるやり方で計算することができる。
より好適には、該不確実性の計算は、第4表の確率から
なされる。これに代えて、該不確実性の計算は、第5表
の確率から行うこともできる。一般的にいえば、第4表
における個別の確率に基づく不確実性の計算の方が、第
5表における集合SXopt(t)および▲▼opt(t)
の確率に基づく不確実性の計算よりは正確である。しか
しながら、減退型の第5表における不確実性の計算の方
が迅速であって、同様な結果が得られる。
第6表において、集合SYj(t)および▲▼
(t)に対する、予測子特徴Xの値における不確実性
H(Split SYJ(t))の計算は、第4表の確率から次
の式に従ってなされた。
H(Split SYJ(t)) =P(SYj(t))H(Xm|SYj(t)) +P(▲▼(t))H(Xm|▲▼(t)) ここに、 P(Xm|SYj(t)) =P(Xm、SYj(t))/P(SYj(t)) 第6表においては、2を基数とする対数が用いられてい
る。(例えば、統計科学専門書第2巻“Encyclopediaof
Statistical Sciences,Volume 2"、ジョン・ワイリー
・アンド・サンズ社“John Wiley&Sons"、1982年、512
−516ペイズを参照)。
かくして、一対の集合に対する特徴値における不確実性
は、例えばP(SYj(t))のような、該当の集合にお
けるある1個の事象の生起確率について、当該集合に対
する例えばH(Xm|SYj(t))のような不確実性を乗算
するようにして、このような積の和として計算された。
第6表において示されているように、予測子特徴Xの値
において最低の不確実性を有する集合SXopt(t))お
よび▲▼opt(t)の対は、第4表における確率か
ら乗算されるような集合SY2(t)および▲▼
(t)の対である。
評価された確率P(Xm,Yn)から、予測子特徴の値がXm
であるときに、集合SYopt(t))においてカテゴリ特
徴の値を有するような条件付きの確率P(SYopt(t)|
Xm)が、各Xmに対して計算される。第7表に例示されて
いるものは、第4表におけるジョイント確率に基づく、
これら条件付き確率である。ここに、P(SYopt(t),
Xm)=P(X4,Xm)+P(X5,Xm) P(▲▼opt(t)、Xm)=P(Y1,Xm) +P(Y2,Xm)+P(Y3,Xm)P(SYopt(t)|Xm) =P(SYopt(t),Xm)÷{P(SYopt(t),Xm) +P(▲▼opt(t),Xm)} 次に、予測子特徴Xmの集合SXi(t+1))および▲
(t+1))の順序付けられた対の規定がなされ
る。変数iは(M−1)より小さいかこれに等しい正の
整数である。各集合SXi(t+1)に含まれているもの
は、条件付きの確率P(SYopt(t)|Xm)のi個の最低
の値を有するそれらの予測子特徴値Xmだけである。各集
合▲▼(t+1)に含まれているものは、条件付
きの(M−i)個の最高の値を有するそれらの特徴値Xm
だけである。
第8表に示されているものは、第7表における条件付き
の確率に基づく予測子特徴値の、集合SX1(t+1)お
よび▲▼(t+1)からSX4(t+1)および▲
(t+1)までの、順序られた対である。ま
た、この第8表には各集合に関連した予測子特徴値も示
されている。
第6表に関して上述されたと同様な態様をもって、カテ
ゴリ特徴値における不確実性の計算が、第4表および第
7表における確率からの集合の各対についてそれぞれに
なされた。第8表に示されているように、カゴリ特徴値
において最低の不確実性を有する集合SXopt(t+1)
および▲▼opt(t+1)の対は、第4表の確率か
ら計算るように、SX2(t+1)であった。なお、こに
t=1である。
最後に、集合SXopt(t+1)および▲▼opt(t+
1)の対が発見されると、事象予測子特徴値が集合SX
opt(t+1)のメンバであるときには、該事象は第1
のクラスに分類される。事象の予測子特徴値が集合▲
opt(t+1)のメンバであるときには、該事象は
第2のクラスに分類される。
SXopt(t+1)および▲▼opt(t+1)について
得られた第1の値に従って観察事象の分類をすること
は、この発明によれば可能であるけれども、このプロセ
スを繰り返すことによって更に良好な部分集合を得るこ
とができる。即ち、一対の集合SXopt(t+1)および
▲▼opt(t+1)を発見した後であるが、事象の
分類をするのに先立ってtを1だけ増大させ、これに次
いで、SXopt(t+1)および▲▼opt(t+1)の
発見を通して条件付きの確率 P(SXopt(t)|Yn)を計算するステップを繰りことが
好適である。これらステップは、例えば、該当の集合SX
opt(t+1)が先行のセットSXopt(t)と等しくなる
まで、または実質的に等しくなるまで繰り返すことがで
きる。これに代えて、これらのステップをある選択され
た回数だけ繰り返すことができる。
上述されたステップを繰り返すことにより、SXopt(t
+1)=SXopt(t)になったときにこの繰り返しを停
止することにより、ランダムに発生された確率の分布に
基づく事象の集合を分類するために、この発明が用いら
れた。Mの値が2から12まで、また、Nの値が2から16
までに対して、分類の繰り返しが100回にわたってなさ
れた。全てのケースにおいて、5回以上の繰り返しをす
ることなく分類が完了した。そのために、試験された部
分集合は5(M+N)個に満たないものであった。この
発明によって得られた分類における情報〈不確実性)は
最適に近いものであった。
第2図のフローチャートは、予測子特徴の値において最
低の不確実性を有する集合SYopt(t)および▲▼
opt(t)を発見する一つの態様を示すものである。集
合SYjおよび▲▼の順序付けられた対が規定され
た後で、変数jが1に等しく設定される。これに続け
て、集合SYj(t)および▲▼(t)に対する不
確実性H(Split SYj(t))が計算され、また、集合
SY(j+1)(t)および▲▼(j+1)(t)に対する不確
実性H(Split SY(j+1)(t))が計算される。次に、
不確実性H(Split SYj(t))が不確実性H(Split
SY(j+1)(t))と比較される。H(Split SY
j(t)がH(Split SY(j+1)(t))よりも小さいと
きには、SYopt(t)がSYj(t)に等しく設定され、ま
た、▲▼opt(t)は▲▼(t)に等しく設
定される。H(Split SYj(t))がH(Split SY
(j+1)(t))よりも小さくないときにはjが1だけ増
大され、そして、jの新規な値に対する不確実性の計算
がなされる。
カテゴリ特徴の値において最低の不確実性を有する集合
SXopt(t+1)および▲▼opt(t+1)を、同様
な態様で発見することきる。
第3図には、観察事象の集合を分類するの装置が概略的
に示されている。この装置を構成することもできるもの
は、例えば、適切にプログラムされたコンビュータ・シ
ステムである。この例において、該装置を構成する汎用
デジタル・プロセッサ10は、データ・エントリ用のキー
ボード12、ディスプレイ14、ランダム・アクセス・メモ
リ16および、蓄積デバイス18が備えられている。ランダ
ム・アクセス・メモリ16に蓄積されているプログラムの
制御の下に、プロセッサ10は蓄積デバイス18における学
習テキストから、予測子特徴値Xmおよびカテゴリ特徴値
Ynの探索をする。該学習テキストにおける特徴値から、
プロセッサ10は評価確率P(Xm,Yn)の計算を行い、こ
の評価確率を蓄積デバイス18に蓄積する。
次いで、プロセッサ10は予測子特徴値の出発集合SXopt
(t)の選択をする。例えば、tが初期値を有するとき
の集合SXopt(t)には、(Mが偶数で整数であるとき
の)予測子特徴値X1ないしXM/2、または、(Nが奇数
の整数であるときの)X1ないしX(M+1)/2を含ませ
ることができる。他のどのような選択でも受も受け入れ
ることができる。
蓄積デバイス18における確率P(Xm,Yn)から、プロセ
ッサ10は条件付き確率P(SXopt(t)|Yn)の計算を行
い、これらを蓄積デバイス18に蓄積させる。該条件付き
の確率から、集合SYj(t)および▲▼(t)の
順次付けられた対の規定がなされて、蓄積デバイス18に
蓄積される。
なおもプログラムの制御の下に、プロセッサ10は集合の
(N−1)個の順序付けられた対についての不確実性の
計算を行い、そして、予測子特徴の値において最低の不
確実性を有する集合SYopt(t)および▲▼
opt(t)を蓄積デバイス8に蓄積する。
プロセッサ10は、同様な態様をもって、カテゴリ特徴の
値において最低の不確実性を有するセットSXopt(t+
1)および▲▼opt(t+1)の発見および蓄積を
行う。
第4図には、この発明の方法および装置によって発生で
きる決定ツリー(decision tree)が例示されてい。第
4図に示されているように、該決定ツリーの各ノード
は、事象の集合SZ0ないしSZ6と関連している。該ツリー
の頂点部における集合SZ0には、全ての予測子特徴の全
ての値が含まれている。集合SZ0における事象は、この
発明の方法および装置を用いることにより、第1の予測
子特徴X′に従って、該ツリーの第2のレベルに分類さ
れる。
例えば、該第1の予測子特徴X′が認識されるべきワー
ドYの直前を先行するワードであるときには、該事象の
集合SZ0は、先行のワードがセットSX′optのメンバであ
るような事象のセットSZ1、および、その先行のワード
がセット▲▼′optのメンバであるようなセットSZ2
に分割される。
該ツリーの第3のレベルにおいては、事象の集合SZ1
よびSZ2は、例えば、第2の予測子値X″(認識される
べきワードに対して次に先行するワード)によって更に
分割される。該決定ツリーの各ノードは、認識されるべ
きワードの値(カテゴリ特徴の値)に対する確率分布に
関連付けられている。ある1個が該決定ツリーを通って
進行するにつれて、認識されるべきワードYの値におけ
る不確実性が連続的に減少する。
第5図は、この発明による分類方法および装置が用いら
れる自動的な音声認議システムを示すブロック図であ
る。これと同様なシステムは、例えば、米国特許第4,75
9,068号において説明されている。第5図に示されたシ
ステムには、ある1個の発声を電気的な信号に変換する
ためのマイクロホン20が含まれている。音響ラベル・プ
ロトタイプ蓄積部24からの、最も良くマッチングがとれ
た音響ラベル・プロトタイプを発見する、音響プロセッ
サ/ラベル・マッチング部22によって、該マイクロホン
からの信号が処理される。急速音響ワード・マッチング
・プロセッサ26は、蓄積部28における短縮音響ワード・
モデルに対して音響プロセッサ22からのラベル・ストリ
ングのマッチングをさせて、ある1個の発声信号を生成
させる。
該急速音響ワード・マッチング・プロセッサによって出
力された発声信号には、該発声の予測子ワードを表す少
なくとも1個の予測子ワード信号が含まれている。ただ
し、一般的には、該急速音響マッチング・プロセッサは
多くの候補としての予測子ワードを出力するものであ
る。
該急速音響ワード・マッチング・プロセッサ26によって
生成された各予測子ワード信号は、ワードの関連マッチ
ング部30に入力される。このワード関連マッチング部30
においては、ワードの関連を蓄積部32からのランゲージ
・モデルと対比して、ある1個の候補としての予測され
たワードを表す少なくとも1個のカテゴリ特徴信号を出
力する。該急速音響マッチング部およびランゲージ・モ
デルによって生成された認識候補から、詳細音響マッチ
ング部34は、蓄積部36における詳細音響ワード・モデル
に対して、音響プロセッサ22からのラベル・ストリング
とマッチングさせて、該当の発声に対応するワード・ス
トリングを出力する。
第6図は、ワード関連マッチング部30およびランゲージ
・モデル32の部分についての、更に詳細なブロック図で
ある。該ワード関連マッチング部30およびランゲージ・
モデル32に含まれているものは、全ての予測子ワードを
蓄積するための予測子特徴信号蓄積部38である。(第3
図に関して前述された装置のような)決定集合・ゼネレ
ータ40は、該当の決定集合に対する予測子ワードの部分
集合を発生させるものである。
コントローラ42は、急速音響ワード・マッチング・プロ
セッサ26からの予測子ワード信号を、予測子ワード信号
蓄積部44に蓄積させる。
コントローラ42によってアドレスされた予測子ワード信
号は、コンパレータ46において、該コントローラ42によ
ってアドレスされた予測子特徴値信号と比較される。予
測子ワード信号が決定集合と比較された後で、該予測子
ワード信号が決定集合のメンバであるときには、第1の
カテゴリ特徴信号が出力される。そうでないときには、
第2のカテゴリ特徴信号が出力される。
ワード関連マッチング部30およびランゲージ・モデル32
の動作の一例については、第1表、第2表および第9表
を参照して説明することができる。
ワード・ストリングの発声において、先行のワード(即
ち、認識されるべきワードの直前を先行するワード)
は、ワード”トラベル”として試験的に識別される。第
1表によれば、該先行ワード”トラベル”は予測子特徴
値X1を有している。第9表からみて、該ワード”トラベ
ル”は集合▲▼opt(t+1)内にある。従って、
認識されるワードの各値Ynの確率は、第9表における付
きの確率P(Yn|▲▼opt(t+1))によって与え
られる。
第1および第2に高い条件付きの確率を有するワードの
選択をすると、ランゲージ・モデル26は”トラベル”に
迫従する認識ワードに対候補として、ワードY3およびY4
(“マネージメント”および“コンサルタント”)が出
力される。これに次いで、該候補は詳細音響マッチング
に呈示されて、更に調査を受けることになる。
【図面の簡単な説明】 第1図は、この発明による観察事象の集合を分類する方
法のフローチャート図である。 第2図は、最低の不確実性を有する集合の発見のしかた
を示すフローチャート図である。 第3図は、この発明による観察事象の集合を分類する装
置のブロック図である。 第4図は、この発明による方法および装置によって生成
された分類から構成することかできる決定ツリーの図で
ある。 第5図は、この発明によるワード関連マッチング部を含
む音声認識システムのブロック図である。 第6図は、前記第5図におけるワード関連マッチング部
のブロック図である。 第3図において: 10は汎用デジタル・プロセッサ 12はキーボード、 14はディスプレイ、 16はランダム・アクセス・メモリ、 18は蓄積デバイス。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】発声を当該発声を表す発声信号に変換する
    ステップ(ここに、発声は一連の少なくとも1個の予測
    子ワードおよび1個の予想されるワードからなり、発声
    信号は該予測子ワードを表す少なくとも1個の予測子ワ
    ード信号からなるものである); それぞれに前記予測子ワードを表す予測子特徴値Xmを有
    するM個の予測子特徴信号の集合を生成させるステップ
    (ここに、Mは3よりも大きいかこれに等しい整数、m
    はゼロよりも大きく、かつ、Mよりも小さいかこれに等
    しい整数であり、該当の集合内の各予測子特徴信号は異
    なるワードを表している); 該当のワードを表すM個の予測子特徴信号の部分集合を
    含む決定集合を発生させるステップ; 該当の予測子ワード信号を該決定集合内の予測子特徴信
    号と比較するステップ; 該予測子ワード信号が決定集合のメンバであるときに、
    第1の予測されたワードを表す第1カテゴリ特徴信号を
    出力させるステップ(前記第1のカテゴリ特徴信号はN
    個のカテゴリ特徴信号の中の1個であり、各カテゴリ特
    徴信号は異なるワードを表し、カテゴリ特徴値Ynを有し
    ており、ここに、Nは3よりも大きいかこれに等しい整
    数、nはゼロよりも大きく、かつ、Nよりも小さいかこ
    れに等しい整数である);および 該予測子ワード信号が決定集合のメンバではないとき
    に、該第1のカテゴリ特徴信号とは異なり、該第1の予
    測されたワードとは異なる第2の予測されたワードを表
    している、第2のカテゴリ特徴信号を出力させるステッ
    プ; からなる自動的な音声認識方法であって; 前記決定集合を発声させるステップが; (a)各々異なる値XmおよびYnを有する予測子特徴Xお
    よびカテゴリ特徴Yよりなる観察事象の集合を含む学習
    テキストを用意するステップ; (b)前記事象の集合における各事象の予測子特徴値Xm
    およびカテゴリ特徴値Ynを測定するステップ; (c)mおよびnの各異なる組み合わせについて、カテ
    ゴリ特徴値Ynおよび予測子特徴値Xmを有する事象が生起
    する確率P(Xm、Yn)を評価するステップ; (d)tが初期値であるときに、予測子特徴値Xmの出発
    集合SXopt(t)を選択するステップ; (e)該評価された確率P(Xm,Yn)から、各Ynについ
    て、カテゴリ特徴の値がYnであるとき予測子特徴が集合
    SXopt(t)に含まれる値を有する条件付きの確率P(S
    Xopt(t)|Yn)を計算するステップ; (f)カテゴリ特徴値Ynの複数対のセット▲▼
    (t)およびYj(t)を定義するステップ(ここに、
    jはゼロよりも大きく、かつ、(N−1)より小さいか
    これに等しい整数であり、各集合SYj(t)はP(SXopt
    (t)|Yn)のj個を最低値を有するカテゴリ特徴値Yn
    だけを含み、各セット▲▼(t)はP(SX
    opt(t)|Yn)の(N−j)個の最高値を有するカテゴ
    リ特徴値Ynだけを含んでいる); (g)集合SXopt(t)および▲▼opt(t)の対が
    予測子特徴の値における最低の不確実性を有するよう
    に、集合SYj(t)および▲▼(t)の対の中か
    ら集合SXopt(t)および▲▼opt(t)の対を発見
    するステップ; (h)該評価された確率P(Xm,Yn)から、各Xmについ
    て、予測子特徴の値がXmであるとき予測子特徴が集合SY
    opt(t)に含まれる値を有する条件付きの確率P(SX
    opt(t)|Xm)を計算するステップ; (i)予測子特徴値Xmの複数対の集合SXi(t+1)お
    よび▲▼(t+1)を定義するステップ(ここ
    に、iはゼロよりも大きく、かつ、(M−1)より小さ
    いかこれに等しい整数であり、各集合SXi(t+1)は
    P(SYopt(t)|Xm)のi個の最低値を有する予測子特
    徴値Xmだけを含み、各集合▲▼(t+1)はP
    (SYopt(t)|Xm)の(M−i)個の最高値を有する予
    測子特徴値Xmだけを含んでいる); j)集合SYopt(t+1)および▲▼opt(t+1)
    の対がカテゴリ特徴の値における最低の不確実性を有す
    るように、集合SXi(t+1)および▲▼(t+
    1)の対の中から集合SXopt(t+1)および▲▼
    opt(t+1)の対を発見するステップ;および (k)該決定集合を集合SXopt(t+1)に等しくセッ
    トするステップ; からなることを特徴とする音声認識方法。
  2. 【請求項2】発声を当該発声を表す発声信号に変換する
    ステップ(ここに、発声は一連の少なくとも1個の予測
    子ワードおよび1個の予想されるワードからなり、発声
    信号は該予測子ワードを表す少なくとも1個の予測子ワ
    ード信号からなるものである); それぞれに前記予測子ワードを表す予測子特徴値Xmを有
    するM個の予測子特徴信号の集合を生成させるステップ
    (ここに、Mは3よりも大きいかこれに等しい整数、m
    はゼロよりも大きく、かつ、Mよりも小さいかこれに等
    しい整数であり、該当の集合内の各予測子特徴信号は異
    なるワードを表してある); 該当のワードを表すM個の予測子特徴信号の部分集合を
    含む決定集合を発声させる手段; 該当の予測子ワード信号を該決定集合内の予測子特徴信
    号と比較する手段; 該予測子ワード信号が決定集合のメンバであるときに、
    第1の予測されたワードを表す第1のカテゴリ特徴信号
    を出力させる手段(前記第1のカテゴリ特徴信号はN個
    のカテゴリ特徴信号の中の1個であり、各カテゴリ特徴
    信号は異なるワードを表し、カテゴリ特徴値Ynを有して
    おり、ここに、Nは3よりも大きいかこれに等しい整
    数、nはゼロよりも大きく、かつ、Nよりも小さいかこ
    れに等しい整数である);および 該予測子ワード信号が決定集合のメンバではないとき
    に、該第1のカテゴリ特徴信号とは異なり、該第1の予
    測されたワードとは異なる第2の予測されたワードを表
    している、第2のカテゴリ特徴信号を出力させる手段; からなる自動的な音声認識装置において; (a)観察事象の集合を含む学習テキストを蓄積する手
    段であって、各事象は予測子ワードを表す予測子特徴X
    および予測されたワードを表すカテゴリ特徴Yを有し、
    前記予測子特徴はM個の異なる可能性のある値Xmの1個
    を有し、各Xは異なる予測子ワードを表しており、前記
    カテゴリ特徴はN個の異なる可能性のある値Ynの1個を
    有し、各Ynは異なる予測されたワードを表している前記
    の手段; (b)事象の集合における各事象の予測子特徴値Xmおよ
    びカテゴリ特徴値Ynを測定する手段; (c)mおよびnの各異なる組み合わせについて、カテ
    ゴリ特徴値Ynおよび予測子特徴値Xmを有する事象が生起
    させる確率P(Xm、Yn)を評価する手段; (d)tが初期値であるときに、予測子特徴値Xmの出発
    集合SXopt(t)を選択する手段; (e)該評価された確率P(Xm,Yn)から、各Ynについ
    てカテゴリ特徴の値がYnであるとき予測子特徴が集合SX
    opt(t)に含まれる値を有する条件付きの確率P(SX
    opt(t)|Yn)を計算する手段; (f)カテゴリ特徴値Ynの複数対の集合SYj(t)およ
    び▲▼(t)を定義する手段(ここに、jはゼロ
    よりも大きく、かつ、(N−1)より小さいかこれに等
    しい整数であり、各集合Yj(t)はP(SXopt(t)|
    Yn)のj個の最低値を有するカテゴリ特徴値Ynだけを含
    み、各集合▲▼(t)はP(SXopt(t)|Yn)の
    (N−j)個の最高値を有するカテゴリ特徴値Ynだけを
    含んでいる); (g)集合SYopt(t)および▲▼opt(t)の対が
    予測子特徴の値における最低の不確実性を有するよう
    に、集合Yj(t)および▲▼(t)の対の中から
    集合SXopt(t)および▲▼opt(t)の対を発見す
    る手段; (h)該評価された確率P(Xm,Yn)から、各Xmについ
    て、カテゴリ特徴の値がXmであるとき予測子特徴が集合
    SYopt(t)に含まれる値を有する条件付きの確率P(S
    Yopt(t)|Xm)を計算する手段; (i)予測子特徴値Xmの多数対の集合SXi(t+1)お
    よび▲▼(t+1)を定義する手段(ここに、i
    はゼロよりも大きく、かつ、(M−1)より小さいかこ
    れに等しい整数であり、各集合SXi(t+1)はP(SY
    opt(t)|Xm)のi個の最低値を有する予測子特徴値Xm
    だけを含み、各集合▲▼(t+1)はP(SYopt
    (t)|Xm)の(M−i)個のの最高値を有する予測子
    特徴値Xmだけを含んでいる); j)集合SYopt(t+1)および▲▼opt(t+1)
    の対がカテゴリ特徴の値における最低の不確実性を有す
    るように、集合SXi(t+1)および▲▼(t+
    1)の対の中から集合SXopt(t+1)および▲▼
    opt(t+1)の対を発見する手段;および (k)該集合SXopt(t+1)を決定集合として出力す
    る手段; によって該決定集合の発生手段が構成されていることを
    特徴とする音声認識装置。
JP2244139A 1989-10-26 1990-09-17 音声認識方法および装置 Expired - Lifetime JPH0756675B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/427,420 US5263117A (en) 1989-10-26 1989-10-26 Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US427420 2003-05-01

Publications (2)

Publication Number Publication Date
JPH03147079A JPH03147079A (ja) 1991-06-24
JPH0756675B2 true JPH0756675B2 (ja) 1995-06-14

Family

ID=23694801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2244139A Expired - Lifetime JPH0756675B2 (ja) 1989-10-26 1990-09-17 音声認識方法および装置

Country Status (4)

Country Link
US (1) US5263117A (ja)
EP (1) EP0424665A2 (ja)
JP (1) JPH0756675B2 (ja)
CA (1) CA2024382C (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
US5680509A (en) * 1994-09-27 1997-10-21 International Business Machines Corporation Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
US5729656A (en) 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
WO1996037881A2 (en) * 1995-05-26 1996-11-28 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US5864819A (en) * 1996-11-08 1999-01-26 International Business Machines Corporation Internal window object tree method for representing graphical user interface applications for speech navigation
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
WO1999059673A1 (en) * 1998-05-21 1999-11-25 Medtronic Physio-Control Manufacturing Corp. Automatic detection and reporting of cardiac asystole
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7133856B2 (en) * 2002-05-17 2006-11-07 The Board Of Trustees Of The Leland Stanford Junior University Binary tree for complex supervised learning
US7292982B1 (en) * 2003-05-29 2007-11-06 At&T Corp. Active labeling for spoken language understanding
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
JPS57211338A (en) * 1981-06-24 1982-12-25 Tokyo Shibaura Electric Co Tatal image diagnosis data treating apparatus
JPS58115497A (ja) * 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
US4658429A (en) * 1983-12-29 1987-04-14 Hitachi, Ltd. System and method for preparing a recognition dictionary
JPS60262290A (ja) * 1984-06-08 1985-12-25 Hitachi Ltd 情報認識システム
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
FR2591005B1 (fr) * 1985-12-04 1988-01-08 Thomson Csf Procede d'identification de structure arborescentes dans des images numeriques et son application a un dispositif de traitement d'images
US4719571A (en) * 1986-03-05 1988-01-12 International Business Machines Corporation Algorithm for constructing tree structured classifiers
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling

Also Published As

Publication number Publication date
CA2024382C (en) 1994-08-02
CA2024382A1 (en) 1991-04-27
EP0424665A2 (en) 1991-05-02
US5263117A (en) 1993-11-16
JPH03147079A (ja) 1991-06-24
EP0424665A3 (ja) 1994-01-12

Similar Documents

Publication Publication Date Title
JPH0756675B2 (ja) 音声認識方法および装置
Sigtia et al. An end-to-end neural network for polyphonic piano music transcription
US6021387A (en) Speech recognition apparatus for consumer electronic applications
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
US9728183B2 (en) System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US20140067735A1 (en) Computer-implemented deep tensor neural network
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
Weymaere et al. A fast and robust learning algorithm for feedforward neural networks
Somervuo et al. Bird song recognition based on syllable pair histograms
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
Altınçay et al. An information theoretic framework for weight estimation in the combination of probabilistic classifiers for speaker identification
Noroozi et al. Speech-based emotion recognition and next reaction prediction
Campbell Analog i/o nets for syllable timing
CN112634865A (zh) 语音合成方法、装置、计算机设备和存储介质
US6430532B2 (en) Determining an adequate representative sound using two quality criteria, from sound models chosen from a structure including a set of sound models
JP6704585B2 (ja) 情報処理装置
Boulanger-Lewandowski Modeling high-dimensional audio sequences with recurrent neural networks
KR102159988B1 (ko) 음성 몽타주 생성 방법 및 시스템
Hegde et al. A Multiple Classifier System for Automatic Speech Recognition
Madhavi et al. Comparative analysis of different classifiers for speech emotion recognition
EP4167227A1 (en) System and method for recognising chords in music
Do Neural networks for automatic speaker, language, and sex identification
Huang Recurrent Poisson Process Unit for Automatic Speech Recognition
Blomqvist et al. Swedish Dialect Classification using Artificial Neural Networks and Guassian Mixture Models
Begum et al. Mood Based Music Player