JPH05289692A - ワードを予測する会話認識装置用言語生成装置及び方法 - Google Patents

ワードを予測する会話認識装置用言語生成装置及び方法

Info

Publication number
JPH05289692A
JPH05289692A JP4350244A JP35024492A JPH05289692A JP H05289692 A JPH05289692 A JP H05289692A JP 4350244 A JP4350244 A JP 4350244A JP 35024492 A JP35024492 A JP 35024492A JP H05289692 A JPH05289692 A JP H05289692A
Authority
JP
Japan
Prior art keywords
hypothesis
word
record
class
predictive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4350244A
Other languages
English (en)
Other versions
JPH07107640B2 (ja
Inventor
Peter F Brown
ピーター・フィッジュー・ブラウン
Pietra Stephen A Della
ステフェン・アンドリュー・デラ・ピートラ
Pietra Vincent J Della
ビンセント・ジョセフ・デラ・ピートラ
Leroy Mercer Robert
ロバート・レロイ・マーサー
Philip S Resnik
フィリップ・エス・レズニク
Stanley S Chen
スタンレイ・エス・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05289692A publication Critical patent/JPH05289692A/ja
Publication of JPH07107640B2 publication Critical patent/JPH07107640B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 相当少いパラメータを使用して予測確率が高
く且つ正確な言語モデルを推定すること。 【構成】 仮説の各ワードに対する個々の記録を組合せ
てワード列仮説記録を生成し10、記録されているワー
ドではないワード列仮説のワードから成る文脈が発生し
た場合における記録ワードから成る第1のクラスのワー
ドに対する推定の条件付発生確率と、第1のクラスのワ
ードを発生し及び文脈が発生した場合における記録ワー
ドの推定による条件付発生確率との組合せから一単位の
仮説記録及びワード列仮説記録を生成し20,22、最
良のワード列仮説記録を有する1以上のワード列仮説の
最良候補を記録し24、有効な仮説記録を得るため複数
のワード列を分類するようにしたことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は会話認識機能、言語翻訳
機能、スペル・チェッカ、及びワード列の仮説(又はワ
ード列仮説)を発生し記録するその他の装置に関し、特
に、会話認識機能、言語翻訳機能、スペル・チェッカ、
及び他の装置において、一続きのワード、すなわち、ワ
ード列の仮説を記録する言語モデルを有する言語生成装
置に関する。(本発明は海軍研究所により授与された契
約第N00014−91−C−0135号に基づく政府
支援により成されたもので、政府が特定の権利を有す
る。)
【0002】
【従来の技術】ある自動会話認識装置、自動言語翻訳装
置、及び自動スペル修正装置は次のモデル又は操作型式
に従って操作することが知られている。
【0003】このモデルにおいて、Wは、例えば、英語
のワードのような1ワード以上の列を表わす一続きのワ
ード(又はワードの列、もしくはワード列)の仮説であ
り、Pr(W)の項はワード列仮説の発生確率である。
変数Yは観察信号であり、Pr(Y)は観察信号の発生
確率である。Pr(W|Y)は観察信号Yが発生した場
合におけるワード列Wの発生確率である。Pr(Y|
W)はワード列Wが発生した場合における観察信号Yの
発生確率である。
【0004】自動会話認識に対するYは音響信号であ
る。[例えば、エル・アール・バールほかによる“連続
会話認識に対する最高に可能性があるアプローチ”(パ
ターン認識及び機械知能に関するIEEE会報;Vo
l.PAMI−5,No.2,1983年3月、179
〜190頁)参照]。自動言語翻訳に対するYはワード
列仮説による言語とは異なる他の言語のワード列であ
る。
【0005】[例えば、ピー・エフ・ブラウンほかによ
る“機械翻訳に対する統計的アプローチ”(電子計算機
言語学;Vol.16,No.2,1990年6月、7
9〜85頁)参照]。自動スペル修正に対するYは多分
不完全なタイピストによって作成された一続きの文字で
ある。[例えば、イー・メイスほかによる“文脈基底の
スペル修正”(情報処理及びマネージメント;Vol.
27,No.5,1991年、517〜522頁)参
照]。
【0006】これら3つの適用において、信号Yが指定
された場合の信号Yを発生させる基である英語列Wの判
別を求める。一般に、多くの異なるワード列は同じ信号
Yを発生させるかもしれない。そのモデルは観察信号Y
が指定された場合の最大条件付確率を有するワード列W
を選択することによって誤りワード列を選出する確率を
最少にすることができる。
【0007】方程式1に示すように、観察信号Yが指定
された場合のワード列Wの条件付確率は次の3項の組合
わせである。すなわち、(i)ワード列Wの確率は、
(ii)ワード列Wを意図したときに観察信号Yが発生す
る確率と掛け合わされ、(iii)信号Yを観察する確率に
よって割算される。
【0008】自動会話認識の場合、推定されたワード列
Wがある場合の音響信号Yの確率はワード列Wの音響モ
デルを使用して推定することができる。自動言語翻訳に
おいて、仮説された英語翻訳ワード列Wがある場合にお
ける場合に他の言語のワード列Yの発生確率はワード列
Wに対する翻訳モデルを使用することによって推定され
る。
【0009】自動スペル修正の場合、仮説されたワード
列Wがある場合におけるたぶん不完全なタイピストによ
る文字列Yの作成確率はワード列Wに対するミスタイプ
・モデルを使用することによって推定される。
【0010】上記3例の適用において、ワード列Wの確
率は次の方程式に従いモデル化することができる。 Pr(W1 k ) =Pr(W1)Pr(W2 |W1) ・・・・Pr(Wk |W1 k-1) …[2] ここで、W1 k は一続きのワード(又はワード列)
1 ,W2 ,…,Wk を表わす。
【0011】条件付確率Pr(Wk |W1 k-1)におい
て、W1 k-1 の項は活動記録機能又は予測機能と呼ばれ
る。活動記録の各ワードは予測機能ワードである。Wk
の項は予測機能又は類別機能と呼ばれる。
【0012】
【発明が解決しようとする課題】上記方程式2におい
て、条件付確率を推定するための機構は言語モデルと呼
ばれる。言語モデルはテキストにつき限定付トレーニン
グを行うことによって条件付確率を推定する。トレーニ
ング・テキストを多くすると、言語モデルのパラメータ
の数も多くなり、言語モデルからより正確且つ精密な予
測を行うことはできるが、パラメータが相当多くなると
いうことのほか、相当複雑となる。
【0013】以上、3つのすべての適用例において、観
察信号Yの発生確率Pr(Y)は、あるパラメータの関
数としてモデル化することができるか、又は見出される
べきワード列Wとは無関係であるものとみなすことがで
きるかのどちらかである。後者の場合、Pr(Y)の項
は方程式1においては抜けている。
【0014】従って、本発明の目的は、会話認識装置の
用に供するような、相当少いパラメータを使用して高度
に正確且つ詳細な言語モデルを有する言語生成装置及び
方法を提供することである。
【0015】本発明の他の目的は、相当少量のトレーニ
ング・テキストからの条件付予測ワードの確率が高く且
つ正確な言語モデルの推定を行いうる言語生成装置及び
方法を提供することである。
【0016】更に、本発明の目的は、2以上のワード列
のような観察事象の集合を分類して、正確且つ精密な言
語モデルを生成する装置及び方法を提供することであ
る。
【0017】
【課題を解決するための手段】本発明は、上記の目的に
鑑みてなされたもので、2以上のワード列仮説信号を発
生する手段を含む言語生成装置を特徴とする。その各ワ
ード列仮説信号は一続きの言語単位(又は言語単位の
列)から成るワード列仮説を表わす。各言語単位は言語
から選ばれた1以上のワードから成る。
【0018】言語生成装置は、更に、各ワード列仮説に
おける各言語単位に対する一単位の仮説記録信号を発生
する手段を含む。各一単位の仮説記録信号はワード列仮
説における個々の言語単位の発生確率の推定を含む一単
位の仮説記録を表わす。
【0019】各ワード列仮説に対するワード列仮説記録
信号を発生する手段が設けられる。その各ワード列仮説
記録信号はワード列仮説の言語単位に対する一単位の仮
説記録の組合せから成る。
【0020】言語生成装置は更に最良のワード列仮説記
録を有するワード列仮説の候補を表わす1以上のワード
列仮説信号の候補を記録する手段を含む。少くとも1つ
の最良のワード列仮説の候補の少くとも1ワードを表わ
す少くとも1ワードの信号を出力する出力手段を設け
る。
【0021】本発明における言語生成装置における第1
の個々の言語単位に対する一単位の仮説記録信号を生成
する手段は該第1の個々の言語単位ではないワード列仮
説の言語単位から成る文脈(又は前後関係)が発生した
場合における該第1の個々の言語単位から成る第1のク
ラスの言語単位の条件付発生確率の推定手段を含む。
【0022】第1のクラスの言語単位が発生し、文脈が
発生した場合における第1の個々の言語単位の条件付発
生確率を推定する手段が設けられる。第1の個々の言語
単位に対する一単位の仮説記録信号は、文脈が発生した
場合における第1の言語単位の推定による条件付発生確
率と、第1のクラスの言語単位及び文脈が発生した場合
における第1の個々の言語単位の推定による条件付発生
確率との結合から成る第1の構成要素記録を含む。
【0023】本発明の一面における第1のクラスの言語
単位が発生した場合、及び文脈が発生した場合における
第1の個々の言語単位の条件付発生確率は第1のクラス
の言語単位が発生した場合における第1の個々の言語単
位の条件付発生確率によって推定される。
【0024】文脈が発生した場合における第1のクラス
の言語単位の条件付発生確率は第1の個々の言語単位で
はないワード列仮説の1以上の言語単位を含む第1の文
脈集合が発生した場合における第1のクラスの言語単位
の条件付発生確率によって推定することができる。
【0025】代替的に、文脈が発生した場合における第
1のクラスの言語単位の条件付発生確率は(イ)第1の
個々の言語単位ではないワード列仮説の1以上の言語単
位から成る第1の文脈集合が発生した場合における第1
のクラスの言語単位の条件付発生確率と、(ロ)第1の
個々の言語単位ではないワード列仮説の1以上の言語単
位から成る第2の文脈集合(第1の文脈集合とは異な
る)が発生した場合における第1のクラスの言語単位の
条件付発生確率との重み付け又は加重結合として推定す
ることができる。
【0026】第1の個々の言語単位に対する一単位の仮
説記録信号を生成する手段は、更に、第1の個々の言語
単位ではないワード列仮説の言語単位から成る文脈が発
生した場合における、第1の言語単位から成る第2のク
ラスの言語単位の条件付発生確率を推定する手段を含む
ことができる。又、第2のクラスの言語単位及び文脈が
発生した場合における第1の個々の言語単位の条件付発
生確率を推定する手段が設けられる。
【0027】第2の構成要素の記録は文脈が発生した場
合における第2のクラスの言語単位の推定による条件付
発生確率と、第2のクラスの言語単位が発生し及び文脈
が発生した場合における第1の個々の言語単位の推定に
よる条件付発生確率との結合を含むものから作成され
る。第1の個々の言語単位に対する一単位の仮説記録は
第1及び第2の構成要素記録の加重結合から成る。
【0028】第2のクラスの言語単位が発生し及び文脈
が発生した場合における第1の個々の言語単位の条件付
発生確率は第2のクラスの言語単位が発生した場合にお
ける第1の個々の言語単位の条件付発生確率によって推
定することができる。
【0029】文脈が発生した場合における第2のクラス
の言語単位の条件付発生確率は、第1の個々の言語単位
ではなく、ワード列仮説の1以上の言語単位から成る第
1の文脈集合が発生した場合における第2のクラスの言
語単位の条件付発生確率によって推定することができ
る。
【0030】代替的に、文脈が発生した場合における第
2のクラスの言語単位の条件付発生確率は、第1の個々
の言語単位ではないワード列仮説の1以上の言語単位か
ら成る第2の文脈集合(第1の文脈集合とは異なる)が
発生した場合における第2のクラスの言語単位の条件付
発生確率と先行する量との加重結合として推定すること
ができる。
【0031】2以上のワード列仮説信号を発生する手段
は、例えば、一続きの連続時間間隔の各々に対する発音
の少くとも1つの機能の値を測定してその機能値を表わ
す一続きの音響機能信号(又は音響機能信号の列)を作
成する音響プロセッサを含むことができる。
【0032】又、複数のワード列仮説の各々に対する音
響一致記録を発生する手段が設けられる。各音響一致記
録はワード列仮説の音響モデルと音響機能信号の列との
間の一致の終結の推定を含む。最後に、最良の音響一致
記録を有するワード列仮説を表わす2以上のワード列仮
説信号を発生する手段を設ける。
【0033】音響プロセッサはマイクロホンを含むこと
ができる。出力手段は、例えば、少くとも1つのワード
列仮説の最良候補の少くとも1ワードを表示する手段を
含むことができる。表示手段は、例えば、陰極線管又は
液晶表示装置でよい。
【0034】代替的に、出力手段は少くとも1つのワー
ド列仮説の最良候補の少くとも1ワードの音響を発生す
る手段を含むことができる。音響発生手段は、例えば、
会話シンセサイザ及び(又は)ラウドスピーカを含むこ
とができる。又、ワード列仮説の候補を記録する記録手
段は電子読取書込メモリーを含むことができる。
【0035】本発明は、又一組の観察事象又は観察事象
の集合を分類する装置及び方法を含む。各事象は予測機
能及び類別機能を有する。予測機能は2以上の異なる値
の1つを有する。類別機能は2以上の異なる可能値の1
つを有する。本発明による装置は事象集合の各事象の予
測機能値及び類別機能値を測定する手段を含む。
【0036】1以上の異なる類別機能値の非補集合を選
択し、少くとも3以上の予測機能値の非補集合を選択す
る手段が設けられる。類別機能値の各集合は可能なすべ
てのものより少い類別機能値を含む。予測機能値の各集
合は可能なすべてのものより少い予測機能値を含む。
【0037】分類装置は、更に、予測機能の値の各集合
に対し、及び類別機能値の各集合に対する一次予測記録
を発生する手段を含む。各一次予測記録は、予測機能値
の集合が如何に良く観察事象の集合の全事象に対する一
組の類別機能値(又は類別機能値の集合)の発生を予測
するかの推定を含む。事象の予測機能値が最良の一次予
測記録を有する予測機能値の集合の数の場合、その事象
は第1のクラスに分類される。
【0038】又、最良の一次予測記録を有する予測機能
値の集合ではない予測機能値の各集合、及び類別機能値
の各集合に対する二次予測記録を発生する手段が設けら
れる。各二次予測記録は、予測機能値の集合が第1のク
ラスの観察事象の全事象に対する類別機能値の一集合の
発生を如何に良く予測するかの推定を含む。
【0039】第1のクラスの事象は、該事象の予測機能
値が最良の二次予測記録を有する予測機能値の集合の数
である場合、第1のサブクラスに分類される。
【0040】本発明による分類装置及び方法において、
各一次予測記録は、予測機能値の集合が予測機能値の集
合と関連する一次加重係数によって加重される観察事象
の集合における一組の類別機能値の発生を如何に良く予
測するかの推定を含む。
【0041】各二次予測記録は予測機能値の集合がそれ
に関する二次加重係数によって加重された第1のクラス
の観察事象における一組の類別機能値の発生を如何によ
く予言するかの推定を含む。最良の一次予測記録を有す
る予測機能値の集合ではない、少くとも一組の予測機能
値は関連する二次加重係数に等しくない関連する一次加
重係数を保有する。
【0042】本発明の一面によると、各事象は一続きの
2以上のワード又は2以上のワードからなるワード列を
含む。本発明による装置は、更に、事象の予測機能値が
最良の二次予測記録を有する予測機能値の集合の数では
ない場合、第1のクラスの第2のサブクラスの事象を分
類する手段を含むことができる。
【0043】本発明は、又、認識されるべき発音の一続
きの符号化表示を出力する音響プロセッサを含む会話認
識装置を提供する。複数のワード列仮説の各々に対する
音響一致記録を発生する手段が設けられる。各音響一致
記録は、ワード列仮説の音響モデルと一続きの発音の符
号化表示との間の一致の終結の推定を含む。
【0044】各ワード列仮説は2以上のワードから成
る。又、最良の音響一致記録を有するワード列仮説を表
わす2候補以上のワード列仮説信号を発生する手段が設
けられる。本発明による言語生成装置はワード列仮説の
候補を受けて、少くとも1つのワード列仮説の最良候補
の少くとも1ワードを表わす少くとも1ワードの信号を
出力する。
【0045】本発明による言語生成装置及び方法と、会
話認識装置とは、言語モデルのワードを各クラスにグル
ープ化することによって、相当少ないパラメータにより
高度に正確な言語モデルを取得することができる。又、
多数の異なるクラス基底の言語モデルを結合することに
よって、相当少量のトレーニング・テキストであって
も、それによって高度に正確な言語モデルを取得するこ
とができる。
【0046】本発明による一組の観察事象を分類する装
置及び方法においては、異なるレベルの分類に対する一
組の予測装置機能値に対し異なる加重係数を割当てるこ
とによって、分類された結果のワード順次を使用して改
良した言語モデルを発生させることができる。
【0047】
【実施例】以下、添付図面に基づき本発明の好ましい実
施例を詳細に説明する。図1は本発明による言語生成装
置の例を示すブロック図である。言語生成装置は2以上
のワード列仮説信号を発生するワード列仮説生成装置1
0を含む。各ワード列仮説信号は一続きの言語単位から
成るワード列仮説を表わす。各言語単位はある言語から
選ばれた1以上のワードから成る。
【0048】ワード列仮説生成装置10の一例を図2の
ブロック図に示す。この例において、ワード列仮説生成
装置10は、一続きの連続時間間隔の各々に対する発音
の少くとも1機能の値を測定して、機能値を表わす音響
機能信号の列を作成する音響プロセッサ12を含む。
【0049】音響一致記録生成装置14は複数のワード
列仮説の各々に対する音響一致記録を発生する。各音響
一致記録はワード列仮説の音響モデル(音響モデル記憶
装置16に記憶される)と、音響プロセッサ12からの
音響機能信号の列との間の一致の終結の推定を含む。
【0050】記憶装置16に記憶されている音響モデル
は、例えば、マルコフ(Markov)モデルでよい。音響モ
デルのパラメータは、例えば、前方後方アルゴリズム
(Forward-Backward Algorithm) によって公知の発音の
トレーニング・テキストから推定することができる。音
響一致記録は、例えば、最も見込みのある推定によって
取得することができる。(例えば、エル・アール・バー
ルによる上記の文献(1983年3月)を参照)。
【0051】最後に、ワード列仮説生成装置10は、最
良の音響一致記録を有するワード列仮説を表わす2以上
のワード列仮説信号を発生する手段18を含む。
【0052】代替的に、ワード列仮説生成装置10は自
動言語翻訳記録又は自動スペル修正記録に基づきワード
列仮説を発生することができる。(例えば、ピー・エフ
・ブラウンほか(1990年6月)、及びイー・メイス
ほか(1991年)による上記の文献参照)。
【0053】図1に戻り、言語生成装置又は言語生成機
能は、更に各ワード列仮説の各言語単位に対する一単位
の仮説記録信号を発生する一単位の仮説記録生成装置2
0を含む。各一単位の仮説記録信号は、ワード列仮説の
個々の言語単位の発生確率の推定から成る一単位の仮説
記録を表わす。
【0054】ワード列仮説記録生成装置22は各ワード
列仮説に対するワード列仮説記録信号を発生する。各ワ
ード列仮説記録信号はワード列仮説の言語単位に対する
一単位の仮説記録の結合又は組合せの指示を含む。
【0055】言語生成装置は、更に、最良のワード列仮
説記録を有するワード列仮説の候補を表わす1以上のワ
ード列仮説の候補を記録するワード列仮説の最良候補記
録装置24を含む。ワードの出力26は少くとも1つの
ワード列仮説の最良候補の少くとも1ワードを表わす少
くとも1ワードの信号を出力する。
【0056】図3は一単位の仮説記録生成装置20の例
を示すブロック図である。一単位の仮説記録生成装置2
0は、第1の個々の言語単位ではないワード列仮説の言
語単位から成る文脈が発生した場合における第1の個々
の言語単位から成る第1のクラスの言語単位の条件付発
生確率を推定する手段28を含む。
【0057】第1のクラスの言語単位が発生した場合、
及び文脈が発生した場合における第1の個々の言語単位
の条件付発生確率の推定手段30が設けられる。
【0058】文脈が発生した場合における第1のクラス
の言語単位の条件付発生確率は、選ばれた文脈を有する
第1のクラスの言語単位におけるワードのトレーニング
・テキストの発生数をカウントし、そのカウントを選ば
れた文脈を有するワードのトレーニング・テキスト32
の発生数で割算することによって、トレーニング・テキ
スト32から推定することができる。
【0059】第1のクラスの言語単位が発生し、文脈が
発生した場合における第1の個々の言語単位の条件付発
生確率は、選ばれた文脈を有する個々の言語単位のトレ
ーニング・テキストの発生数をカウントし、選ばれた文
脈を有する第1のクラスの言語単位におけるワードのト
レーニング・テキストの発生数によってそのカウントを
割算することによって、トレーニング・テキスト32か
ら推定することができる。
【0060】一単位の仮説記録生成装置20は、更に文
脈が発生した場合における第1のクラスの言語単位の推
定による条件付発生確率と、第1のクラスの発生及び文
脈が発生した場合における第1の個々の言語単位の推定
による条件付発生確率との結合から成る第1の構成要素
記録を含む第1の個々の言語単位に対する一単位の仮説
記録信号を発生する手段34を有する。
【0061】第1のクラスの言語単位が発生し、文脈が
発生した場合における第1の個々の言語単位の条件付発
生確率は第1のクラスの言語単位が発生した場合におけ
る第1の個々の言語単位条件付発生確率から推定するこ
とができる。
【0062】この場合、第1のクラスの言語単位が発生
した場合における第1の個々の言語単位の条件付発生確
率は第1の個々の言語単位のトレーニング・テキストの
発生数をカウントし、そのカウントを第1のクラスの言
語単位の全ての言語単位のトレーニング・テキストの発
生数で割算することによってトレーニング・テキストか
ら推定することができる。
【0063】文脈が発生した場合における第1のクラス
の言語単位の条件付発生確率は、第1の個々の言語単位
ではなく、ワード列仮説の1以上の言語単位から成る第
1の文脈集合が発生した場合における第1のクラスの言
語単位の条件付発生確率から推定することができる。
【0064】代替的に、文脈が発生した場合における第
1のクラスの言語単位の条件付発生確率は2以上の構成
要素の加重結合と推定することができる。例えば、1つ
の構成要素は、第1の個々の言語単位ではなく、ワード
列仮説の1以上の言語単位から成る第1の文脈集合が発
生した場合における第1のクラスの言語単位の条件付発
生確率であることができる。
【0065】第2の構成要素は、第1の個々の言語単位
ではないワード列仮説の1以上の言語単位から成る第2
の文脈集合(第1の文脈集合とは異る)が発生した場合
における第1のクラスの言語単位の条件付発生確率であ
ることができる。加重係数は、例えば、削除補間法によ
って得ることができる(例えば、エル・アール・バール
ほかによる前述の文献(1983年)参照)。
【0066】図1及び図3に示す一単位の仮説生成装置
20に代替する該装置20においては、手段28は第1
の個々の言語単位ではなく、ワード列仮説の言語単位を
構成する文脈が発生した場合における第1の個々の言語
単位を含む第2のクラスの言語単位の条件付発生確率を
推定することができる手段である。
【0067】又、手段30は、第2のクラスの言語単位
が発生し、文脈が発生した場合における第1の個々の言
語単位の条件付発生確率を推定することができる手段で
ある。両条件付確率共、前述のように、トレーニング・
テキトス32から推定することができる。
【0068】次に、手段34は、文脈が発生した場合に
おける第2のクラスの言語単位の推定による条件付発生
確率と、第2のクラスの言語単位が発生し、文脈が発生
した場合における第1の個々の言語単位の推定による条
件付発生確率との結合から成る第2の構成要素記録を発
生する発生手段である。
【0069】第1の個々の言語単位に対する一単位の仮
説記録は第1の構成要素記録と第2の構成要素記録との
加重結合を含む。加重係数は、例えば、削除補間法によ
って得ることができる。
【0070】第2のクラスの言語単位が発生した場合、
及び文脈が発生した場合における第1の個々の言語単位
の条件付発生確率は、第2のクラスの言語単位が発生し
た場合における第1の個々の言語単位の条件付発生確率
から推定することができる。
【0071】第2のクラスの言語単位が発生した場合に
おける第1の個々の言語単位の条件付発生確率は、第1
の個々の言語単位のトレーニング・テキストの発生数を
カウントし、そのカウントを第2のクラスの言語単位に
おけるトレーニング・テキストの言語単位の発生数で割
算することによってトレーニング・テキスト32から推
定することができる。
【0072】文脈が発生した場合における第2のクラス
の言語単位の条件付発生確率は、第1の個々の言語単位
ではなく、ワード列仮説の1以上の言語単位から成る第
1の文脈集合が発生した場合における第2のクラスの言
語単位の条件付発生確率と推定することができる。
【0073】代替的に、文脈が発生した場合における第
2のクラスの言語単位の条件付確率は、下記2つの条件
付確率(イ),(ロ)のような2以上の項の加重結合と
推定することができる。
【0074】すなわち、それらは(イ)第1の個々の言
語単位ではなく、ワード列仮説の1以上の言語単位から
成る第1の文脈集合が発生した場合における第2のクラ
スの言語単位の条件付発生確率、及び(ロ)第1の個々
の言語単位ではなく、ワード列仮説の1以上の言語単位
から成る第2の文脈集合(第1の文脈集合とは異なる)
が発生した場合における第2のクラスの言語単位の発生
確率である。
【0075】本発明による言語生成装置及び方法の操作
は下記の仮説例のように例示することができる。下記テ
ーブル1は、各言語単位が単一ワードである場合の7ク
ラス(A乃至F)の言語単位の仮説例を示すものであ
る。この仮説例において、各クラスは6ワードを含み、
それより多くはどの1クラスにも見られない。
【0076】 テーブル1 クラス ワード A 速い、迅速な、空腹な、狩猟、怒り、致死の B 列車、家、車、本、計算機、スキー C 上に、の、に、として、近くに、対する D 私の、彼の、1つの、その、何、ある E しし、たか、さめ、狼、とら、くま F 空気、森、空、山、公園、木
【0077】下記テーブル2は、クラスA乃至Fに対
し、ワード列の先行ワードW(i−1)のクラスから成
る文脈が発生した場合におけるワード列の第iワードの
クラスW(i)の条件付発生確率の仮説値を示す。前述
のように、条件付確率トレーニング・テキストのワード
発生をカウントして得ることができる。
【0078】 テーブル2 W(i−1) 確率[W(i)のクラス|W(i−1)のクラス]のクラス W(i) A B C D E F A 0.047 0.0208 0.025 0.0236 0.0869 0.0028 B 0.013 0.0005 0.026 0.0466 0.0147 0.0262 C 0.0588 0.0291 0.0043 0.0291 0.0269 0.0673 D 0.0224 0.0208 0.0499 0.0006 0.0159 0.0022 E 0.0093 0.0356 0.024 0.0651 0.0004 0.034 F 0.0084 0.0448 0.0448 0.0474 0.0397 0.0003
【0079】図3はワード列仮説の第2先行ワードW
(i−2)のクラスから成る文脈が発生した場合におけ
るワード列のワードW(i)のクラスの条件付発生確率
の仮説値を示す。条件付確率はトレーニング・テキスト
のワード発生をカウントすることによって取得すること
ができる。
【0080】 テーブル3 W(i−2) 確率[W(i)のクラス|W(i−2)のクラス]のクラス W(i) A B C D E F A 0.0016 0.0049 0.047 0.0038 0.0113 0.0513 B 0.0518 0.0432 0.0011 0.0313 0.0135 0.007 C 0.034 0.041 0.0318 0.0291 0.0405 0.0329 D 0.021 0.0324 0.0443 0.0076 0.0421 0.0518 E 0.0086 0.0232 0.0405 0.0383 0.0005 0.041 F 0.0194 0.0157 0.0318 0.0281 0.0291 0.0475
【0081】テーブル4は、各クラスA乃至Fについ
て、ワードW(i)を含むクラスC[W(i)]が発生
した場合におけるワード列仮説のワードW(i)の条件
付発生確率に対する仮説値を示す。
【0082】 テーブル4 確率[W(i)|W(i)のクラス] W(i) 速い 迅速な 空腹な 狩猟 怒り 致死の P{W(i)|C[W(i)] } 0.224 0.198 0.407 0.041 0.033 0.097 W(i) 列車 家 車 本 計算機 スキー P{W(i)|C[W(i)] } 0.336 0.179 0.294 0.01 0.006 0.175 W(i) 上に の に として 近くに 対する P{W(i)|C[W(i)] } 0.134 0.142 0.167 0.064 0.297 0.196 W(i) 私の 彼の 1つの その 何 ある P{W(i)|C[W(i)] } 0.177 0.159 0.083 0.198 0.181 0.201 W(i) しし たか さめ 狼 とら くま P{W(i)|C[W(i)] } 0.184 0.212 0.241 0.071 0.027 0.265 W(i) 空気 森 空 山 公園 木 P{W(i)|C[W(i)] } 0.249 0.123 0.145 0.055 0.257 0.17
【0083】テーブル5は4つの異なるワード列仮説の
ワードWiに対する一単位の仮説記録を示す。一単位の
仮説記録はテーブル2,3、及び4の条件付確率値を使
用して得られたものである。この仮説例において、先行
ワードのクラスが指定され、第2番先行ワードのクラス
が指定された場合におけるW(i)のクラスの条件付確
率がそれぞれ0.75及び0.25だけ重み付け又は加
重される。
【0084】 テーブル5 一単位の仮説記録 P(C(W i )| P(C(W i )| P(C(W i )|構成 構成 加重i-2 i-1 i C(Wi-1)) C(Wi-2)) C(Wi )) 要素 要素 結合 その 怒り さめ 0.0869 0.0421 0.241 0.0209 0.0101 0.0182 その 怒り 公園 0.0028 0.0518 0.257 0.0007 0.0133 0.0039 近く その スキー 0.0208 0.041 0.175 0.0036 0.0072 0.0045 近く その 空 0.0022 0.0329 0.145 0.0003 0.0048 0.0014 重み=0.75 0.25
【0085】同様な方法に従い、各仮説の各他のワード
に対する一単位の仮説記録を得ることができる。その
後、各仮説に対するワード列仮説記録は仮説の全ワード
に対する一単位の仮説記録を結合することによって取得
することができる。一単位の記録が推定された確率を表
わしたときに、その記録は掛算により結合することがで
きる。一単位の記録が確率の推定されたアルゴリズムを
表わしたときに、その記録は加算により結合することが
できる。
【0086】テーブル5の仮説例に戻り、ワード列“そ
の怒りさめ”と“その怒り公園”との間で、最初の2ワ
ードの一単位の仮説記録は両仮説とも同一である。故
に、“その怒りさめ”に対するワード列仮説記録は“そ
の怒り公園”に対するワード列仮説記録より良いであろ
う(この場合、より高いことはより良いことである)。
従って、ワード列“その怒りさめ”及び“その怒り公
園”間では、“その怒りさめ”が表示されるであろう。
【0087】同様に、ワード列“近くそのスキー”及び
“近くその空”間において、最初の2ワードの一単位の
仮説記録は両仮説共同一である。故に、“近くそのスキ
ー”に対するワード列仮説記録は“近くその空”に対す
るワード列仮説記録より良いであろう(この場合、より
高いことはより良いことである)。従って、ワード列
“近くそのスキー”及び“近くその空”間では“近くそ
のスキー”が表示される。
【0088】本発明による言語生成装置及び方法に対す
る1以上の言語単位から成る文脈集合と、言語単位のク
ラスとは、観察事象集合を分類する装置及び方法を使用
して得ることができる。その観察事象集合の各事象は予
測機能及び類別機能を有する。予測機能は2以上の異な
る可能値の1つを有し、類別機能は2以上の異なる可能
値の1つを有する。
【0089】言語生成装置に対する言語モデルにおける
各事象は、例えば、一続きの2以上のワードW1
2 ,W3 ,W4 ,…,Wn を含むことができる。各ワ
ード列において、予測されるワードは類別機能であり、
残りのワードは予測機能である。
【0090】例えば、3ワード列(一続きの3ワード、
又は3ワードからなるワード列)において、第1及び第
2のワードは予測機能であることができ、予測される第
3のワードは類別機能であってよい。かくして、文“会
話認識は最も見込みのあるある復号化の問題として明記
される”はテーブル6に示すような3ワード事象を含
む。
【0091】 テーブル6 テキスト: “会話認識は最も見込みのあるある復号化の問題として明記される。” 3ワード事象 予測機能 類別機能 1 会話 認識 される 2 認識 される 明記 3 される 明記 として 4 明記 として ある 5 として ある 問題 6 ある 問題 の 7 問題 の 最も 8 の 最も 見込みのある 9 最も 見込みのある 復号化
【0092】図4は本発明による一組の観察事象を分類
する装置の例を示すブロック図である。この分類装置は
その事象集合の各事象の予測機能値及び類別機能値を測
定する機能値測定機能36を含む。トレーニング・テキ
ストは磁気又は他の媒体38に機械読取可能形式で記録
する場合、機能値測定機能36は媒体のデータを読取る
ために適当なハードウェア及びソフトウェアを含むこと
ができる。
【0093】観察した事象を分類する装置は、更に類別
機能値の1以上の異なる非補集合を選択する類別機能値
集合選択機能40を含む。各組の類別機能値はすべて可
能なものより少い類別機能値を含む。各事象が一続きの
nワードW1 ,W2 ,W3 ,…,Wn から成る場合、事
象の類別機能値は、例えば、ワード列の最後のワードW
n と一致することができる。そこで、各類別機能値の集
合はトレーニング・テキストのワードの全語彙の部分集
合を含む。
【0094】予測機能値集合選択機能42は予測機能値
の少くとも3つの異なる非補集合を選択する。各組の予
測機能値はすべて可能な値より少い予測機能値を含む。
各事象が一続きのnワードW1 ,W2 ,W3 ,…,Wn
から成る場合、その事象の予測機能値は、例えば、ワー
ド列の最初の(n−1)ワードW1 ,W2 ,…,Wn-1
と一致することができる。各組の予測機能値は、例え
ば、ワード列のワードWP (1 P n−1)がトレー
ニング・テキストのワードの全語彙の多数の部分集合で
ある場合、全てのワード列W1 ,W2 ,…,Wn-1 を含
む。
【0095】ワードWn に対する類別機能値の集合及び
ワードWP に対する予測機能値の集合を判別する語彙部
分集合は、トレーニング・テキストの隣接ワード{W
i-1 及びW1 }の部分集合の平均相互情報が“ハイ”で
あるというように、Vワードの語彙を2つの相互に排他
的な部分集合C1 及びC2 に区分することによって取得
することができる。平均相互情報Iは下式3によって与
えられる。
【0096】
【数1】
【0097】上式で、P(Cm 1 ,Cn 2 )は2つの隣
接するワード列{W1 ,W2 }において、最初のワード
がクラスCm にあり、第2のワードがクラスCn にある
確率である。下記のアルゴリズムは隣接ワードの部分集
合の平均相互情報がハイであるように、Vワードの語彙
を2つの部分集合の区分に使用することができる。まず
最初、語彙Vの各ワードを異なる部分集合に割当て、上
記方程式[3]から隣接するワードの部分集合間の平均
相互情報を得る。すべて可能な部分集合対に対し、その
1部分集合対が組合わされ、隣接ワードの部分集合間の
平均相互情報が計算される。平均相互情報の損失が最少
である部分集合対が組合わされて、(V−1)部分集合
のみが残る。
【0098】その語彙の各ワードは(V−1)部分集合
から最大相互情報を有する区分を生ずる部分集合に移動
する。最大平均相互情報を有する区分に導くワードの再
割当てがない場合(V−1)部分集合は完成する。2以
上のワードを同時に再割当てすることによってより高い
平均相互情報を有する区分を見付けることが可能である
かもしれないが、そのような検索は実現するためにはあ
まりにもコストが高過ぎると思われる。
【0099】その後、処理は、2つの部分集合が残るま
で、(V−1)部分集合を(V−2)部分集合に、以下
そのように、組合わせるよう繰返えされる。上記の組合
せアルゴリズムにおいて、クラスタが組合わされる順序
が2進ツリーを定義する。2進ツリーの根部はワードの
全語彙である。
【0100】2進ツリーの葉はその語彙の個々のワード
である。2進ツリーの個々のノードは類別機能値の集合
及び予測機能値の集合の判別に使用することができる追
加の語彙部分集合を定義する。図4に戻り、一次予測記
録生成装置44は予測機能値集合選択機能42からの各
予測機能値集合、及び類別機能値集合選択機能40から
の各類別機能値集合に対する一次予測記録を発生する。
【0101】各一次予測記録は、予測機能値の集合が観
察事象38の集合の全事象に対する類別機能値の1集合
の発生を如何に良く予測するかの推定を含む。手段46
は、事象の予測機能値が最良の一次予測記録を有する予
測機能値集合のメンバである場合、第1のクラスの観察
事象を分類する分類手段である。
【0102】第2の予測記録生成装置48は、最良の一
次予測記録を有する予測機能値の集合ではない予測機能
値の各集合に対し、及び類別機能値の各集合に対する二
次予測記録を発生する。
【0103】各二次予測記録は予測機能値の集合が第1
のクラスの観察事象46における第1のクラスの全事象
に対する類別機能値の1集合の発生を如何によく、又は
完全に予測するかの推定を含む。第1のクラスの観察事
象からの事象は、予測機能値が最良の二次予測記録を有
する予測機能値の集合のメンバーである場合、第1のサ
ブクラスの観察事象50に分類される。
【0104】各一次予測記録は、予測機能値の集合が予
測機能値の集合に関する一次加重係数によって加重され
た観察事象の集合の類別機能値の集合が発生することを
如何によく、又は完全に予測するかの推定を含む。各二
次予測記録は、予測機能値の集合が予測機能値の集合に
関する二次加重係数によって加重された第1のクラスの
観察事象の類別機能値の集合が発生することを如何に良
く予測するかの推定を含む。
【0105】最良の一次予測記録を有する予測機能値の
集合ではない、少くとも1つの予測機能値の集合はその
関連する二次加重係数に等しくない関連する一次加重係
数を持つ。
【0106】一組の観察事象(観察事象の集合)を分類
する装置及び方法は、更にその事象の予測機能値が最良
の二次予測記録を有する予測機能値の集合のメンバーで
はない場合に、第2のサブクラスの第1のクラスの事象
からの事象を分類する手段を含むことができる。
【0107】予測機能値の集合Bに対し、及び類別機能
値の集合Yに対する予測記録は、例えば、予測機能値の
集合による事象の2進分割があった場合、類別機能値の
集合による事象の2進分割の条件付エントロピーH(Y
|B)であることができる。
【0108】
【数2】
【0109】
【数3】
【0110】上記方程式5において、Pは試験データか
ら推定した確率分布を表わし、Mはトレーニング・デー
タから得られた確率分布を表わす。1例においては、使
用可能なデータの全てが1トレーニング集合及び1試験
集合に分割することができる。P及びMの確率分布はそ
れぞれ試験集合及びトレーニング集合の事象により判別
される。
【0111】代替的に、データの全集合はLセグメント
に区分することができ、そして各事象はLセグメントの
1つと共同する。クロス−エントロピーは試験データと
してそのセグメントを使用し、及びトレーニング・デー
タとして他のセグメントのすべてに所属する残るデータ
のすべてを使用して、各セグメントにつき計算される。
そこで、セグメントに対するクロス−エントロピーは総
和して合計クロス−エントロピーを得る。
【0112】他の代替として、予測機能値の集合Bに対
し、及び類別機能値の集合Yに対する予測記録は集合B
が指定され、予測機能値の他の集合B′が指定された場
合における集合Yの条件付エントロピーH(Y|B,
B′n ) を推定することによって次の分類レベルの方に
先見することができる。
【0113】
【数4】
【0114】類別機能値の集合Y、及び予測機能値の集
合Bに対する予測記録は予測機能値の全集合B′n に対
する方程式6から得られる最良の(この場合、最小の)
値のH(Y|B,B′n )である。
【0115】本発明による言語生成装置及び方法、観察
事象の集合を分類する装置及び方法、及び会話認識装置
は適切にプログラムされたコンピュータシステムの形式
であるのが好ましい。
【0116】かかるシステムにおいて、ワード出力26
は陰極線管又は液晶表示装置のような表示装置であるこ
とができる。代替的に、ワード出力26はラウドスピー
カを有する会話シンセサイザのような音響発生器でもよ
い。ワード列仮説の候補を記録する手段及び他の記録手
段は電子読取書込メモリーを含むことができる。
【0117】次に、図5に基づき、音響プロセッサ12
(図2)の1例について説明する。測定手段は発音に対
応するアナログ電気信号を発生するマイクロホン52を
含む。マイクロホン52から発生したアナログ電気信号
はアナログ−ディジタル変換装置54によってディジタ
ル電気信号に変換される。アナログ−ディジタル変換装
置54による変換のため、例えば、20KHz の速度でア
ナログ信号を標本化することができる。
【0118】ウインドウ生成装置56は、例えば、10
ミリ秒(1センチ秒)ごとにアナログ−ディジタル変換
装置54からディジタル信号の20ミリ秒期間サンプル
を取得する。ディジタル信号の各20ミリ秒サンプルは
スペクトル解析機能58によって解析され、例えば、2
0周波数帯域の各々におけるディジタル信号サンプルの
振幅が得られる。
【0119】又、スペクトル解析機能58は20ミリ秒
ディジタル信号サンプルの合計振幅又は合計電力を表わ
す第21次元信号を発生するものであることが望まし
い。スペクトル解析機能58は、例えば、速いフーリエ
変換プロセッサでよい。代替的に、それは20周波数帯
域通過フィルタ列でもよい。
【0120】スペクトル解析機能58から生成された第
21次元ベクトル信号は最適又は適応雑音消去プロセッ
サ60による背景雑音の除去が適用される。適応雑音消
去プロセッサ60は雑音消去プロセッサに入力された機
能ベクトルF(t)から雑音ベクトルN(t)を減算し
て出力機能ベクトルF′(t)を生成する。雑音消去プ
ロセッサ60は、先行機能ベクトルF(t−1)が雑音
又は無音と識別されたときには、常に雑音ベクトルN
(t)を周期的に更新することによって雑音レベルを変
更するよう適用することができる。
【0121】雑音ベクトルN(t)は次の方程式7に従
い更新される。 N(t)=N(t−1)+k[F(t−1)−Fp(t−1)] …[7]
【0122】上式において、N(t)は時間tにおける
雑音ベクトル、N(t−1)は時間(t−1)における
雑音ベクトル、kは最適雑音消去モデルの固定パラメー
タ、F(t−1)は時間(t−1)において雑音消去プ
ロセッサ60に入力され雑音か無音かを表わす機能ベク
トル、Fp(t−1)は記録手段62からの機能ベクト
ルF(t−1)に最も近い1無音又は雑音原型ベクトル
である。
【0123】先行機能ベクトルF(t−1)は、(イ)
ベクトルの合計エネルギがしきい値以下であるか、又は
(ロ)機能ベクトルに対する適応原型ベクトル記録機能
64に適合する最近の原型ベクトルが雑音か無音を表わ
す原型であるか、のどちらかの場合、雑音又は無音と認
められる。機能ベクトルの合計エネルギの解析のため、
しきい値は、例えば、機能ベクトルが評価される2秒前
に発生した全機能ベクトル(会話及び無音の両方によ
る)の第5の100分位数であることができる。
【0124】雑音消去の後、機能ベクトルF′(t)は
短期平均正規化プロセッサ66により、入力会話の大き
さの変化を調節するよう正規化される。正規化プロセッ
サ66は第21次元機能ベクトルF′(t−1)を正規
化して第20次元正規化機能ベクトルX(t)を生成す
る。合計振幅又は合計電力を表わす第21次元の機能ベ
クトルF′(t)は廃棄される。
【0125】時間tにおける正規化された機能ベクトル
X(t)の各成分iは、例えば、対数定義域において下
記方程式8により与えることができる。 Xi (t)=F′i (t)−Z(t) …[8]
【0126】上式において、F′i (t)は時間tにお
ける非正規化ベクトルの第i成分、Z(t)は、下記方
程式9及び10によるZ(t−1)及びF′(t)の成
分の重み付け又は加重手段である。
【0127】
【数5】
【0128】正規化された第20次元機能ベクトルX
(t)は会話音の発音の変化に適応することができるよ
う適応ラベラ68によって更に処理することができる。
適合する第20次元機能ベクトルX′(t)は適応ラベ
ラ68の入力に供給された第20次元機能ベクトルX
(t)から第20次元適応ベクトルA(t)を減算する
ことによって生成される。
【0129】時間tにおける適応ベクトルA(t)は、
例えば、下記方程式11で与えることができる。 A(t)=A(t−1)+k[X(t−1)−Xp(t−1)] …[11] 上式において、kは適応ラベリング・モデルの固定パラ
メータ、X(t−1)は時間(t−1)において適応ラ
ベラ68に入力された正規化第20次元ベクトル、Xp
(t−1)は時間(t−1)において第20次元機能ベ
クトルX(t−1)に最近の適応原型ベクトル(適応原
型ベクトル記録装置64からの)、A(t−1)は、時
間(t−1)における適応ベクトルである。
【0130】適応ラベラ68からの第20次元適応機能
ベクトル信号X′(t)は聴覚モデル70に供給するこ
とができる。聴覚モデル70は、例えば、人間の聴覚系
が如何に音信号を知覚するかのモデルを供給することが
できる。聴覚モデルの例としては、エル・アール・バー
ルほかによる“有効な記録機能及び音声学グラフの急速
アセンブリを有する会話認識システム”と称する米国特
許第4,980,918号に記述されている。
【0131】好ましくは、本発明によると、時間tにお
ける適応機能ベクトル信号X′(t)の各周波数帯域i
のため、聴覚モデル70は下記方程式12及び13に従
い新パラメータEi (t)を計算する。 Ei (t)=K1 +K2(X′i (t))(Ni (t−1)) …[12] ここで、 Ni (t)=K3 ×Ni (t−1)−Ei (t−1) …[13] 又、上式において、K1 2 、及びK3 は聴覚モデルの
固定パラメータである。
【0132】聴覚モデル70の出力は、各センチ(1/
100)秒時間間隔に対する変更した第20次元機能ベ
クトル信号である。この機能ベクトルは他の第20次元
の値の平方の和の平方根に等しい値を有する第21次元
だけ増加する。
【0133】連結機能72は、好ましくは、各センチ秒
時間間隔の間に、1つの現行センチ秒時間間隔と、4つ
の先行センチ秒時間間隔と、4つの後続センチ秒時間間
隔とを表わす9個の21次元機能ベクトルを連結して、
189次元の単一接合ベクトルを形成する。各189次
元接合ベクトルは、好ましくは、回転機能74において
回転行列により乗算され、接合ベクトルを回転して、そ
れを50次元に減少する。
【0134】回転機能74で使用される回転マトリック
スは、例えば、トレーニング期間中に得られた189次
元接合ベクトルの集合をMクラスに分類することによっ
て得ることができる。トレーニングした集合の全接合ベ
クトルに対する共分散マトリックスの逆元はMクラスす
べての全接合ベクトルに対する内部サンプル共分散マト
リックスによって乗算される。
【0135】発生したマトリックスの最初の50固有ベ
クトルは回転マトリックスを形成する。例えば、エル・
アール・バールほかによる“個別パラメータ音素基本マ
ルコフ・ワード・モデルを使用した会話認識システム用
ベクトル量子化手順”(IBM技術開示技報、 Vol.34,
No.7, 1989 年12月、340 〜341 頁)を参照するとよ
い。
【0136】ウインドウ生成装置56、スペクトル解析
機能58、適応雑音消去プロセッサ60、短期平均正規
化プロセッサ66、適応ラベラ68、聴覚モデル70、
連結機能72、及び回転機能74は適当にプログラムさ
れた特殊目的又は汎用ディジタル信号プロセッサであっ
てよい。原型記録機能62及び64は電子コンピュータ
・メモリーでよい。
【0137】
【発明の効果】本発明は、上記のように構成したことに
より、簡単に、すなわち、相当少数のパラメータ及びト
レーニング・テキストを使用して、条件付予測ワードの
確率が高く且つ正確な言語モデルの推定を実行し、ワー
ド列のような観察事象の集合を分類して正確且つ精密な
言語モデルを生成することができる。
【図面の簡単な説明】
【図1】本発明の一実施例による言語生成装置を示すブ
ロック図
【図2】本発明の一実施例による言語生成装置用ワード
列仮説生成装置のブロック図
【図3】本発明の一実施例による言語生成装置用一単位
の仮説記録生成装置のブロック図
【図4】本発明の一実施例による観察事象の集合分類装
置のブロック図
【図5】本発明の一実施例によるワード列仮説生成装置
用音響プロセッサのブロック図
【符号の説明】
10 ワード列仮説生成装置 12 音響プロセッサ 14 音響一致記録生成装置 16 音響モデル記憶装置 20 一単位の仮説記録生成装置 22 ワード列仮説記録生成装置 24 ワード列仮説の最良候補記録装置 26 ワードの出力
フロントページの続き (72)発明者 ステフェン・アンドリュー・デラ・ピート ラ アメリカ合衆国10965、ニューヨーク州、 パール・リバー、マイヤ・オバール、113 番地 (72)発明者 ビンセント・ジョセフ・デラ・ピートラ アメリカ合衆国10913、ニューヨーク州、 ブローベルト、サンセット・ロード、129 番地 (72)発明者 ロバート・レロイ・マーサー アメリカ合衆国10598、ニューヨーク州、 ヨークタウン・ハイツ、ビューランド・ド ライブ、669番地 (72)発明者 フィリップ・エス・レズニク アメリカ合衆国19104、ペンシルベニア州、 フィラデルフィア、ランキャスター・アベ ニュー、3514番地、アパート205 (72)発明者 スタンレイ・エス・チェン アメリカ合衆国02138、マサチューセッツ 州、ケンブリッジ、マートル・アベニュ ー、25番地

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 ワード列仮説を表わす各ワード列仮説信
    号が一続きの言語単位から成り、各言語単位が言語から
    選ばれた1以上のワードから成る、2以上の前記ワード
    列仮説信号を生成する手段と、 一単位の仮説記録を表わす各一単位の仮説記録信号はワ
    ード列仮説の個々の言語単位発生確率の推定から成り、
    各前記ワード列仮説の各言語単位に対して前記一単位の
    仮説記録信号を生成する手段と、 各ワード列仮説記録信号はワード列仮説の前記言語単位
    に対する一単位の仮説記録の組合せから成り、各前記ワ
    ード列仮説に対して前記ワード列仮説記録信号を生成す
    る手段と、 最良のワード列仮説記録を有するワード列仮説の候補を
    表わす1以上のワード列仮説候補信号を記録する手段
    と、 少くとも1つのワード列仮説の最良候補の少くとも1ワ
    ードを表わす少くとも1ワード信号を出力する手段とを
    含み、 第1の個々の言語単位に対する前記一単位の仮説記録信
    号を生成する手段は、 第1の個々の言語単位ではないワード列仮説の言語単位
    から成る文脈が発生した場における前記第1の個々の言
    語単位から成る第1のクラスの言語単位の条件付発生確
    率を推定する手段と、 第1のクラスの言語単位が発生し、及び文脈が発生した
    場合における第1の個々の言語単位の条件付発生確率を
    推定する手段と、 文脈が発生した場合における第1のクラスの言語単位の
    推定による条件付発生確率と、第1のクラスが発生し、
    及び文脈が発生した場合における第1の個々の言語単位
    の推定による条件付発生確率との組合せから成る第1の
    構成要素の記録を含む前記第1の個々の言語単位に対し
    一単位の仮説記録信号を生成する手段とから成ることを
    特徴とする言語生成装置。
  2. 【請求項2】 前記第1のクラスの言語単位が発生し、
    及び前記文脈が発生した場合における前記第1の個々の
    言語単位の条件付発生確率は前記第1のクラスの言語単
    位が発生した場合における前記第1の個々の言語単位の
    条件付発生確率によって推定されることを特徴とする請
    求項1記載の言語生成装置。
  3. 【請求項3】 前記文脈が発生した場合における前記第
    1のクラスの言語単位の条件付発生確率は、前記第1の
    個々の言語単位ではないワード列仮説の1以上の言語単
    位から成る第1の文脈集合が発生した場合における前記
    第1のクラスの言語単位の条件付発生確率によって推定
    されることを特徴とする請求項1記載の言語生成装置。
  4. 【請求項4】 前記文脈が発生した場合における前記第
    1のクラスの言語単位の条件付発生確率は、 前記第1の個々の言語単位ではない前記ワード列仮説の
    1以上の言語単位から成る第1の文脈集合が発生した場
    合における前記第1のクラスの言語単位の条件付発生確
    率と、 前記第1の文脈集合とは異なる第2の文脈集合が発生し
    た場合における前記第1の個々の言語単位ではないワー
    ド列仮説の1以上の言語単位から成る第1のクラスの言
    語単位の条件付発生確率との加重組合せとして推定する
    ことを特徴とする請求項1記載の言語生成装置。
  5. 【請求項5】 前記第1の個々の言語単位に対する一単
    位の仮説記録信号を生成する手段は、更に、 前記第1の個々の言語単位ではないワード列仮説の言語
    単位から成る文脈が発生した場合における前記第1の個
    々の言語単位から成る第2のクラスの言語単位の条件付
    発生確率を推定する手段と、 前記第2のクラスの言語単位が発生し、及び前記文脈が
    発生した場合における第1の個々の言語単位の条件付発
    生確率を推定する手段と、 前記文脈が発生した場合における前記第2のクラスの言
    語単位の推定条件付発生確率と、前記第2のクラスの言
    語単位が発生し、及び前記文脈が発生した場合における
    前記第1の個々の言語単位の推定による条件付発生確率
    との組合せから成る第2の構成要素の記録を生成する手
    段と、 前記第1の構成要素の記録と前記第2の構成要素の記録
    との加重組合せから成る第1の個々の言語単位に対する
    一単位の仮説記録を生成する手段とから成ることを特徴
    とする請求項1記載の言語生成装置。
  6. 【請求項6】 前記2以上のワード列仮説信号を生成す
    る手段は、 一続きの連続時間間隔の各々に対する発音の少くとも1
    機能値を測定して、該機能値を表わす一続きの音響機能
    信号を作成する音響プロセッサと、 各音響一致記録がワード列仮説の音響モデルと前記一続
    きの音響機能信号との間の一致の接近の推定から成り、
    複数のワード列仮説の各々に対する前記音響一致記録を
    生成する手段と、 前記最良の音響一致記録を有するワード列仮説を表わす
    2以上のワード列仮説信号を生成する手段とから成るこ
    とを特徴とする請求項1記載の言語生成装置。
  7. 【請求項7】 ワード列仮説を表わす各ワード列仮説信
    号は一続きの言語単位から成り、各言語単位は言語から
    選ばれた1以上のワードから成る2以上の前記ワード列
    仮説信号を生成し、 一単位の仮説記録を表わす各一単位の仮説記録信号はワ
    ード列仮説の個々の言語単位発生確率の推定から成り、
    各前記ワード列仮説の各言語単位に対し前記一単位の仮
    説記録信号を生成し、 各ワード列仮説記録信号はワード列仮説の前記言語単位
    に対する一単位の仮説記録の組合せから成り、各前記ワ
    ード列仮説に対し前記ワード列仮説記録信号を生成し、 最良のワード列仮説記録を有するワード列仮説の候補を
    表わす1以上のワード列仮説候補信号を記録し、 少くとも1つのワード列仮説の最良候補の少くとも1ワ
    ードを表わす少くとも1ワード信号を出力する各工程を
    含み、 第1の個々の言語単位に対する前記一単位の仮説記録信
    号を生成する工程は、 第1の個々の言語単位ではないワード列仮説の言語単位
    から成る文脈が発生した場合における前記第1の個々の
    言語単位から成る第1のクラスの言語単位の条件付発生
    確率を推定し、 第1のクラスの言語単位が発生し、及び文脈が発生した
    場合における第1の個々の言語単位の条件付発生確率を
    推定し、 文脈が発生した場合における第1のクラスの言語単位の
    推定による条件付発生確率と、第1のクラスが発生し、
    文脈が発生した場合における第1の個々の言語単位の推
    定による条件付発生確率との組合せから成る前記第1の
    個々の言語単位に対する一単位の仮説記録信号を生成す
    る各工程から成ることを特徴とする言語生成方法。
  8. 【請求項8】 前記第1の個々の言語単位に対する一単
    位の仮説記録信号を生成する工程は、更に、 前記第1の個々の言語単位ではないワード列仮説の言語
    単位から成る文脈が発生した場合における前記第1の個
    々の言語単位から成る第2のクラスの言語単位の条件付
    発生確率を推定し、 前記第2のクラスの言語単位が発生し、及び前記文脈が
    発生した場合における第1の個々の言語単位の条件付発
    生確率を推定し、 前記文脈が発生した場合における前記第2のクラスの言
    語単位の推定による条件付発生確率と、前記第2のクラ
    スの言語単位が発生し、及び前記文脈が発生した場合に
    おける前記第1の個々の言語単位の推定による条件付発
    生確率との組合せから成る第2の構成要素の記録を生成
    し、 前記第1の構成要素の記録と前記第2の構成要素の記録
    との加重組合せから成る第1の個々の言語単位に対する
    一単位の仮説記録を生成する各工程から成ることを特徴
    とする請求項7記載の言語生成方法。
  9. 【請求項9】 各事象が2以上の異なる可能値の1を有
    する予測機能と2以上の異なる可能値の1を有する類別
    機能とを有する観察事象の集合を分類する装置であっ
    て、 前記事象の集合における各事象の予測機能値及び類別機
    能値を測定する手段と、 各集合がすべての可能な類別機能値より少い値を含む1
    以上の異なる類別機能値の非補集合を選択する手段と、 各予測機能値の集合がすべての可能な予測機能値より少
    い値を含む少くとも3つの異なる予測機能値の非補集合
    を選択する手段と、 各一次予測記録は前記予測機能値の集合が前記観察事象
    の集合の全事象に対する1類別機能値集合の発生を如何
    に完全に予測するかの推定を含み、予測機能値の各集合
    及び類別機能値の各集合に対し前記一次予測記録を生成
    する手段と、 事象の予測機能値が最良の一次予測記録を有する予測機
    能値集合のメンバである場合に第1のクラスの事象を分
    類する手段と、 各二次予測記録は前記予測機能値の集合が前記観察事象
    の集合の全事象に対する1類別機能値集合の発生を如何
    に完全に予測するかの推定を含み、前記最良の一次予測
    記録を有する予測機能値の集合ではない予測機能値の各
    集合に対し、及び類別機能値の各集合に対し、前記二次
    予測記録を生成する手段と、 前記事象の予測機能値が最良の二次予測記録を有する予
    測機能値の集合のメンバである場合、第1のサブクラス
    の第1のクラスの事象からの事象を分類する手段とから
    成り、 各前記一次予測記録は前記予測機能値の集合が該予測機
    能値の集合に対する一次加重係数によって加重された観
    察事象の集合における類別機能値集合の発生を如何に完
    全に予測するかの推定を含み、 各前記二次予測記録は前記予測機能値の集合が該予測機
    能値の集合に対する二次加重係数によって加重された第
    1のクラスの観察事象における類別機能値集合の発生を
    如何に完全に予測するかの推定を含み、 最良の一次予測記録を有する予測機能値の集合ではない
    少くとも1集合の予測機能値は関連する二次加重係数に
    等しくない関連する一次加重係数を有することを特徴と
    する観察事象集合分類装置。
  10. 【請求項10】 各事象が2以上の異なる可能値の1を
    有する予測機能と、2以上の異なる可能値の1を有する
    類別機能とを有する観察事象の集合を分類する方法であ
    って、 前記事象の集合における各事象の予測機能値及び類別機
    能値を測定し、 各集合がすべての可能な類別機能値より少い値を含む1
    以上の異なる類別機能値の非補集合を選択し、 各予測機能値の集合がすべての可能な予測機能値より少
    い値を含む少くとも3つの異なる予測機能値の非補集合
    を選択し、 各一次予測記録は前記予測機能値の集合が前記観察事象
    の集合の全事象に対する1類別機能値集合の発生を如何
    に完全に予測するかの推定を含み、予測機能値の各集合
    及び類別機能値の各集合に対し前記一次予測記録を生成
    し、 事象の予測機能値が最良の一次予測記録を有する予測機
    能値集合のメンバである場合に第1のクラスの事象を分
    類し、 各二次予測記録は前記予測機能値の集合が前記観察事象
    の集合の全事象に対する1類別機能値集合の発生を如何
    に完全に予測するかの推定を含み、前記最良の一次予測
    記録を有する予測機能値の集合ではない予測機能値の各
    集合に対し、及び類別機能値の各集合に対し前記二次予
    測記録を生成し、 前記事象の予測機能値が最良の二次予測記録を有する予
    測機能値の集合のメンバである場合、第1のサブクラス
    の第1のクラスの事象からの事象を分類する各工程から
    成り、 各前記一次予測記録は前記予測機能値の集合が該予測機
    能値の集合に対する一次加重係数によって加重された観
    察事象の集合における類別機能値集合の発生を如何に完
    全に予測するかの推定を含み、 各前記二次予測記録は前記予測機能値の集合が該予測機
    能値の集合に対する二次加重係数によって加重された第
    1のクラスの観察事象における類別機能値集合の発生を
    如何に完全に予測するかの推定を含み、 最良の一次予測記録を有する予測機能値の集合ではない
    少くとも1集合の予測機能値は関連する二次加重係数に
    等しくない関連する一次加重係数を有することを特徴と
    する観察事象集合分類方法。
  11. 【請求項11】 認識されるべき発音の符号化表示列を
    出力する音響プロセッサと、 各音響一致記録はワード列仮説のモデルと前記発音の符
    号化表示列との間の一致の接近の推定から成り、各ワー
    ド列仮説は2以上のワードから成る、複数のワード列仮
    説の各々に対し前記音響一致記録を生成する手段と、 最良の音響一致記録を有するワード列仮説を表わす2以
    上のワード列仮説候補信号を生成する手段と、 各単一ワード文脈記録は第1の個々のワードではないワ
    ード列仮説の1以上のワードから成る文脈集合が発生し
    た場合における前記第1の個々のワードの条件付発生確
    率の推定を含み、各ワード列仮説の候補の各ワードに対
    し前記単一ワード文脈記録を生成する手段と、 各ワード列文脈記録はワード列仮説の各ワードに対する
    単一ワード文脈記録の組合せから成り、各前記ワード列
    仮説に対し前記ワード列文脈記録を生成する手段と、 最良に組合された音響一致記録及び文脈記録を有するワ
    ード列仮説の候補を表わす1以上のワード列仮説の最良
    候補信号を記録する手段と、 少くとも1つのワード列仮説の最良候補の少くとも1ワ
    ードを出力する手段とから成り、 前記文脈の集合は、 各ワード列が少くとも1つの予測ワードと類別ワードと
    を有する2以上のワードの列の集合を供給し、 類別ワードの各集合はすべての可能な類別ワードより少
    いワードを含む、前記類別ワードの1以上の異なる非補
    集合を選択し、 予測ワードの各集合は第1の個々のワードではないワー
    ド列仮説の1以上のワードを含み、予測ワードの各集合
    はすべての可能な予測ワードより少いワードを含む、前
    記予測ワードの少くとも3つの異なる非補集合を選択
    し、 各一次予測記録は前記予測ワードの集合が前記ワード列
    の集合におけるすべてのワード列に対する類別ワードの
    1集合の発生を如何に完全に予測するかの推定を含み、
    予測記録の各集合に対し、及び類別ワードの各集合に対
    して前記一次予測記録を生成し、 前記ワード列の予測ワードが最良の一次予測記録を有す
    る予測ワード集合のメンバである場合ワード列を第1の
    クラスに分類し、 各二次予測記録は前記予測ワードの集合が第1のクラス
    のワード列におけるすべてのワード列に対する類別ワー
    ドの1集合の発生を如何に完全に予測するかの推定を含
    み、類別ワードの各集合に対し、及び最良の一次予測記
    録を有する前記予測ワードの集合ではない予測ワードの
    各集合に対して前記二次予測記録を生成し、 前記ワード列の予測ワードが最良の二次予測記録を有す
    る予測ワードの集合のメンバである場合、第1のサブク
    ラスにおける第1のクラスのワード列からワード列を分
    類する各工程によって生成され、 各一次予測記録は前記予測ワードの集合が該予測ワード
    の集合に対する一次加重係数によって加重されたワード
    列の集合における類別ワードの集合の発生を如何に完全
    に予測するかの推定を含み、 各二次予測記録は前記予測ワードの集合が該予測ワード
    の集合に対する二次加重係数によって加重された前記第
    1のクラスのワード列における類別ワードの集合の発生
    を如何に完全に予測するかの推定を含み、 最良の一次予測記録を有する予測ワードの集合ではない
    予測ワードの少くとも1集合が関連する二次加重係数に
    等しくない関連する一次加重係数を有することを特徴と
    する会話認識装置。
JP4350244A 1992-02-10 1992-12-04 ワードを予測する会話認識装置用言語生成装置及び方法 Expired - Lifetime JPH07107640B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/834,063 US5267345A (en) 1992-02-10 1992-02-10 Speech recognition apparatus which predicts word classes from context and words from word classes
US834063 1992-02-10

Publications (2)

Publication Number Publication Date
JPH05289692A true JPH05289692A (ja) 1993-11-05
JPH07107640B2 JPH07107640B2 (ja) 1995-11-15

Family

ID=25266001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4350244A Expired - Lifetime JPH07107640B2 (ja) 1992-02-10 1992-12-04 ワードを予測する会話認識装置用言語生成装置及び方法

Country Status (3)

Country Link
US (1) US5267345A (ja)
EP (1) EP0555545A1 (ja)
JP (1) JPH07107640B2 (ja)

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850627A (en) * 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
KR950704772A (ko) * 1993-10-15 1995-11-20 데이비드 엠. 로젠블랫 시스템 트레이닝 방법, 트레이닝된 장치 및 그 사용 방법(A method for training a system, the resulting apparatus, and method of use thereof)
US5680509A (en) * 1994-09-27 1997-10-21 International Business Machines Corporation Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
ES2164870T3 (es) * 1995-03-07 2002-03-01 British Telecomm Reconocimiento del habla.
CA2220004A1 (en) * 1995-05-26 1996-11-28 John N. Nguyen Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5903864A (en) * 1995-08-30 1999-05-11 Dragon Systems Speech recognition
GB2305288A (en) * 1995-09-15 1997-04-02 Ibm Speech recognition system
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
US5737433A (en) * 1996-01-16 1998-04-07 Gardner; William A. Sound environment control apparatus
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6112172A (en) * 1998-03-31 2000-08-29 Dragon Systems, Inc. Interactive searching
JP4438028B2 (ja) * 1998-07-27 2010-03-24 キヤノン株式会社 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
DE19842405A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Spracherkennungsverfahren mit Konfidenzmaßbewertung
US6393399B1 (en) 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US7403888B1 (en) 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6529866B1 (en) * 1999-11-24 2003-03-04 The United States Of America As Represented By The Secretary Of The Navy Speech recognition system and associated methods
US6697769B1 (en) * 2000-01-21 2004-02-24 Microsoft Corporation Method and apparatus for fast machine training
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7047493B1 (en) 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7107204B1 (en) 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6925432B2 (en) * 2000-10-11 2005-08-02 Lucent Technologies Inc. Method and apparatus using discriminative training in natural language call routing and document retrieval
US7039579B2 (en) * 2001-09-14 2006-05-02 International Business Machines Corporation Monte Carlo method for natural language understanding and speech recognition language models
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
US8165870B2 (en) * 2005-02-10 2012-04-24 Microsoft Corporation Classification filter for processing data for creating a language model
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7805305B2 (en) * 2006-10-12 2010-09-28 Nuance Communications, Inc. Enhancement to Viterbi speech processing algorithm for hybrid speech models that conserves memory
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101295293B (zh) * 2007-04-29 2010-06-02 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10636428B2 (en) * 2017-06-29 2020-04-28 Microsoft Technology Licensing, Llc Determining a target device for voice command interaction
US10438095B2 (en) * 2017-08-04 2019-10-08 Medallia, Inc. System and method for cascading image clustering using distribution over auto-generated labels
US10325597B1 (en) 2018-10-08 2019-06-18 Sorenson Ip Holdings, Llc Transcription of communications
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01224796A (ja) * 1988-02-05 1989-09-07 American Teleph & Telegr Co <Att> スピーチ部分の決定方法
JPH0320800A (ja) * 1989-02-21 1991-01-29 Texas Instr Inc <Ti> 音声認識方法および装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
EP0242743B1 (en) * 1986-04-25 1993-08-04 Texas Instruments Incorporated Speech recognition system
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01224796A (ja) * 1988-02-05 1989-09-07 American Teleph & Telegr Co <Att> スピーチ部分の決定方法
JPH0320800A (ja) * 1989-02-21 1991-01-29 Texas Instr Inc <Ti> 音声認識方法および装置

Also Published As

Publication number Publication date
JPH07107640B2 (ja) 1995-11-15
US5267345A (en) 1993-11-30
EP0555545A1 (en) 1993-08-18

Similar Documents

Publication Publication Date Title
JPH05289692A (ja) ワードを予測する会話認識装置用言語生成装置及び方法
US4718094A (en) Speech recognition system
US5293584A (en) Speech recognition system for natural language translation
US5949961A (en) Word syllabification in speech synthesis system
US5933806A (en) Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US5467425A (en) Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JPWO2004034378A1 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Bluche et al. Predicting detection filters for small footprint open-vocabulary keyword spotting
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
Robinson The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system
CN111179914B (zh) 一种基于改进动态时间规整算法的语音样本筛选方法
Ikawa et al. Generating sound words from audio signals of acoustic events with sequence-to-sequence model
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
Ravi et al. Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals
Chetupalli et al. Context dependent RNNLM for automatic transcription of conversations