JP2775140B2 - パターン認識方法、音声認識方法および音声認識装置 - Google Patents

パターン認識方法、音声認識方法および音声認識装置

Info

Publication number
JP2775140B2
JP2775140B2 JP6048694A JP4869494A JP2775140B2 JP 2775140 B2 JP2775140 B2 JP 2775140B2 JP 6048694 A JP6048694 A JP 6048694A JP 4869494 A JP4869494 A JP 4869494A JP 2775140 B2 JP2775140 B2 JP 2775140B2
Authority
JP
Japan
Prior art keywords
pattern
score
function
parameter
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6048694A
Other languages
English (en)
Other versions
JPH07261784A (ja
Inventor
隆 小森
滋 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Ningen Joho Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Ningen Joho Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Ningen Joho Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Ningen Joho Tsushin Kenkyusho Kk
Priority to JP6048694A priority Critical patent/JP2775140B2/ja
Priority to US08/405,674 priority patent/US5749069A/en
Publication of JPH07261784A publication Critical patent/JPH07261784A/ja
Application granted granted Critical
Publication of JP2775140B2 publication Critical patent/JP2775140B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、パターン認識方法、
音声認識方法および音声認識装置に関し、特に、事後オ
ッズを用いたパターン認識方法、音声認識方法および音
声認識装置に関する。
【0002】
【従来の技術および発明が解決しようとする課題】人間
による自然な発話は、必ずしも文法規則に従うとは限ら
ないうえ、間投詞や舌打ちなど様々な音響現象が混入し
ている。これを機械への入力インタフェースとして用い
るための有望な方法の1つは、発話音声からシステムに
とって重要な限定された単語のみをその位置とともに検
出し(ワードスポッティング)、その結果を基に構文解
析などの高次処理を得て最も確からしい単語列を決定す
るものである。
【0003】ワードスポッティングの1つの方法は、対
象単語との一致性を図る何らかのスコアを観測音声のあ
らゆる部分パターンごとに計算し、しきい値との比較に
よって単語候補を決定するものである。ただしこの場
合、しきい値は経験的に選ばれていた。さらに、個々の
単語候補のスコアは、しきい値と比較するために単語の
時間長に依存しないように正規化されるため、長さの異
なる単語列の認識の確からしさを単語スコアの単純な累
積によって直接比較することはできない。主にこの理由
のため、この枠組における従来の単語列スコアも経験則
に基づくもののみであった。
【0004】ワードスポッティングの他の方法は、対象
単語の各類に加えて、「ごみ類」、すなわち、対象単語
以外の音響現象をすべて包含する類、を用意し、観測音
声をそれらの類の音響現象が隙間なく連続したものとみ
なして単語列を認識するものである。この方法は、従来
の連続音声認識の枠組と全く同じ問題に煩わされる。す
なわち、各時刻において累積スコアを文法ノードの数だ
け保存かつ計算しなければならないが、文法の複雑さの
増加に伴い、文法ノード数は爆発的に増大し、計算は非
現実的なものになる。これを防ぐため、累積スコアの低
い文法ノードを途中で棄却する方法(ビームサーチ)が
とられる。ビームサーチも経験則の1つでしかない。
【0005】両者に共通の戦略は、観測音声に対して最
も確からしい単語列を求めるための膨大な計算量を、理
論的最適性を犠牲にし、経験的知識に基づく候補絞り込
みによって削減することである。この場合、たとえスコ
ア計算部と候補絞り込み部の2つの部分を最適に設計し
ても、それぞれに異なる基準を用いている限り、システ
ム全体を最適化することにはならない。スコア計算部と
候補絞り込み部の両方を含んだ系全体を単一の目的関数
によって直接的に最適化すべきである。ところが、ワー
ドスポッティングに基づく音声認識器の従来の設計にお
いては、スコア計算部の設計と候補絞り込み処理部の設
計は別々になされていた。
【0006】以上のことをまとめると、ワードスポッテ
ィングに基づく連続音声認識器は、スコアに基づく部分
仮説の絞り込みと部分仮説の組合せによる単語列の決定
という2つの処理機構から構成されていた。その設計法
は、構成上の複雑さのため、部分的にのみ最適なものや
経験的なものにとどまっており、理論的な背景を持つ系
全体の最適化方法は提案されていなかった。
【0007】一方、近年発表された一般化確率的降下法
(GPD)は、一次微分可能な連続関数による近似の採
用により、最小値選択や決定処理という不連続的な処理
を含む系の勾配探索による最適化の枠組を提供した。そ
の具体的応用として、音声の分類における誤識別率を最
小化する学習法が提案されている他、スポッティングに
も応用されている。
【0008】ゆえに、この発明は、まだ提案されたこと
のない事後オッズに基づくスコアを用い、そのスコアに
基づく部分仮説の絞り込みを行ない、さらに部分仮説の
組合せによる単語列の決定をして音声を認識することが
できるような音声認識方法および音声認識装置を提供す
ることである。
【0009】さらに、本発明は、事後オッズに基づくス
コア決定部と候補絞り込み部の両方を含んだ系全体を最
適化することができるような音声認識方法および音声認
識装置を提供することである。
【0010】また、この発明は、音声認識方法および音
声認識装置のみならず、部分パターンのスコアとして事
後オッズに基づくものを用い、そのスコアによる絞り込
みを行ない、その部分パターンの組合せによる連続パタ
ーンの決定を行なってパターンを認識することができる
ようなパターン認識方法を提供することである。
【0011】
【課題を解決するための手段】請求項1の発明に係るパ
ターン認識方法は、連続パターンの複数の部分パターン
を認識し、その組合せとして連続パターンを認識するパ
ターン認識方法において、それぞれが各部分パターンの
認識の確からしさを表わし、かつ各部分パターンに対応
する複数の物理量を事後オッズの推定値に基づいて決定
する第1のステップと、各物理量に基づいて、各部分パ
ターンの組合せの認識の確からしさを表現する累積物理
量を決定する第2のステップと、決定された累積物理量
に基づいて、連続パターンを組合せの所定の類に分類す
る第3のステップとを含んでいる。
【0012】請求項2では、請求項1のステップは、累
積物理量の決定または連続パターンの分類のために、部
分パターンの候補を絞り込むステップを含んでいる。
【0013】請求項3では、請求項1または2の第1の
ステップは、物理量の決定のために、推定事後オッズの
尤度を最大化するパラメータを用いて事後オッズの推定
値を求めるステップを含んでいる。
【0014】請求項4では、請求項1または2の第1の
ステップは、物理量の決定のために、分類による誤り率
を所定の関数で表現し、その関数の値を最小化するパラ
メータを用いて事後オッズの推定値を求めるステップを
含んでいる。
【0015】請求項5では、請求項1または2の第1の
ステップは、物理量の決定のために、分類による誤り率
および計算量を所定の関数で表現し、その関数の値を最
小化するパラメータを用いて事後オッズの推定値を求め
るステップを含んでいる。
【0016】請求項6では、請求項2の第1のステップ
は、物理量の決定および部分パターンの絞り込みのため
に、分類による誤り率を所定の関数で表現し、その関数
の値を最小化するパラメータを用いて事後オッズの推定
値を求めるステップを含んでいる。
【0017】請求項7では、請求項2の第1のステップ
は、物理量の決定および部分パターンの絞り込みのため
に、分類による誤り率および計算量を所定の関数で表現
し、その関数の値を最小化するパラメータを用いて事後
オッズの推定値を求めるステップを含んでいる。
【0018】請求項8の発明に係る音声認識方法は、時
系列からなる音声パターンの複数の部分パターンを認識
し、その組合せとして音声パターンを認識する音声認識
方法であって、それぞれが各部分パターンの認識の確か
らしさを表わし、かつ各部分パターンに対応する複数の
スコアを事後オッズの推定値に基づいて決定する第1の
ステップと、各スコアに基づいて、各部分パターンの組
合せの認識の確からしさを表現する累積スコアを決定す
る第2のステップと、決定された累積スコアに基づい
て、音声パターンを組合せの所定の類に分類する第3の
ステップとを含んでいる。
【0019】請求項9では、請求項8の第1のステップ
は、累積スコアの決定または音声パターンの分類のため
に、部分パターンの候補を絞り込むステップを含んでい
る。
【0020】請求項10では、請求項8または9の第1
のステップは、スコアの決定のために、推定事後オッズ
の尤度を最大化するパラメータを用いて事後オッズの推
定値を求めるステップを含んでいる。請求項11では、
請求項8または9の第1のステップは、スコアの決定の
ために、分類による誤り率を所定の関数で表現し、その
関数の値を最小化するパラメータを用いて事後オッズの
推定値を求めるステップを含んでいる。
【0021】請求項12では、請求項8または9の第1
のステップは、スコアの決定のために、分類による誤り
率および計算量を所定の関数で表現し、その関数の値を
最小化するパラメータを用いて事後オッズの推定値を求
めるステップを含んでいる。
【0022】請求項13では、請求項9の第1のステッ
プは、スコアの決定および部分パターンの候補の絞り込
みのために、分類による誤り率を所定の関数で表現し、
その関数の値を最小化するパラメータを用いて事後オッ
ズの推定値を求めるステップを含んでいる。
【0023】請求項14では、請求項9の第1のステッ
プは、スコアの決定および部分パターンの候補の絞り込
みのために、分類による誤り率および計算量を所定の関
数で表現し、その関数の値を最小化するパラメータを用
いて事後オッズの推定値を求めるステップを含んでい
る。
【0024】請求項15の発明に係る音声認識装置は、
時系列からなる音声パターンの複数の部分パターンを認
識し、その組合せとして音声パターンを認識する音声認
識装置であって、それぞれが各部分パターンの認識の確
からしさを表現し、かつ各部分パターンに対応する複数
のスコアを事後オッズの推定値に基づいて決定するスコ
ア決定手段と、各スコアに基づいて、各部分パターンの
組合せの認識の確からしさを表現する累積スコアを決定
する累積スコア決定手段と、決定された累積スコアに基
づいて、音声パターンを組合せの所定の類に分類する分
類手段とを備えている。
【0025】請求項16の発明に係る音声認識装置は、
さらに、スコアの決定または音声パターンの分類のため
に、各部分パターンの候補を絞り込む絞り込み手段を備
えている。
【0026】請求項17の発明に係る音声認識装置は、
さらに、スコアの決定のために、推定事後オッズの尤度
を最大化するパラメータを用いて事後オッズの推定値を
最適化する最適化手段を備えている。
【0027】請求項18の発明に係る音声認識装置は、
さらに、スコアの決定のために、分類による誤り率を所
定の関数で表現し、その関数の値を最小化するパラメー
タを用いて事後オッズの推定値を最適化する最適化手段
を備えている。
【0028】請求項19の発明に係る音声認識装置は、
さらに、スコアの決定のために、分類による誤り率およ
び計算量を所定の関数で表現し、その関数の値を最小化
するパラメータを用いて事後オッズの推定値を最適化す
る最適化手段を備えている。
【0029】請求項20の発明に係る音声認識装置は、
さらに、スコアの決定および部分パターンの候補の絞り
込みのために、分類による誤り率を所定の関数で表現
し、その関数の値を最小化するパラメータを用いて事後
オッズの推定値を最適化する最適化手段を備えている。
【0030】請求項21の発明に係る音声認識装置は、
さらに、スコアの決定および部分パターンの候補の絞り
込みのために、分類による誤り率および計算量を所定の
関数で表現し、その関数の値を最小化するパラメータを
用いて事後オッズの推定値を最適化する最適化手段を備
えている。
【0031】
【作用】請求項1の発明に係るパターン認識方法は、連
続パターンを形成している複数の部分パターンの認識の
確からしさを、事後オッズの推定値に基づく物理量で決
定し、その物理量に基づいて決定した部分パターンの組
合せの認識の確からしさに基づいて、連続パターンを認
識できる。
【0032】請求項2の発明に係るパターン認識方法
は、部分パターンの候補を絞り込み、その組合せを減ら
して、連続パターンの認識を効率化できる。
【0033】請求項3の発明に係るパターン認識方法
は、推定事後オッズの尤度を最大化するパラメータを用
い、連続パターンの認識を最適化できる。
【0034】請求項4の発明に係るパターン認識方法
は、物理量の決定のために、分類による誤り率を所定の
関数で表現し、その関数の値を最小化するパラメータを
用い、連続パターンの認識を最適化できる。
【0035】請求項5の発明に係るパターン認識方法
は、物理量の決定のために、分類による誤り率および計
算量を所定の関数で表現し、その関数の値を最小化する
パラメータを用い、連続パターンの認識を最適化でき
る。
【0036】請求項6の発明に係るパターン認識方法
は、物理量の決定および部分パターンの絞り込みのため
に、分類による誤り率を所定の関数で表現し、その関数
の値を最小化するパラメータを用い、連続パターンの認
識を最適化できる。
【0037】請求項7の発明に係るパターン認識方法
は、物理量の決定および部分パターンの絞り込みのため
に、分類による誤り率および計算量を所定の関数で表現
し、その関数の値を最小化するパラメータを用い、連続
パターンの認識を最適化できる。
【0038】請求項8の発明に係る音声認識方法は、部
分パターンの認識の確からしさを事後オッズの推定値に
基づくスコアで決定し、そのスコアに基づいて決定した
部分パターンの組合せの認識の確からしさに基づいて、
音声パターンを認識できる。
【0039】請求項9の発明に係る音声認識方法は、部
分パターンの候補を絞り込み、その組合せを減らして、
音声パターンの認識を効率化できる。
【0040】請求項10の発明に係る音声認識方法は、
推定事後オッズの尤度を最大化するパラメータを用い、
音声パターンの認識を最適化できる。
【0041】請求項11の発明に係る音声認識方法は、
スコアの決定のために、分類による誤り率を所定の関数
で表現し、その関数の値を最小化するパラメータを用
い、音声パターンの認識を最適化できる。
【0042】請求項12の発明に係る音声認識方法は、
スコアの決定のために、分類による誤り率および計算量
を所定の関数で表現し、その関数の値を最小化するパラ
メータを用い、音声パターンの認識を最適化できる。
【0043】請求項13の発明に係る音声認識方法は、
スコアの決定および部分パターンの候補の絞り込みのた
めに、分類による誤り率を所定の関数で表現し、その関
数の値を最小化するパラメータを用い、音声パターンの
認識を最適化できる。
【0044】請求項14の発明に係る音声認識方法は、
スコアの決定および部分パターンの候補の絞り込みのた
めに、分類による誤り率および計算量を所定の関数で表
現し、その関数の値を最小化するパラメータを用い、音
声パターンの認識を最適化できる。
【0045】請求項15の発明に係る音声認識装置は、
部分パターンの認識の確からしさを事後オッズの推定値
に基づくスコアで決定し、そのスコアに基づいて決定し
た部分パターンの組合せの認識の確からしさに基づい
て、音声パターンを認識できる。
【0046】請求項16の発明に係る音声認識装置は、
部分パターンの候補を絞り込み、その組合せを減らし
て、音声パターン認識を効率化できる。
【0047】請求項17の発明に係る音声認識装置は、
推定事後オッズの尤度を最大化するパラメータを用い、
音声パターンの認識を最適化できる。
【0048】請求項18の発明に係る音声認識装置は、
スコアの決定のために、分類による誤り率を所定の関数
で表現し、その関数を最小化するパラメータを用い、音
声パターンの認識を最適化できる。
【0049】請求項19の発明に係る音声認識装置は、
スコアの決定のために、分類による誤り率および計算量
を所定の関数で表現し、その関数を最小化するパラメー
タを用い、音声パターンの認識を最適化できる。
【0050】請求項20の発明に係る音声認識装置は、
スコアの決定および部分パターンの候補の絞り込みのた
めに、分類による誤り率を所定の関数で表現し、その関
数を最小化するパラメータを用い、音声パターンの認識
を最適化できる。
【0051】請求項21の発明に係る音声認識装置は、
スコアの決定および部分パターンの候補の絞り込みのた
めに、分類による誤り率および計算量を所定の関数で表
現し、その関数を最小化するパラメータを用い、音声パ
ターンの認識を最適化できる。
【0052】
【実施例】まず、図面を用いて実施例を説明する前に、
概念的な説明をする。第1段階として、ワードスポッテ
ィングによる音声認識装置が個々の単語候補の決定の組
合せによって音声を認識すると考えられるので、一般的
な組合せ決定問題を解く機構の定式化を説明する。第2
段階として、その最適化設計法として、最尤推定、最小
組合せ決定誤り、最小組合せ決定誤りに最小計算量を加
味したものによる設計基準について説明する。そして、
第3段階で図面を用いて音声認識装置について説明す
る。
【0053】[組合せ決定機構の定式化] 1.1 対数事後オッズに基づく決定機構 証拠xを得て結論aをくだす決定機構について説明す
る。選び得る結論の集合をA†(以下、カリグラフィッ
ク文字で表わすべき集合には†をつける)={α j
j=1 J とすると、一般的には、各々のαj が互いに排反
であるとは限らないので複数の結論が導かれることもあ
り得、また、証拠xからはいずれの結論をも導き出せな
いということも起こり得る。このような場合は、a∈A
†ではなく、a∈P†⊆p†(A†)とすべきである。
ここに、p†(A†)は、A†のべき集合であり、|a
|>1の場合は複数の結論が導かれることを、a=ф
(фは、空集合である。)の場合はいずれの結論も導か
れないことを表わす。部分的に排反な結論もあり得るの
で、一般にP†はp†(A†)の部分集合である。
【0054】証拠xを得たときの結論aの事後確率Pr
(a|x)が与えられるとき、Bayesの決定則、す
なわち、第(1)式によるa* が選ばれれば、決定誤り
は最小になる。そして、証拠xを得たときに各々の結論
αj が導き出される事後確率Pr(αj |x)が独立で
あると仮定すると、第(2)式が成り立つ。ただし、1
(・)は括弧内の論理式が真の値のとき1、偽のとき0
をとる2値関数である。
【0055】ここで、a* は、第(3)式および第
(4)式で示されるような結論aの結論фに対する事後
確率の比の対数によるスコアSa (x)を用いて、第
(5)式に示すような状態でも得られる。第(4)式に
おいて、Pr(αj |x)/(1−Pr(αj |x))
を第(6)式に示すように定義すると、O(αj |x)
は証拠xに基づく結論αj の認識の確からしさを表わす
量で事後オッズと呼ばれる。第(5)式は、結論aの認
識の確からしさが個々の結論αj ∈aの対数事後オッズ
の和によって見積もられ、その最大値の探索によって最
良の結論a* を導き出せることを示している。
【0056】この考えに基づき、以下では、対数事後オ
ッズの和によるスコアSa (x)の推定値の比較により
決定を下す決定機構を取り扱う。すなわち、対数事後オ
ッズlnO(αj |x)の推定値が決定機構の系全体の
パラメータ集合Λによってη j (x;Λ)として得られ
るとき、第(7)式で示されるスコアSa (x)の推定
値S∧a (x;Λ)の最大値の探索によって決定が下さ
れる。
【0057】
【数1】
【0058】1.2 対数事後オッズの累積スコアによ
る組合せ決定機構 次に、複数の決定問題の組合せを解く場合について考え
る。I個の問題の組Q={qi i=1 I の各要素qi
ついての結論をそれぞれai ∈P†とする。それぞれに
対する証拠xi の組X={xi i=1 I が得られたと
き、選び得る結論の組の集合Ω⊆P†I の中で最も確か
らしい結論の組を求めることについて考える。各問題q
i が互いに独立であるとき、結論の組A={ai i=1
I ∈Ωの事後確率Pr(A|X)について、第(8)式
が成り立つので、1.1節と同様に結論の組Aのスコア
A (X)を第(9)式および第(10)式のように定
めれば、第(11)式に示される結論の組A* を選ぶこ
とはBayesの決定則と等価である。実際には真の事
後確率Pr(A|X)は未知なので、第(12)式で示
される対数事後オッズの推定値の和で定義されるスコア
S∧A (X;Λ)を最大化する第(20)式に示すよう
なA* を最適な結論の組とみなす。
【0059】
【数2】
【0060】1.3 対数事後オッズの累積スコアによ
る組合せ分類機構 次に、証拠の組Xによって結論の組Aの全体集合Ωの互
いに排反なC個の類Ω 1 ,Ω2 ,…,ΩC のいずれかに
分類する場合を考える。分類の場合は、Bayesの決
定則は第(14)式および第(15)式に示されるc*
を分類結果として採用することである。この決定則は、
第(14)式および第(15)式と等価な第(16)式
および第(17)式で示される決定則で置換えてもよ
い。
【0061】実際には、真のSA (X;Λ)の値は未知
なので、その推定値S∧A (X;Λ)によって類ごとの
スコアを第(18)式で示されるように決定し、第(1
9)式で示されるc* を分類結果とすればよい。ただ
し、すべての類に含まれるすべての元Aについてスコア
A (X)を求めることは現実的には難しいので、第
(20)式で示されるスコアで代用することもできる。
最大値の探索には動的計画法を用いることができて計算
量がずっと少なくて済む。
【0062】以下では、第(18)式と第(20)式で
示される両者を一般化した第(21)式で示されるスコ
アS∧C (X;Λ)を用いる。ただし、ξC は正の定数
である。S∧C (X;Λ)は、ξC =1のとき第(1
8)式に一致し、ξC →∞のとき第(20)式に限りな
く近づく。
【0063】
【数3】
【0064】1.4 組合せ決定・分類のための候補絞
り込み 1 .2節のような組合せ決定や1.3節のような組合せ
分類を計算機の上で実現するためには、考えられるすべ
ての結論AについてスコアS∧A (X;Λ)を求める必
要がある。ところが結論の組合せAの総数はO(2JI
であるため、IやJの数の大きさに伴い爆発的に増大す
る。最大値探索においては動的計画法を用いればある程
度減らされるが、それよりさらに計算量を減らしたいと
きには、結果の最適性を犠牲にする方法を取らなければ
ならない。その1つは候補絞り込みであり、ある部分的
組合せ結論B∈P†I'(I′<I)について、Bをその
一部とする組合せ結論Aのすべてのスコアの値が他の結
論のスコアと比較して無視できるくらい小さいと経験的
に判断される場合は、それらのスコアS∧A (X;Λ)
を最後まで計算することなく計算から除外してしまうと
いう方法である。たとえば、ある固定のI′<Iについ
て、すべてのB∈P†I'に候補絞り込み処理を施し、そ
の数を1/Nに減らした場合は、その総数を1/NI-I'
に減らすことができるので、劇的な効果がある。
【0065】ある組合せ結論Aに至る部分的組合せ結論
のうちで絞り込みの判定に用いられるものの全体集合を
Φ(A)とし、部分的組合せ結論Bによる絞り込みの判
定を関数ω(X;Λ)で表わすと、候補絞り込み関数
ω(X;Λ)は、Bをその一部とする組合せ結論のス
コアの値が無視できるくらい小さいと判定する場合は
0、そうでないとき1をとる関数である。このとき、候
補絞り込み処理を含めた場合の組合せ結論の決定および
分類は、スコア関数を第(22)式および第(23)式
とし、第(24)式および第(25)式に示されるA〜
およびc〜を選ぶことである。第(22)式で示さ
れるスコア関数S〜(X;Λ)の計算において、棄却
される組合せ結論の候補については、S〜(X;Λ)
の値が負の無限大となり、最適解にはなり得ない。また
は、第(23)式のΣの中のexp(S〜(X;
Λ))の値が0となり、第(23)式のS〜(X;
Λ)の値に影響しないとみなし、S∧(X;Λ)の値
を求めない。
【0066】A〜* とA* 、C〜* とC* は一般に一致
しないが、候補絞り込み関数ωB (X;Λ)の選択がそ
の不一致の頻度と計算量に大きく影響を及ぼす。その点
が考慮され、通常、候補絞り込み関数は経験的な知識に
基づいて適当に選ばれる。
【0067】
【数4】
【0068】[組合せ決定・分類のための最適化設計
法]ここでは、第(22)式および第(23)式による
スコアS〜A (X;Λ),S〜C (X;Λ)に基づいて
結論の組を決定あるいは分類する機構のための、パラメ
ータ集合Λの設計法について説明する。
【0069】2.1 最大尤度基準に基づく設計 パラメータ集合Λからなる決定機構による結論αj の事
後確率Pr(αj |x)の推定値πj (x;Λ)は、第
(6)式により第(26)式に示されるように与えられ
る。pj (x)を、証拠xに対する結論αj が正しかっ
たとき1、そうでなかったとき0をとる2値関数とする
と、証拠xに対するパラメータ集合Λの対数尤度l
(x;Λ)は、第(27)式および第(28)式のよう
に示される。このとき、第(29)式で示される尤度関
数L(Λ)を最大化する第(30)式に示すようなパラ
メータ集合Λ* は最大尤度基準の下に最適である。
【0070】l(x;Λ)がΛに関して1次微分可能な
連続関数であれば、最急降下法や一般化確率的降下法を
用いてΛ* の準最適解を数値的に求めることができる。
【0071】この設計法は候補絞り込み処理に関しての
考慮ができない。そのうえ、一般に事後確率分布の形は
不明であるので、このように事後確率分布形状を仮定し
たうえでの最尤推定に基づくパラメータ集合は与えられ
たデータに対する最小決定誤りを保証しない。類ごとの
データの数の偏りがある場合の非頑健性も指摘されてい
る。また、組合せ分類においては、各証拠xi ごとにp
j (xi )の値を確定することができないので、最尤推
定は難しい。たとえばEMアルゴリズムが使用されなけ
ればならない。ただし、以下に示す確率的勾配探索によ
る設計法のための妥当な初期値を与えることはできる。
【0072】
【数5】
【0073】2.2 最小決定誤り基準に基づく設計 パラメータ集合設計における最も重要な目的は結果とし
て与えられる決定機構の決定誤りを最小化することであ
るので、この節では、決定誤りを直接最小化することを
基準とする設計法について説明する。
【0074】正しい結論の組がAO であるとき、費用関
数l(X;Λ)を第(31)式のように決定する。この
費用関数l(X;Λ)は、第(13)式による組合せ決
定が誤っていたとき1、正しかったとき0をとる関数で
あるので、第(32)式で示されるその期待値L(Λ)
は決定誤り率を示す。期待値L(Λ)を損失関数として
それを最小化するパラメータ集合Λ**が組合せ決定誤り
を最小化するパラメータ集合である。
【0075】分類問題の場合は、正しい分類結果をcO
とすると、第(34)式で示される費用関数l(X;
Λ)が用いられる。
【0076】上の定義に基づくΛ**を有限の標本から効
果的に求める方法は知られていないので、費用関数を第
(35)式に示す連続関数l〜(X;Λ)で近似する。
ただし、ζA は正の定数、演算子|・|は集合の要素の
総数を表わし、関数1〜(・)は、第(36)式に示す
ような2値ステップを近似する1次微分可能な連続関数
である。たとえばシグモイド関数1〜(x)=1/{1
+exp(−x)}が考えられる。以下、関数1〜
(・)を平滑化ステップ関数と呼ぶことにする。
【0077】分類問題の場合は、第(37)式で近似す
る。ただし、ζC は正の定数である。l〜(X;Λ)が
Λに関して1次微分可能な連続関数であれば、一般化確
率的降下法を用いることができる。1〜(y)→1
(y)とすることで、近似費用関数をいくらでも真の費
用関数に近づけることができる。
【0078】
【数6】
【0079】2.3 最小決定誤りに計算量を加味した
基準に基づく設計 パラメータ集合は、決定誤り率の最小化だけではなく、
計算量の観点からも最適化されるべきである。
【0080】そこで、決定誤りあるいは分類誤りの費用
関数l(X;Λ)を2.2節と同様に第(31)式また
は第(34)式によって定め、その他に、計算量を直接
反映する費用関数l′(X;Λ)を定義する。たとえ
ば、第(38)式に示されるl′(X;Λ)などであ
る。ただし、Ψ(X)は証拠の組Xが得られたときに結
論の組を得るときの候補絞り込みに使用する部分的結論
Bの集合である。この場合、l′(X;Λ)の期待値は
絞り込みの甘さの度合いを表わしており、絞り込みが甘
いほど計算量が多くなることは予想される。損失関数を
第(39)式に示すように、2つの費用関数の正の定数
γによる加重和の期待値L′(Λ)で定義するとき、第
(40)式で示されるようなこのL′(Λ)を最小化す
るパラメータ集合Λ′**は、決定誤りの数と計算量の両
方の観点からの最適なパラメータ集合とみなすことがで
きる。両者の均衡の度合いは定数γによって制御され
る。
【0081】2つの費用関数l(X;Λ)およびl′
(X;Λ)の両方を、第(35)式と同様に平滑化ステ
ップ関数を用いてΛについて1次微分可能な連続関数で
近似すると、一般化確率的降下法を用いてΛ′**の準最
適数値解を求めることができる。
【0082】
【数7】
【0083】なお、費用関数l(X;Λ)、l′(X;
Λ)は、第(31)式などで決定した関数に限定される
ものでない。
【0084】[音声認識装置の実施例]図1は、この発
明の一実施例による音声認識装置を示す概略ブロック図
であり、図2は、図1に示した音声認識装置の動作を説
明するためのフローチャートであり、図3は、図1の最
適化設計部の内部構成を示した概略ブロック図であり、
図4は、図3の最適化設計部の動作を説明するためのフ
ローチャートである。
【0085】この節では、組合せ決定機構の具体事例と
して、音声認識装置を説明する。まず、図1から図4を
用いて具体的に説明し、その後で注意すべきことについ
て、特に対数事後オッズ推定関数、単語列の認識、単語
レベルの絞り込みなどについて説明する。
【0086】図1を参照して、音声認識装置1は、デー
タ入力部5と、スコア計算部7と、絞り込み処理部9
と、累積スコア計算部11と、認識結果決定部13と、
認識結果出力部15と、最適化設計部18とを含む。デ
ータ入力部5には、入力データ3が入力される。入力デ
ータ3は、具体的には音声に関する時系列の音声パター
ンである。データ入力部5に入力された入力データ3に
基づき、スコア計算部7は1.1節で説明した事後オッ
ズに基づくスコアを決定する。絞り込み処理部9はスコ
ア計算部7で計算されたスコアの中で、累積スコア計算
部11および認識結果決定部13での処理を容易にする
ために絞り込みを行なう。具体的には、1.4節で説明
した組合せ決定・分類のための候補絞り込みが行なわれ
る。
【0087】累積スコア計算部11は、1.2節で説明
した対数事後オッズの累積スコアを決定する。この累積
スコアは、スコア計算部7で計算されたスコアの累積で
ある。この累積スコアは、スコアの数が多くなればなる
ほど、前述したように組合せが多くなるので、それを絞
り込み処理部9が極力押さえている。認識結果決定部1
3は、累積スコア計算部11で計算された累積スコアに
基づいて音声の認識結果を決定している。認識結果出力
部15は、それを認識結果17として出力している。
【0088】次に、図3および図4を参照して、図1に
示した最適化設計部18について説明する。
【0089】最適化設計部18は、スコア計算部7のス
コア決定のみの最適化、またはスコア計算部7のスコア
決定および絞り込み処理部9の絞り込み処理の最適化を
行なう。この最適化設計部18の動作は、スコア計算部
7の動作と同時に逐次的に行なわれてもよく、スコア計
算部7の動作よりも前に行なってもよい。その最適化と
しては、たとえば2.1節で説明した最大尤度基準に基
づく設計、2.2節で説明した最小決定誤り基準に基づ
く設計および2.3節で説明した候補絞り込みの最適化
設計が挙げられる。最適化設計部18は、このような設
計に基づいて、初期パラメータ19が入力される初期パ
ラメータ入力部21と、学習データ23が入力される学
習データ入力部25と、パラメータ修正部27と、修正
パラメータ29を出力する修正パラメータ出力部31と
を含んでいる。初期パラメータ19は、前述した系のパ
ラメータである。学習データ23は、時系列からなる音
声パターンとともにその音声パターンの正しい認識結果
が付随したデータである。この正しい認識結果が付随し
ていることにより、時系列の音声パターンの認識結果は
正しいのかまたは誤っているのかが明らかとなってい
る。したがって、正しい認識結果に基づいてパラメータ
修正部27がパラメータすなわち前述のΛを修正する。
この修正のための基準として、たとえば2.1節で説明
した最大尤度基準が用いられれば、パラメータ集合が最
大尤度基準の下で最適にされる。また、パラメータ修正
部27が2.2節の最小決定誤り基準に基づいてパラメ
ータを修正すれば、図1に示す認識結果決定部13での
認識結果の決定の誤り率が最小になる。さらに、パラメ
ータ修正部27が2.3節の最小決定誤りに計算量を加
味した基準に基づいてパラメータを修正すれば、認識結
果設定部13における認識結果の決定誤り率に計算量が
加味された形で最適化される。
【0090】図4に示すフローチャートに示すように、
学習データ入力から学習終了判定までが繰返されること
により、最適化設計部18は、より最適なパラメータの
設計を行なうことができる。
【0091】次に、1.1節から2.3節までで説明し
たことが集合を用いたものであったので、多少一般化し
た形であるが、この音声認識装置の注意事項について以
下説明する。まず、観測音声をX={xi ↑}i=1 I
する。ただし、各要素はS次元実ベクトル(xi ↑∈R
e S )。単語語彙がW†={wk k=1 K であるとき、
文法によって許される単語列の集合をGとして、観測時
系列Xを得たとき、第(41)式で示されるすべての単
語列WC のうちで最も確からしい単語列WC*が求められ
たいとする。
【0092】第(42)式に示す観測部分時系列Xs e
がどの単語に一致するかという結論as e のすべての
s,eについての組合せのうちで、結果として単語列W
C が得られるものの集合をΩC とすると、最適化設計部
18は3種類のいずれかの最適基準を用いてパラメータ
集合Λ′**を設計できる。
【0093】
【数8】
【0094】3.1 対数事後オッズ推定関数 観測部分時系列Xs e が単語wk である対数事後オッズ
がパラメータ集合ΛによってYk (Xs e ;Λ)である
と推定されるものとする。各単語wk はサブワード(た
とえば音素や音響イベント)集合A†={αj j=1 J
の要素の連結として表現されるものとし、Λはサブワー
ドごとのモデルλj からなる(Λ={λ j j=1 J )と
する。
【0095】各サブワードモデルは、プロトタイプRj
と分散共分散行列集合Vj と係数ベクトルφj ↑からな
る(λj ={Rj ,Vj ,φj ↑})とする。ただし、
プロトタイプは、M個の参照ベクトルの集合がN個継続
に連結されたものとし、Rj={Rjn={rjnm ↑}
m=1 M n=1 N ,Vj ={Vjn={Σjnm m=1 M n=
1 N ,φj ↑={φj0,φj1}である。ここに、rjnm
↑∈Re S ,Σjnm ∈R e S*S (s*sは、s×sを意
味する)である。
【0096】まず、観測部分時系列Xs e がサブワード
αj である対数事後オッズがプロトタイプRj の分散共
分散行列集合Vj による距離D(Xs e ,Rj ,Vj
の1次式によって推定されるモデルを想定し、第(4
3)式のようにηj (Xs e ;Λ)を定義する。ここ
で、距離D(Xs e ,Rj ,Vj )は次のように階層的
に定義される。
【0097】第1に、観測音声の時刻iのベクトルxi
↑と一参照ベクトルrjnm ↑との距離δを、対応する分
散共分散行列Σjnm による2次形式によって第(44)
式に示すように定義する。これを局所距離と呼ぶことに
する。
【0098】第2に、観測音声の時刻iのベクトルxi
↑とプロトタイプRj のn番目の参照ベクトル集合Rjn
との距離Δを、第(45)式に示すように定義し、状態
距離と呼ぶことにする。ただし、ξS は正の定数であ
る。
【0099】第3に、観測部分時系列Xs e とプロトタ
イプRj の1つの対応経路における距離を考える。対応
経路θは、第(46)式に示すような形式で与えられ、
{i,m}={ιl ,νl }によって時刻i=s,s+
1,…,e−1,eとプロトタイプの参照ベクトル集合
の指標n=1,2,…,Nを対応づける2次元座標の集
合である。また、対応経路θは、第(47)式に示すよ
うに端点条件と、第(48)式に示すような順序条件を
すべて満たすものとする。このとき、各々の対応経路θ
における距離を第(49)式に示すように定義する。
【0100】最後に、第(43)式の距離D(・)を第
(50)式に示すように定義し、以後、一般距離と呼ぶ
ことにする。ただし、ξG は正の定数である。
【0101】次に、サブワードごとの対数事後オッズη
j (・)を用いて、サブワードαjの連結で表現された
第(51)式に示すような単語wk の対数事後オッズY
k (Xs e ;Λ)を次のように階層的に定義する。
【0102】第1に、観測部分時系列Xs e の1つサブ
ワード境界列における対数事後オッズを考える。第(5
2)式に示す境界列βは、第(53)式に示す部分時系
列と単語wk の第(54)式に示すl番目のサブワード
を対応づけ、第(55)式に示す端点条件を満たすもの
とする。このとき、各々のサブワード境界列における単
語wk の対数事後オッズを第(56)式に示すように決
定する。
【0103】第2に、単語wの対数事後オッズY
を、第(57)式に示すように定義する。ただし、ξ
は正の定数、B† はX において考えられ得る
境界列βの全体集合である。
【0104】
【数9】
【0105】
【数10】
【0106】3.2 単語列の認識 連続音声認識という問題の特性から、単語列を得るため
の決定の組合せの全体集合Ωは、次の条件を満たすAの
集合である。その条件は、単語が存在するときは1つに
決定されなければならないので、第(58)式に示すよ
うな条件1、時間的に隣接する単語の時間的重なりがあ
ってはいけないので、第(59)式に示すような条件2
である。このとき、条件1によりas e ≠фとなる部分
的結論からは単語が一意的に決まり、条件2により単語
の時間的前後関係が明確になるので、単語列も一意に決
定される。
【0107】前述のパラメータ集合により、部分的結論
s e の組合せAのスコアは、第(60)式に示すよう
に計算されるので、単語列WC のスコアは、この第(6
0)式と第(21)式を用いて計算される。このように
単語列のスコアとして対数事後オッズの累積を用いた場
合は、単語列中に含まれる単語数に関係なく比較され
る。
【0108】
【数11】
【0109】3.3 単語レベルの絞り込み すべての部分観測時系列Xs e について|P†|=J+
1通りの結論があるので、組合せ結論Aの総数は、第
(61)式に示すオーダとなり、かなり多い。そこで、
この節では、これを減らすために、単語レベルの絞り込
みを導入する場合を考える。ここでは、一例として、次
に述べる簡単で古典的な方法を採用する。すなわち、各
単語について、近傍の部分観測時系列に対するスコアの
中で最大値をとるという条件1と、スコアの値がしきい
値を超えるという条件2の両方を満たす部分観測時系列
のみをその単語の候補として残す。
【0110】部分観測時系列Xs e が単語wk に一致す
るという部分的結論をB(wk |X s e )と表記する
と、上の条件に基づく絞り込みを含めた単語列のスコア
は、第(62)式に示されるように表わされる。第(6
3)式の右辺で定義される候補絞り込み関数が第(6
2)式で用いられている。ここで、ω1k(・)、ω
2k(・)はそれぞれ条件1、2に対応し、第(64)式
および第(65)式のそれぞれに示されるように決定さ
れるとする。ただし、κk は定数、hk はしきい値、S
k (e)は終端eに対して単語wk の始端sが取り得
る値の集合であり、Λ={{λj j=1 J ,{hk
k=1 K }である。
【0111】ω1k(・)は、探索の効率の観点から、
「近傍の部分観測時系列の中でスコアが最大」という条
件を、始端に関する最大条件と終端に関する最大条件の
2段階に分けて表現している。2.3節の最適化を適用
するために、第(63)式に示す関数を連続関数で近似
すると、第(66)式のように決定される。
【0112】
【数12】
【0113】3.4 実装のための工夫 このように、最適化法が用いられた音声認識装置は、理
論的に可能なはずである。しかしながら、現実に与えら
れるのは限られた計算機資源と限られた学習標本のみで
あり、実際には様々な問題に直面すると考えられる。そ
こで、それらの問題のための現実的な対処の仕方につい
て説明する。
【0114】第1に、限られた計算量で認識および学習
を実現することを考える。まず、対数事後オッズ推定関
数によるスコアの定義において、第(21)式に示すよ
うな形が多用されている。前述のとおり、この値を求め
るには非常に多くの計算量を要する。そこで、必要に応
じてξC などの定数の正の無限大極限、すなわち最大値
や最小値で代用する。これにより、動的計画法などによ
る計算量の削減が可能となる。
【0115】また、第(63)式による候補絞り込み関
数の定義に現われる平滑化ステップ関数1〜(・)とし
てたとえば例に挙げたシグモイド関数を用いると、その
値は常に正なので、本来は候補絞り込みにおいて棄却さ
れるはずのすべての単語仮説を学習時には棄却せずに残
しておかなくてはならない。そこで、しきい値から遠い
ところでは、恒等的に値0をとる第(70)式に示す区
分線形関数または第(71)式に示す区分放物線関数で
代用する。
【0116】第2に、限られた数の学習標本から最適な
パラメータを推定しなければならない現実を考えると、
自由パラメータの数はできるだけ少ないように工夫しな
ければならない。たとえば、サブワードモデルにおける
分散共分散行列Σjnmは自由パラメータ数が多いの
で、単位行列に固定したり、対角行列にして対角成分の
みを自由パラメータとするなどである。特に、独立性が
低いと思われるパラメータを「結び」の関係にすること
は有効である。たとえば、予備選択のしきい値hを単
語によらず共通の値にすること、または既に述べたよう
にすべての単語のモデルを少ない種類のサブワードの連
結で表現することなどである。
【0117】第3に、この実施例で説明している方法は
勾配探索によっているので、収束が極端に遅くならない
ようにそれぞれのパラメータの歩み幅の均衡に注意する
必要がある。また、パラメータの変域にも注意しなけれ
ばならない。たとえば、φj1の変域は(−∞,0)であ
るので、勾配探索の定義による微修正によって許された
変域からはみ出してしまうことがある。このような場合
は、たとえばφj1=−exp(φ′j1)と置換え、φ′
j1を変域(−∞,∞)の自由パラメータとすればよい。
あるいは、最初から歩み幅の調整の難しいパラメータを
扱わないようにして系を構成してもよい。たとえば3.
1節で用いた第(43)式の代わりに、係数ベクトルφ
j ↑をパラメータとして用いないで、近隣の類あるいは
前述の「ごみ類」との競合に基づく確からしさとして第
(72)式に示される関数、または第(73)式に示さ
れる関数などで定義できる。ただし、ζD は正の定数、
λ 0 ={R0 ,V0 }は「ごみ類」のモデルである。
【0118】
【数13】
【0119】[まとめ]不確実性を伴う組合せ決定問題
を解く枠組として、対数事後オッズの累積に基づくもの
を定式化し、計算量や記憶容量の節約のための絞り込み
処理も含めた枠組での決定誤りの数と計算量を最小化す
る設計法について説明した。この方法として、音声認識
方法および音声認識装置の枠組を説明したが、これは、
音声認識のみならず、不確実性を伴う推論問題一般に適
用できると言える。また、音声認識に限っても、対数事
後オッズ推定関数や候補絞り込みの基準には数多くの選
択肢があるので、それらの決定は様々な条件が考慮され
て行なわれる必要がある。
【0120】なお、決定機構は、1つの証拠から導かれ
得る複数の結論についてそれぞれ独立評価したスコアを
用いるものであるので、並列分散型の計算機に適用でき
ると思われる。
【0121】
【発明の効果】以上のように、この発明によれば、連続
パターンを形成する複数の部分パターンのそれぞれの認
識の確からしさを、事後オッズの推定値に基づく物理量
で決定し、その累積によって決定した部分パターンの組
合せの認識の確からしさに基づいて連続パターンを認識
するので、理論的に裏付けられたパターン認識を行なえ
る。
【0122】また、この発明によれば、部分パターンの
候補を事後オッズの推定値に基づく物理量に基づいて絞
り込むことにより、累積物理量の計算が容易になり、効
率よくパターン認識を行なえる。
【0123】さらに、この発明によれば、所定の基準に
基づいて最適化されたパラメータを用いることにより、
最適化されたパターン認識を行なえる。
【0124】さらに、この発明によれば、音声パターン
を形成する複数の部分パターンのそれぞれの認識の確か
らしさを、事後オッズの推定値に基づくスコアで決定
し、その累積によって決定した部分パターンの組合せの
認識の確からしさに基づいて音声パターンを認識するの
で、理論的に裏付けられた音声認識を行なえる。
【0125】さらに、この発明によれば、部分パターン
の候補を事後オッズの推定値に基づいてスコアに基づい
て絞り込むことにより、累積スコアの計算が容易にな
り、効率よく音声認識を行なえる。
【0126】さらに、この発明によれば、所定の基準に
基づく最適化されたパラメータを用いることにより、最
適化された音声認識を行なえる。
【図面の簡単な説明】
【図1】この発明の一実施例による音声認識装置を示す
概略ブロック図である。
【図2】図1に示した音声認識装置の動作を説明するた
めのフローチャートである。
【図3】図1の最適化設計部の内部構成を示した概略ブ
ロック図である。
【図4】図3の最適化設計部の動作を説明するためのフ
ローチャートである。
【符号の説明】
1 音声認識装置 7 スコア計算部 9 絞り込み処理部 11 累積スコア計算部 13 認識結果決定部 18 最適化設計部 23 学習データ 27 パラメータ修正部
フロントページの続き (56)参考文献 特開 平1−251100(JP,A) THE JOURNAL OF TH E ACOUSTICAL SOCIE TY OF JAPAN (E) N O.16,VOL.3,P.147〜157 (1995) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 JICSTファイル(JOIS)

Claims (21)

    (57)【特許請求の範囲】
  1. 【請求項1】 連続パターンの複数の部分パターンを認
    識し、その組合せとして前記連続パターンを認識するパ
    ターン認識方法において、 それぞれが前記各部分パターンの認識の確からしさを表
    わし、かつ各部分パターンに対応する複数の物理量を事
    後オッズの推定値に基づいて決定する第1のステップ
    と、 前記各物理量に基づいて、前記各部分パターンの組合せ
    の認識の確からしさを表現する累積物理量を決定する第
    2のステップと、 前記決定された累積物理量に基づいて、前記連続パター
    ンを前記組合せの所定の類に分類する第3のステップと
    を含む、パターン認識方法。
  2. 【請求項2】 前記第1のステップは、前記累積物理量
    の決定または前記連続パターンの分類のために、前記部
    分パターンの候補を絞り込むステップを含む、請求項1
    記載のパターン認識方法。
  3. 【請求項3】 前記第1のステップは、前記物理量の決
    定のために、推定事後オッズの尤度を最大化するパラメ
    ータを用いて前記事後オッズの推定値を求めるステップ
    を含む、請求項1または2記載のパターン認識方法。
  4. 【請求項4】 前記第1のステップは、前記物理量の決
    定のために、前記分類による誤り率を所定の関数で表現
    し、その関数の値を最小化するパラメータを用いて前記
    事後オッズの推定値を求めるステップを含む、請求項1
    または2記載のパターン認識方法。
  5. 【請求項5】 前記第1のステップは、前記物理量の決
    定のために、前記分類による誤り率および計算量を所定
    の関数で表現し、その関数の値を最小化するパラメータ
    を用いて前記事後オッズの推定値を求めるステップを含
    む、請求項1または2記載のパターン認識方法。
  6. 【請求項6】 前記第1のステップは、前記物理量の決
    定および前記部分パターンの絞り込みのために、前記分
    類による誤り率を所定の関数で表現し、その関数の値を
    最小化するパラメータを用いて前記事後オッズの推定値
    を求めるステップを含む、請求項2記載のパターン認識
    方法。
  7. 【請求項7】 前記第1のステップは、前記物理量の決
    定および前記部分パターンの絞り込みのために、前記分
    類による誤り率および計算量を所定の関数で表現し、そ
    の関数の値を最小化するパラメータを用いて前記事後オ
    ッズの推定値を求めるステップを含む、請求項2記載の
    パターン認識方法。
  8. 【請求項8】 時系列からなる音声パターンの複数の部
    分パターンを認識し、その組合せとして前記音声パター
    ンを認識する音声認識方法であって、 それぞれが前記各部分パターンの認識の確からしさを表
    わし、かつ各部分パターンに対応する複数のスコアを事
    後オッズの推定値に基づいて決定する第1のステップ
    と、 前記各スコアに基づいて、前記各部分パターンの組合せ
    の認識の確からしさを表現する累積スコアを決定する第
    2のステップと、 前記決定された累積スコアに基づいて、前記音声パター
    ンを前記組合せの所定の類に分類する第3のステップと
    を含む、音声認識方法。
  9. 【請求項9】 前記第1のステップは、前記累積スコア
    の決定または前記音声パターンの分類のために、前記部
    分パターンの候補を絞り込むステップを含む、請求項8
    記載の音声認識方法。
  10. 【請求項10】 前記第1のステップは、前記スコアの
    決定のために、推定事後オッズの尤度を最大化するパラ
    メータを用いて前記事後オッズの推定値を求めるステッ
    プを含む、請求項8または9記載の音声認識方法。
  11. 【請求項11】 前記第1のステップは、前記スコア決
    定のために、前記分類による誤り率を所定の関数で表現
    し、その関数の値を最小化するパラメータを用いて前記
    事後オッズの推定値を求めるステップを含む、請求項8
    または9記載の音声認識方法。
  12. 【請求項12】 前記第1のステップは、前記スコアの
    決定のために、前記分類による誤り率および計算量を所
    定の関数で表現し、その関数の値を最小化するパラメー
    タを用いて前記事後オッズの推定値を求めるステップを
    含む、請求項8または9記載の音声認識方法。
  13. 【請求項13】 前記第1のステップは、前記スコアの
    決定および前記部分パターンの候補の絞り込みのため
    に、前記分類による誤り率を所定の関数で表現し、その
    関数の値を最小化するパラメータを用いて前記事後オッ
    ズの推定値を求めるステップを含む、請求項9記載の音
    声認識方法。
  14. 【請求項14】 前記第1のステップは、前記スコアの
    決定および前記部分パターンの候補の絞り込みのため
    に、前記分類による誤り率および計算量を所定の関数で
    表現し、その関数の値を最小化するパラメータを用いて
    前記事後オッズの推定値を求めるステップを含む、請求
    項9記載の音声認識方法。
  15. 【請求項15】 時系列からなる音声パターンの複数の
    部分パターンを認識し、その組合せとして前記音声パタ
    ーンを認識する音声認識装置であって、 それぞれが前記各部分パターンの認識の確からしさを表
    現し、かつ各部分パターンに対応する複数のスコアを事
    後オッズの推定値に基づいて決定するスコア決定手段
    と、 前記各スコアに基づいて、前記各部分パターンの組合せ
    の認識の確からしさを表現する累積スコアを決定する累
    積スコア決定手段と、 前記決定された累積スコアに基づいて、前記音声パター
    ンを前記組合せの所定の類に分類する分類手段とを備え
    た、音声認識装置。
  16. 【請求項16】 さらに、前記スコアの決定または前記
    音声パターンの分類のために、前記部分パターンの候補
    を絞り込む絞り込み手段を備えた、請求項15記載の音
    声認識装置。
  17. 【請求項17】 さらに、前記スコアの決定のために、
    推定事後オッズの尤度を最大化するパラメータを用いて
    前記事後オッズの推定値を最適化する最適化手段を備え
    た、請求項15または16記載の音声認識装置。
  18. 【請求項18】 さらに、前記スコアの決定のために、
    前記分類による誤り率を所定の関数で表現し、その関数
    の値を最小化するパラメータを用いて前記事後オッズの
    推定値を最適化する最適化手段を備えた、請求項15ま
    たは16記載の音声認識装置。
  19. 【請求項19】 さらに、前記スコアの決定のために、
    前記分類による誤り率および計算量を所定の関数で表現
    し、その関数の値を最小化するパラメータを用いて前記
    事後オッズの推定値を最適化する最適化手段を備えた、
    請求項15または16記載の音声認識装置。
  20. 【請求項20】 さらに、前記スコアの決定および前記
    部分パターンの候補の絞り込みのために、前記分類によ
    る誤り率を所定の関数で表現し、その関数の値を最小化
    するパラメータを用いて前記事後オッズの推定値を最適
    化する最適化手段を備えた、請求項16記載の音声認識
    装置。
  21. 【請求項21】 さらに、前記スコアの決定および前記
    部分パターンの候補の絞り込みのために、前記分類によ
    る誤り率および計算量を所定の関数で表現し、その関数
    の値を最小化するパラメータを用いて前記事後オッズの
    推定値を最適化する最適化手段を備えた、請求項16記
    載の音声認識装置。
JP6048694A 1994-03-18 1994-03-18 パターン認識方法、音声認識方法および音声認識装置 Expired - Lifetime JP2775140B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6048694A JP2775140B2 (ja) 1994-03-18 1994-03-18 パターン認識方法、音声認識方法および音声認識装置
US08/405,674 US5749069A (en) 1994-03-18 1995-03-17 Pattern and speech recognition using accumulated partial scores from a posteriori odds, with pruning based on calculation amount

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6048694A JP2775140B2 (ja) 1994-03-18 1994-03-18 パターン認識方法、音声認識方法および音声認識装置

Publications (2)

Publication Number Publication Date
JPH07261784A JPH07261784A (ja) 1995-10-13
JP2775140B2 true JP2775140B2 (ja) 1998-07-16

Family

ID=12810430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6048694A Expired - Lifetime JP2775140B2 (ja) 1994-03-18 1994-03-18 パターン認識方法、音声認識方法および音声認識装置

Country Status (2)

Country Link
US (1) US5749069A (ja)
JP (1) JP2775140B2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2164870T3 (es) * 1995-03-07 2002-03-01 British Telecomm Reconocimiento del habla.
EP1010170B1 (en) * 1996-10-02 2009-08-19 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
DE19709518C5 (de) * 1997-03-10 2006-05-04 Harman Becker Automotive Systems Gmbh Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
GB9802838D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
US6438741B1 (en) 1998-09-28 2002-08-20 Compaq Computer Corporation System and method for eliminating compile time explosion in a top down rule based system using selective sampling
DE69941499D1 (de) * 1998-10-09 2009-11-12 Sony Corp Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6275802B1 (en) * 1999-01-07 2001-08-14 Lernout & Hauspie Speech Products N.V. Search algorithm for large vocabulary speech recognition
US6205441B1 (en) * 1999-03-31 2001-03-20 Compaq Computer Corporation System and method for reducing compile time in a top down rule based system using rule heuristics based upon the predicted resulting data flow
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US7650282B1 (en) * 2003-07-23 2010-01-19 Nexidia Inc. Word spotting score normalization
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
ATE449400T1 (de) * 2008-09-03 2009-12-15 Svox Ag Sprachsynthese mit dynamischen einschränkungen
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN (E) NO.16,VOL.3,P.147〜157 (1995)

Also Published As

Publication number Publication date
JPH07261784A (ja) 1995-10-13
US5749069A (en) 1998-05-05

Similar Documents

Publication Publication Date Title
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
JP4180110B2 (ja) 言語認識
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US6735588B2 (en) Information search method and apparatus using Inverse Hidden Markov Model
JP6404564B2 (ja) デコーダ、デコード方法およびプログラム
CN108415898B (zh) 深度学习语言模型的词图重打分方法和系统
US6292779B1 (en) System and method for modeless large vocabulary speech recognition
US8112274B2 (en) Method of determining model-specific factors for pattern recognition, in particular for speech patterns
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
EP0617827B1 (en) Composite expert
US8510111B2 (en) Speech recognition apparatus and method and program therefor
JP5861649B2 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US20180061395A1 (en) Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method
JP2905674B2 (ja) 不特定話者連続音声認識方法
JPH07261785A (ja) 音声認識方法及び音声認識装置
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JP3104900B2 (ja) 音声認識方法
JP2000261321A (ja) 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JPH10282986A (ja) 音声認識方法およびそのモデル設計方法
JP2010250161A (ja) 相違度利用型識別的学習装置とその方法、そのプログラム
JP2009092844A (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JPH0822296A (ja) パターン認識方法
JPH10254485A (ja) 話者正規化装置、話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980310