JPH09274498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH09274498A
JPH09274498A JP8082908A JP8290896A JPH09274498A JP H09274498 A JPH09274498 A JP H09274498A JP 8082908 A JP8082908 A JP 8082908A JP 8290896 A JP8290896 A JP 8290896A JP H09274498 A JPH09274498 A JP H09274498A
Authority
JP
Japan
Prior art keywords
evaluation value
candidate
sequence
difference evaluation
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8082908A
Other languages
English (en)
Inventor
Masao Nukaga
雅夫 額賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8082908A priority Critical patent/JPH09274498A/ja
Publication of JPH09274498A publication Critical patent/JPH09274498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識された音響的単位の列の集合の中から、
複数の知識源に基づいて生成された個別評価値を重みづ
け加算して統合し、入力音声に対する認識結果を得る音
声認識装置において、個別評価値の重み付け係数を適切
かつ効率的に決定できるようにする。 【解決手段】 音響的評価値および言語的評価値が評価
値記憶部86に記憶される。差分評価値・逆差分評価値
計算部87が、記憶されている評価値から差分評価値お
よび逆差分評価値を計算し、判別関数係数生成部88が
差分評価値および逆差分評価値に基づいて判別関数の係
数を計算する。この係数を重みづけ部81〜84の重み
付けの係数として設定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発声された音声
を、音韻、音節、単語等のうちの任意の音響的単位のつ
ながりとして認識し、この認識された音響的単位の列の
集合の中から、言語的な統計、規則等の情報を用いて、
入力音声に対する認識結果を得る音声認識装置に関する
もので、特に音響的な評価値と言語モデルから生成され
る言語的評価値とを重み付け加算して統合評価するシス
テムにおいて、該重み付けの係数を適切かつ効率的に決
定できるようにしたものである。
【0002】
【従来の技術】音声認識における複数の知識源の重み係
数を求める方法に関しては、初期的に設定された重み係
数に対して、差分評価値の関数である目的関数の値を累
積し、累積された目的関数の値を改善する方向に、前記
重み係数を調整する非統計的方法が提案されている(特
表平7−506198号公報)。これは初期値として与
えられた任意の重み係数から始めて、反復的プロセスに
よって最適値を求める方法である。
【0003】音声認識における知識源は互いに独立では
なく、顕著な相関を示す場合も多いが、そのような場
合、最適な重み係数は、各知識源を単独で用いた場合の
有効性と比例しない。前記非統計的方法においては、知
識源相互の関連は目的関数の振る舞いを通じてのみ重み
係数に反映されるが、知識源相互の関連が重み係数に正
しく反映されるためには、目的関数が知識源相互の関連
を正しく反映できる形式に設定されている必要がある。
【0004】また、トレーニングに用いられるデータセ
ットの内には、差分評価値が特異的に大きな値を示す例
が存在するが、そのような特殊な例が重み係数の決定に
大きな影響を与えることは好ましくない。前記非統計的
方法では、目的関数の形状により、極端な例が大きな影
響を与えないようになっているが、目的関数が異なれ
ば、重み係数の決定に線形的に影響する差分評価値の範
囲も異なり、最適な目的関数の形状は差分評価値の分布
に依存する。
【0005】上記の理由により、目的関数の設定が、効
果的な重み係数を得ることに大きな影響を与える。しか
し、目的関数の最適な形は、知識源の数や、各知識源の
差分評価値の分布、各知識源の相関度に依存するため、
音声認識における知識源や認識の対象となる語彙などを
大幅に変更する際は、目的関数も再設定を必要とする。
【0006】そのような目的関数の設定はシステム設計
者の経験に基づくものであり、目的関数を用いた重み係
数決定法は、完全にシステマティックな方法とは言い難
い。
【0007】
【発明が解決しようとする課題】本発明は以上の事情を
考慮してなされたものであり、音響的な評価値と言語モ
デルから生成される言語的評価値とを重み付け加算して
統合評価する音声認識システムにおいて、知識源の数
や、各知識源の差分評価値の分布、各知識源の相関度に
依存することなく、またシステム設計者によるパラメー
タの調整なしに、簡易に、精度の良い重み係数を得るこ
とができるようにすることを目的としている。
【0008】
【課題を解決するための手段】本発明によれば、上述の
目的を達成するために、音響単位の列の候補に対して複
数の知識源をそれぞれ用いて対応する個別評価値を生成
し、前記個別評価値を線形結合して総合評価値を生成
し、前記総合評価値に基づいて認識結果を決定する音声
認識装置に、音声トレーニングデータに対する真の音響
単位の列の候補及び偽の音響単位の列の候補に与えられ
る前記個別評価値を収集し、真の音響単位の列の候補の
個別評価値から偽の音響単位の列の候補の個別評価値を
引いて差分評価値を生成する手段と、前記差分評価値の
符号を正負反対にした逆差分評価値を生成する手段と、
音響単位の列の確からしさを決定するのに使われる情報
源の数の次元の空間における前記差分評価値および前記
逆差分評価値の分布に対し、前記差分評価値および前記
逆差分評価値の線形判別関数を求める手段と、前記線形
判別関数の係数を前記線形結合の重み係数として前記総
合評価値を生成する手段とを設けるようにしている。
【0009】この構成においては、重み係数を、各知識
源の差分評価値の分布から直接、システマティックに求
める方法として、反復的プロセスによってではなく、差
分評価値の統計量を定形的な式にあてはめることで、確
定的に求めることができる。
【0010】すなわち、所定の音声入力に対する複数の
音響単位の列の候補から、任意の2つを取り出し、各知
識源の評価値の線形結合、すなわち合成評価値を比較す
ると、合成評価値のより低い方が上位の認識候補とな
る。真の音響単位の列の候補が最上位の認識候補となる
ためには、真の候補の合成評価値とどの偽の候補の合成
評価値を比較しても、真の候補の合成評価値が低くなれ
ばよい。
【0011】真の候補を含む候補の組で、各知識源の差
分評価値の、知識源の数だけの次元の空間における分布
に対して、前記空間の原点を通るある超平面の片側にの
み差分評価値が偏るように、前記超平面を設定できれ
ば、差分評価値の合成評価値を常に負にすることができ
る。これは、真の候補と偽の候補の合成評価値を比較し
たとき、真の候補の合成評価値が常に低くなることを意
味する。そのような合成評価値をつくる線形結合の重み
係数は、前記超平面の法線ベクトルである。
【0012】しかし一般には、前記差分評価値は、ある
超平面の片側にのみ偏って分布することはないため、差
分評価値の分布の偏りが最大になるように、該超平面を
決定する。このような超平面の決定は、差分評価値の分
布の傾向を表す統計量を基にして確定的に行うことがで
きる。
【0013】また、この構成においては、前記音声認識
装置に、さらに、音声認識時に得られた、真の音響単位
の列の候補及び偽の音響単位の列の候補に基づいて、前
記個別評価値を収集し、前記線形判別関数の係数および
判別効率を計算する手段と、前記判別効率に基づいて、
各知識源の認識に寄与する程度を算出する手段と、前記
寄与する程度に基づいて音声認識に用いる知識源を選択
する手段とを設け、前記選択された知識源について前記
線形判別関数の係数を再計算して前記総合評価値を更新
するようにしてもよい。
【0014】
【発明の実施の態様】以下、本発明の実施例について説
明する。図2は、第1の実施例を全体として示すもの
で、この図において、実施例の音声認識装置は入力音声
100を受け取りかな漢字混じり文の認識結果160を
出力するものであり、音響認識器2、音韻モデル記憶部
3、構文解析器4、文法情報記憶部5、構文解析テーブ
ル6、言語的評価値発生器7a〜7N、総合評価値発生
器8、音響的確信度発生器9、候補集合管理部10、認
識用辞書記憶部11、認識結果作成部12等を有してい
る。
【0015】音響認識器2は、入力された音声100か
ら、音響的単位の列を取り出すものである。この例にお
いては、音響的単位の列を取り出す方法として、音声を
Hidden Markov Model(隠れマルコ
フモデル、HMM)と呼ばれる確率的な状態遷移モデル
を用いて処理するHMM法を使用する。もちろん他の手
法を用いてもよい。HMM法では、認識対象の各音響的
単位毎に、学習によりHMM(音韻モデル)を用意して
おき、この各音響的単位のHMMが入力音声を分析した
結果得られる記号列を発生する確率を計算して比較する
ことにより音響的照合を行う。そして、この確率の対数
を音響的評価値とすると、音響的評価値の順に順位づけ
られた音響的単位の集合を音韻認識結果として得ること
ができる。この例では、音韻モデル記憶部3に音韻モデ
ルが記憶され、音響認識器2がこれを参照して音韻の認
識を行っていく。
【0016】音響認識器2は、こうした音響的単位の照
合を繰り返し、入力音声に対して、認識結果として音響
的単位の列の複数の候補110を作成する。この音響的
認識の単位としては、大語藁の認識を行うことを考える
と、単語以上の大きな単位では用意すべき照合用の標準
モデルのデータの量、照合のための計算コストを考える
と現実的ではない。日本語は、モーラ(音節)と呼ばれ
る比較的均一なリズム単位でできており、さらに、モー
ラを基本単位として言語的情報を記述できる。そこで、
音響的認識の単位としては、モーラあるいはそれに準じ
るものとするのが都合がよい。以下この例では、モーラ
を音響的単位として説明する。
【0017】入力された音声に対して、発声開始時点か
ら発生終了時点に向けて、認識結果の候補のモーラを1
つずつ延長し、モーラ列の候補を作成していく。ここで
は、モーラ列の候補数の爆発を防ぐために、構文解析器
4を用いて、システムの文法によって認められないモー
ラ列を候補から除去する様にしている。この構文解析器
4としては、例えばLRパーサを使うことができる。L
Rパーサは、パーシング・テーブル6を利用してモーラ
列を解析するもので、構文解析不能なモーラ列を列の途
中で即座に判定し、効率的に解析を進めることができ
る。パーシング・テーブル6は、システム用に規定さ
れ、文法情報記憶部5に記憶されている文法情報から、
あらかじめ作成されている。構文解析の結果、文法に登
録された単語が確定する。こうして取り出されたモーラ
列は、音韻列の情報の外に、単語の列の情報も合わせて
持ち、図3に示すように複数の単語列の候補(モーラ・
ネットワーク)120が作られる。
【0018】こうして取り出される複数のモーラ列(単
語列)に対して、次に、音響的確からしさと言語的確か
らしさを統合して、その確からしさを評価する。その方
法について次に説明する。
【0019】言語的確からしさを評価するために、言語
的評価値発生器7a〜7Nを用いる。言語的評価値発生
器7a〜7Nは、各単語列(モーラ列)に対して、様々
な視点から独自の評価値を発生する。この個別評価値を
発生するための情報としては、モーラ及びモーラの連鎖
についての発生頻度の情報、構文解析の結果として得ら
れる品詞および品詞の連鎖についての発生頻度の情報、
構文解析の結果として得られる単語および単語の連鎖の
発生頻度の情報、品詞および単語の結合度値、適用され
た構文規則の発生頻度等がある。それらの情報から、そ
れぞれ独立に個別評価値を決定することができる。
【0020】各言語的評価値発生器7a〜7Nが発生す
る言語的評価値131a〜131Nと音響認識器9が発
声する音響的評価値130は、統合評価値作成器8に送
られ、各構文解析可能な単語列に対応するモーフ列に対
して統合評価値が決定する。
【0021】統合評価値発生器8における統合評価値の
決定方法の一つの例としては、音響的評価値をSa、各
言語的評価値発生器nからの評価値をSnとする時、
【0022】
【数1】 で決定することとする。ここで、w0は音響的評価値に
対する重み係数、wnは各言語的評価値発生器nに与え
られる重み係数である。また、Nは言語的評価値発生器
の総数である。
【0023】ここで図1をも参照しながら総合評価値の
決定について説明する。この実施例は、発声された音声
に対して、音響的確からしさを表す音響的評価値と言語
的確からしさを表す言語的評価値を統合して、統合評価
値を決定し、それによって、大語彙を対象にして高い認
識率を実現しようとするものである。
【0024】今、i番目の音響的単位に対する音響的時
系列パターンの確率をPa(i)、また、i番目の音響
的単位の発生する言語的確率をPl(i)とするとき
【0025】
【数2】 が最も大きくなるような音響的単位の列を求めて認識結
果とする。上式の対数を取ると
【0026】
【数3】 であり、logPa(i)を音響的評価値Sa(i)、
logPl(i)を言語的評価値Sl(i)と定義する
と、
【0027】
【数4】 を音響的評価値と言語的評価値を統合した統合評価値と
定義できる。
【0028】ここで、言語的評価値Sl(i)を言語モ
デルを構成する各種の知識源nが発生する言語的評価値
をSn(i)を用いて
【0029】
【数5】 で近似する。ここで、wnは知識源nが発生する評価値
に対する重み係数、Nは知識源の総数である。
【0030】そうすると、統合評価値は一般的な形とし
て、
【0031】
【数6】 となる。このような総合評価値を発生する総合評価値発
生器8は図1に示すように重みづけ部81、82、8
3、・・・84、および加算器85等から構成される。
なお評価値記憶部86、差分評価値・逆差分評価値生成
部87および判別関数係数生成部88は重み係数w0〜
wNを決定するためのものであり、その決定手法につい
ては以下において詳述する。
【0032】音声認識によって取り出されたモーラ列に
は、発話者が意図した言葉に対応する真のモーラ列と発
話者が意図しなかった偽のモーラ列が存在する。真のモ
ーラ列の候補の個別評価値から偽のモーラ列の候補の個
別評価値を引いた値すなわち差分評価値の知識源の数だ
けの次元の空間における分布に加え、前記差分評価値の
符号を正負逆にした逆差分評価値の知識源の数の次元の
空間における分布を考える。差分評価値の分布が片側に
偏るような超平面を求めることは、差分評価値の分布と
逆差分評価値の分布を分離する超平面を求めることに等
しい。
【0033】真と偽のモーラ列の候補AとBが与えられ
た時、それぞれの評価値XAとXBの差X=XA−XB
が前記差分評価値に当たる(Aが真)のか、それとも前
記逆差分評価値に当たる(Bが真)のかを判定するため
に判別分析を用いる。
【0034】判別分析は、2つ、またはそれ以上の群が
存在するとき、所属が未知の個体から得られた多変量デ
ータをもとに、その固体を1つの群に割当てる問題とし
て定式化されるもので、1930年代にフィッシャーに
よって開発され、最近では多くの分野で広く応用されて
おり、判別分析自体の詳細な解説は行わない。以下に判
別分析の定式化を行う。
【0035】判別分析の第1段階は、p個の変数からな
る多変量データx=(X1,X2,・・・,Xp)tに
よって特徴づけられる固体を、1つの群に割り当てるた
めの規則となる関数一判別関数を決定することにある。
判別関数を定めるためには、以下の3つの条件が必要と
される。 (a)異なったg個の群それぞれについての、多変量デ
ータxに関する確率密度f(x),i=1,2,・・
・、x),i=1,2,・・・,gが知られていること (b)g個の群に属する個体の、各群での相対頻度にあ
たる先験確率πi,i=1,2,・・・,gが知られて
いること。 (c) 第i群に属する個体を、誤って第j群へ判別し
たときにこうむる損失cijが知られていること このとき、統計的決定理論の考え方から、未知の個体x
を第j群へ誤って判別することで生じる総損失は、
【0036】
【数7】 で表される。これより、上式を最小とする群へ判別を行
えば、誤判別による損失を最小にすることができる。
【0037】誤判別による損失Cijは、通常はi=j
のときCij=0、i≠jのときCij=1と仮定され
る。この場合は上式の規則は、誤判別率を最小にする基
準と同一になる。誤判別率を最小にする基準を選択した
とき、条件(a)の確率密度関数が、各群ごとに母数ま
で完全に分かっている場合には、次式を最大にする群に
割り当てを行えばよい。
【0038】
【数8】 今、各群の確率密度関数がp変量正規分布Np(μ,
Σ)である場合を考える。第1群での母平均ベクトルを
μ1、第2群ではμ2、そして両群は等しい母分散・共
分散行列2を持つと仮定する。このとき、未知の多変量
データxが与えられた場合、多変量正規分布の確率密度
は次式となる。
【0039】
【数9】 両群の先験確率をπ1=π、π2=1−πとして、誤判
別率を最小にする判別規則を用いると、第1群への判別
は、
【0040】
【数10】 を満たすときに行われる。尤度比を表す式4の左辺に式
3を代入すると、
【0041】
【数11】 と整理できる。こうして式4の両辺の自然対数をとる
と、
【0042】
【数12】 という判別規則が導かれる。上式左辺は、xに関して一
次式となっており、このことから真の線形判別関数と呼
ばれる。
【0043】真の線形判別関数は母数を含むため、実際
の応用場面では式5中のμ1、μ2、Σを標本から推定
する必要がある。両群の標本数をn1、n2、標本平均
ベクトルをm1、m2、不偏な標本分散・共分散行列を
S1、S2で表そう。このとき、μ1、μ2の推定値は
m1、m2であり、Σの普遍推定値は2群のプールされ
た分散共分散行列、
【0044】
【数13】 である。これらの推定値を式5に代入することにより、
標本線形判別関数、
【0045】
【数14】 が得られる。この結果、未知の個体は式7の値がlog
(1−π)/πより大きいとき第1群へ、小さいとき第
2群へと判別される。両群の先験確率が等しい場合に
は、標本線形判別関数式7の正負によって個体の判別を
行うことができる。
【0046】この判別分析を前記差分評価値と前記逆差
分評価値の判別超平面を求めるために用いる。差分評価
値と逆差分評価値は、その定義より自明であるが、原点
に対して対称に分布する。すなわち、分散・共分散行列
が等しく、先験確率も等しい。このため真のモーラ列の
候補を誤りと判定する第一種誤りと、偽のモーラ列の候
補を正しいと判定する第二種誤りが常に同数となり、判
別超平面は判別関数の値が0になる超平面、すなわち差
分評価値の分布の確率密度関数と逆差分評価値の分布の
確率密度関数が等しくなる超平面となる(図4参照)。
【0047】差分評価値(X1)と逆差分評価値(X
2)の分布には正規分布Np(μ,Σ)を仮定するが、
これは分布が明らかでない変数に対して妥当な仮定であ
り、実際にもよく当てはまる。このとき
【0048】
【数15】 は確率密度により定義されるマハラノビス平方距離であ
る。ここでM1をX1の平均値、ΣX1をX1の分散・
共分散行列、M2をX2の平均値、ΣX2をX2の分散
・共分散行列とする。
【0049】
【数16】 である。また
【0050】
【数17】 はそれぞれ分布X1及びX2と点Xとのマハラノビス平
方距離である。判別超平面(l)は
【0051】
【数18】 を満たす超平面となる。lの法線ベクトルは
【0052】
【数19】 これが求める重み係数である。
【0053】以下に具体的な例を用いて重み係数の算出
を説明する。音響的確からしさを表す知識源A及び、言
語的確からしさを表す知識源B、C、Dを用いて音声認
識を行う。知識源が与える評価値は、より確からしい候
補に対して、より低い値となる。
【0054】音声トレーニングデータに対する音声認識
を行い、各サンプルに対する複数の認識候補と、知識源
A、B、C、Dが該認識候補に与えた評価値を評価値記
憶部86に保存する。但し、この時、知識源の重み係数
は各知識源で等しくする、あるいは知識源A以外の知識
源の重みを0にするなど、仮設的に適当な値を設定して
おく。
【0055】真の候補が得られなかったサンプル及び真
の候補は得られたが偽の候補が得られなかったサンプル
を除き、真の候補と偽の候補が共に存在するサンプル
の、真の候補に各知識源が与えた評価値より偽の候補に
各知識源が与えた評価値を引いた値、すなわち各知識源
の差分評価値を差分評価値・逆差分評価値生成部87で
集計する。
【0056】今、「お−も−し−ろ−い」という発声に
対する音響認識の結果として、図3の有向グラフで示さ
れるようなモーラの候補が音響認識部から順次出力され
るとする。図中で、グラフのアーク上に示されているの
が、候補として認識されたモーラで、それぞれ音響的確
からしさに応じた音響的評価値を持っている。また、
(#)は無音区間に対する記号である。
【0057】本実施例では、グラフの中のすべてのパス
が構文解析器4にかけられ、解析可能なパスのみが許さ
れるモーラ列として残され、評価値計算の対象となって
いる。ここで、システムによって解析可能なパス(モー
ラ列)として、 (a)お−も−し−ろ−い (b)こ−の−ひ−ろ−い (c)ほ−も−し−ろ−い の3つがあるとする。これらのパスに対して、各知識源
が表1のような評価値を与えたとする。
【0058】
【表1】 このサンプルからは (a)−(b) A(−3) B(−64)C(−11) D(−8) (a)−(c) A(−26) B(26) C(10) D(3) の2組の差分評価値が得られる。同様の評価を多数の発
声サンプルに対して行い、表2のような差分評価値の組
の並びを得る。
【0059】
【表2】 このようにして得られたデータより、知識源A、B、
C、Dの差分評価値の、平均と分散・共分散行列を求め
る。各知識源の差分評価値の平均をベクトル化した平均
ベクトルに、前記分散・共分散行列の逆行列を掛け、得
られたベクトルの符号を正負反対にしたものを重み係数
を表すベクトルとして用いる。以上の計算は判別関数係
数生成部88により行われる。
【0060】知識源A、B、C、Dの差分評価値の平均
として、表3のような値が得られた。ここで、知識源A
〜Dの差分評価値の平均は全て負の値であり、平均的に
は真の候補に対して偽の候補よりも低い評価値を与えて
いることが分かる。つまり、各知識源を個別に見れば、
より低い評価値を持つ候補が、真の候補である可能性が
高いことになる。
【0061】
【表3】 また、差分評価値の分散・共分散行列は表4のようにな
った。
【0062】
【表4】 これらの値から計算した重み係数は、表5のようになっ
た。ここで、BとCの重み係数が負となっているが、こ
れは、各知識源が与える評価値が独立していないため、
単独で考慮すれば正の働きをする知識源が、負の重みを
持つことで、全体としてより効率よく判別が行われるこ
とによる。
【0063】
【表5】 上述のようにして得られた重み係数を用いて、音声入力
に対する認識を行う。
【0064】以上のようにしてモーラの列の候補の総合
評価が行われ、候補集合管理部10は尤度の順に並べた
モーラの列の候補150を出力する。認識結果作成部1
2は認識用辞書記憶部11を参照してモーラの列を漢字
かな混じり文に変換してユーザに表示する。
【0065】つぎに本発明の第2の実施例について説明
する。この実施例は判別効率を用いて利用する知識源を
選定して認識システムを再構築するものである。
【0066】まず、この実施例で採用する基本的な手法
について説明する。一般に音声認識で使用される知識源
は種類が多いほど音声認識の精度が向上すると考えられ
る。しかし、言語統計的な知識源のなかには、場面によ
っては正しい認識の妨げとなるものも存在する。第1の
実施例における例で見たように、ある知識源の重み係数
が負になる場合もあるが、それは必ずしもその知識源が
認識の役に立っていないことを意味しない。分布X1及
びX2の平均の間のマハラノビス平方距離
【0067】
【数20】 が広がるほど、誤判別の確率は小さくなる。この2群の
平均間の距離の平方は判別効率と呼ばれる。
【0068】
【数21】 が成り立つ。知識源が増えたとき、判別効率は増加する
が、その増分が、単なる誤差による見掛け上のものか、
あるいは認識率の向上につながる実質的なものかが問題
となる。
【0069】これを判定するために、統計的モデルの悪
さを評価する統計量である、情報量基準AICを用い
る。AICは
【0070】
【数22】AIC=(−2)loge(最大尤度)+2
(パラメータ数) と定義されている。判別分析の検定統計量は
【0071】
【数23】 であり、これは自由度(1,N−p)のF分布に従う。
ここで、N1は群G1の標本数を、N2は群G2の標本
数を表す。
【0072】しかし本装置においては、差分評価値と逆
差分評価値は統計的に同一の分布であるから、検定統計
量として、
【0073】
【数24】 を用いる。nはサンプル数、f=n−1は群内自由度で
あり、Fは自由度(1,f−p)のF分布に従う。知識
源が1つ増えたときの情報量基準の変化の大きさAIC
pは
【0074】
【数25】 である。小さなzに対して
【0075】
【数26】 となる。Fが2.0より大きいならぱ、情報基準の増分
AICpは負であり、追加した知識源Xjは認識率の向
上に役立つが、Fが2.0より小さいときはAICpは
正であり、追加した知識源Xjは無用であると判定され
る。
【0076】図5は以上の原理を採用した第2の実施例
の要部を示すものであり、この図において、音声認識装
置本体20は図2に示す第1の実施例の音声認識装置と
同様に構成される。音声認識装置本体20からは認識動
作に応じて差分評価値が出力され差分評価値記憶部21
に記憶される。重み係数・F値計算部22は差分評価値
に基づいて重み係数およびF値を計算するものである。
システム再構成判定部23はF値に基づいて知識源を利
用するかどうかを決定し、決定に基づいてシステムの再
構成が必要であればシステムの再構成を行うものであ
る。重み係数・F値計算部22は、システムの再構成が
必要なときに、重み係数を再計算して音声認識装置本体
20に供給する。
【0077】つぎに実施例の動作について図6をも参照
して説明する。まず、第1の実施例のようにして得た重
み係数を用いて、音声入力に対する認識を行う(S1
0)。音声認識の結果、幾つかの候補がユーザに提示さ
れるが、その中にユーザが意図したものが存在した場
合、ユーザはその候補を選択する(S11)。複数の候
補から選択された候補が存在した場合、第1の実施例に
おいて、音声トレーニングデータに対して、真の候補の
評価値から偽の候補の評価値を引いた差分評価値を集計
したように、音声入力に対して、ユーザが選択した候補
が真の候補であり、それ以外の候補は偽の候補であると
して、差分評価値を集計する(S12)。
【0078】集計された差分評価値の数が、重み係数の
再計算を行うのに十分な数になったとき、重み係数を再
計算する(S13)。このとき、全知識源を用いた場合
の判別効率を算出するとともに(S14)、各知識源に
ついて、その知識源を用いない場合の判別効率を算出
し、各知識源についてFを求める(S15)。Fが2.
0より大きい知識源は、認識に有用であると判定され、
そのまま使用されるが(S18)、Fが2.0より小さ
い知識源は、むしろ正しい認識の障害になると判定され
る(S17)。
【0079】Fが2.0より小さい知識源が2つ以上あ
った場合、まず、最もFの小さい知識源を除き、次にそ
こからさらに各情報を除いた場合の判別効率を算出し、
あらためて各知識源についてFを求める。このとき、さ
らにFが2.0より小さい知識源が2つ以上あった場
合、同様の操作を繰り返す。
【0080】なお、Fが2.0より小さく、正しい認識
の障害になると判定された知識源については、次にFの
計算が行われ、Fの値が2.0より大きくなり、有効な
知識源と判断されるまで、認識候補の順位の決定に使用
しない、つまり重み係数を0とする。ただし、Fが2.
0より小さく、無効と判断された知識源についても、各
候補に対する評価値を計算し、差分評価値の集計は行
う。
【0081】具体的に第1の実施例で用いた例につい
て、全知識源を用いた場合の判別効率と各知識源を除い
た場合の判別効率とF値を求めた(表6)。ただし、こ
こでは差分評価値のサンプル数が50であったとする。
【0082】
【表6】 Cを除いた場合のF値が2.0以下であるため、知識源
Cは除かれ、知識源A、B、Dのみを用いて以降の音声
認識が行われる。この時の各知識源の重み係数は表7の
ようになる。
【0083】
【表7】 以上説明した実施例によれば、重み係数が確定的に求め
られるため、重み係数の計算のコストをあらかじめ知る
ことができる。また前記コストは反復的プロセスによる
よりも小さいものである。さらに、音声認識システムの
構成の変化に際して、重み係数の決定にシステム設計者
の介入を要しないため、重み係数の再設定が容易であ
る。
【0084】また、各知識源について、該知識源を除い
た判別関数の判別効率と、該知識源を取り入れた判別関
数の判別効率を比較することで、システム設計者の解析
を待たずに、各知識源の音声認識に対する有効性が判断
できる。
【0085】
【発明の効果】以上説明したように、本発明の重み係数
決定手法は、知識源の数、語彙の大小による各知識源の
評価値の値城の違い、知識源相互の関連性によらず適用
可能であり、計算コストも小さい。複数の知識源を用い
る音声認識システムでは、どのようなシステムでも、シ
ステム設計者によるパラメータの調整なしに、容易に取
り入れることができる。
【0086】また判別効率の値を用いることで、知識源
の有用性を客観的に評価可能であり、音声認識におい
て、不都合な働きをしている知識源を容易に特定でき、
音声認識の精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の要部を示すブロック図
である。
【図2】上述第1の実施例の全体的な構成を示すブロッ
ク図である。
【図3】上述第1の実施例で用いるモーラ・ネットワー
クの例である。
【図4】判別超平面による差分評価値X1と逆差分評価
値X2との分離を説明する図である。
【図5】本発明の第2の実施例の構成を示すブロック図
である。
【図6】上述第2の実施例の動作を説明するフローチャ
ートである。
【符号の説明】
2 音響認識器 7a、7b、・・・7N 言語的評価値発生器 8 総合評価値発生器 9 音響的確信度発生器 81、82、83、84 重みづけ部 85 加算器 86 評価値記憶部 87 差分評価値・逆差分評価値生成部 88 判別関数係数生成部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音響単位の列の候補に対して複数の知識
    源をそれぞれ用いて対応する個別評価値を生成し、前記
    個別評価値を線形結合して総合評価値を生成し、前記総
    合評価値に基づいて認識結果を決定する音声認識装置に
    おいて、 音声トレーニングデータに対する真の音響単位の列の候
    補及び偽の音響単位の列の候補に与えられる前記個別評
    価値を収集し、真の音響単位の列の候補の個別評価値か
    ら偽の音響単位の列の候補の個別評価値を引いて差分評
    価値を生成する手段と、 前記差分評価値の符号を正負反対にした逆差分評価値を
    生成する手段と、 音響単位の列の確からしさを決定するのに使われる情報
    源の数の次元の空間における前記差分評価値および前記
    逆差分評価値の分布に対し、前記差分評価値および前記
    逆差分評価値の線形判別関数を求める手段と、 前記線形判別関数の係数を前記線形結合の重み係数とし
    て前記総合評価値を生成する手段とを有することを特徴
    とする音声認識装置。
  2. 【請求項2】 音声認識時に得られた、真の音響単位の
    列の候補及び偽の音響単位の列の候補に基づいて、前記
    個別評価値を収集し、前記線形判別関数の係数および判
    別効率を計算する手段と、 前記判別効率に基づいて、各知識源の認識に寄与する程
    度を算出する手段と、 前記寄与する程度に基づいて音声認識に用いる知識源を
    選択する手段とを有し、 前記選択された知識源について前記線形判別関数の係数
    を再計算して前記総合評価値を更新するようにした請求
    項1記載の音声認識装置。
  3. 【請求項3】 音響単位の列の候補に対して複数の知識
    源をそれぞれ用いて対応する個別評価値を生成し、前記
    個別評価値を線形結合して総合評価値を生成し、前記総
    合評価値に基づいて認識結果を決定する音声認識を実行
    するためにコンピュータにおいて用いられるコンピュー
    タ・プログラム製品において、 音声トレーニングデータに対する真の音響単位の列の候
    補及び偽の音響単位の列の候補に与えられる前記個別評
    価値を収集し、真の音響単位の列の候補の個別評価値か
    ら偽の音響単位の列の候補の個別評価値を引いて差分評
    価値を生成するステップと、 前記差分評価値の符号を正負反対にした逆差分評価値を
    生成するステップと、 音響単位の列の確からしさを決定するのに使われる情報
    源の数の次元の空間における前記差分評価値および前記
    逆差分評価値の分布に対し、前記差分評価値および前記
    逆差分評価値の線形判別関数を求めるステップと、 前記線形判別関数の係数を前記線形結合の重み係数とし
    て前記総合評価値を生成するステップとを上記コンピュ
    ータに実行させるために用いられることを特徴とする音
    声認識用コンピュータ・プログラム製品。
JP8082908A 1996-04-04 1996-04-04 音声認識装置 Pending JPH09274498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8082908A JPH09274498A (ja) 1996-04-04 1996-04-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8082908A JPH09274498A (ja) 1996-04-04 1996-04-04 音声認識装置

Publications (1)

Publication Number Publication Date
JPH09274498A true JPH09274498A (ja) 1997-10-21

Family

ID=13787362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8082908A Pending JPH09274498A (ja) 1996-04-04 1996-04-04 音声認識装置

Country Status (1)

Country Link
JP (1) JPH09274498A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170137A (ja) * 2009-01-23 2010-08-05 Honda Motor Co Ltd 音声理解装置
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system
JP2010170137A (ja) * 2009-01-23 2010-08-05 Honda Motor Co Ltd 音声理解装置
US8548808B2 (en) 2009-01-23 2013-10-01 Honda Motor Co., Ltd. Speech understanding apparatus using multiple language models and multiple language understanding models

Similar Documents

Publication Publication Date Title
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
US5953701A (en) Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
EP0755046B1 (en) Speech recogniser using a hierarchically structured dictionary
US6823493B2 (en) Word recognition consistency check and error correction system and method
US20050038650A1 (en) Method and apparatus to use semantic inference with speech recognition systems
US20080059190A1 (en) Speech unit selection using HMM acoustic models
EP1557823B1 (en) Method of setting posterior probability parameters for a switching state space model
US20070067171A1 (en) Updating hidden conditional random field model parameters after processing individual training samples
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JPH09127972A (ja) 連結数字の認識のための発声識別立証
US8005674B2 (en) Data modeling of class independent recognition models
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
US20040148169A1 (en) Speech recognition with shadow modeling
US20030097263A1 (en) Decision tree based speech recognition
JP2002358097A (ja) 音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
US7634404B2 (en) Speech recognition method and apparatus utilizing segment models
JPH09274498A (ja) 音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JPH10198395A (ja) 統計的言語モデル生成装置及び音声認識装置
JP3104900B2 (ja) 音声認識方法