JPH09274498A

JPH09274498A - 音声認識装置

Info

Publication number: JPH09274498A
Application number: JP8082908A
Authority: JP
Inventors: Masao Nukaga; 雅夫額賀
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1996-04-04
Filing date: 1996-04-04
Publication date: 1997-10-21

Abstract

(57)【要約】【課題】認識された音響的単位の列の集合の中から、
複数の知識源に基づいて生成された個別評価値を重みづ
け加算して統合し、入力音声に対する認識結果を得る音
声認識装置において、個別評価値の重み付け係数を適切
かつ効率的に決定できるようにする。【解決手段】音響的評価値および言語的評価値が評価
値記憶部８６に記憶される。差分評価値・逆差分評価値
計算部８７が、記憶されている評価値から差分評価値お
よび逆差分評価値を計算し、判別関数係数生成部８８が
差分評価値および逆差分評価値に基づいて判別関数の係
数を計算する。この係数を重みづけ部８１〜８４の重み
付けの係数として設定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発声された音声
を、音韻、音節、単語等のうちの任意の音響的単位のつ
ながりとして認識し、この認識された音響的単位の列の
集合の中から、言語的な統計、規則等の情報を用いて、
入力音声に対する認識結果を得る音声認識装置に関する
もので、特に音響的な評価値と言語モデルから生成され
る言語的評価値とを重み付け加算して統合評価するシス
テムにおいて、該重み付けの係数を適切かつ効率的に決
定できるようにしたものである。

【０００２】

【従来の技術】音声認識における複数の知識源の重み係
数を求める方法に関しては、初期的に設定された重み係
数に対して、差分評価値の関数である目的関数の値を累
積し、累積された目的関数の値を改善する方向に、前記
重み係数を調整する非統計的方法が提案されている（特
表平７−５０６１９８号公報）。これは初期値として与
えられた任意の重み係数から始めて、反復的プロセスに
よって最適値を求める方法である。

【０００３】音声認識における知識源は互いに独立では
なく、顕著な相関を示す場合も多いが、そのような場
合、最適な重み係数は、各知識源を単独で用いた場合の
有効性と比例しない。前記非統計的方法においては、知
識源相互の関連は目的関数の振る舞いを通じてのみ重み
係数に反映されるが、知識源相互の関連が重み係数に正
しく反映されるためには、目的関数が知識源相互の関連
を正しく反映できる形式に設定されている必要がある。

【０００４】また、トレーニングに用いられるデータセ
ットの内には、差分評価値が特異的に大きな値を示す例
が存在するが、そのような特殊な例が重み係数の決定に
大きな影響を与えることは好ましくない。前記非統計的
方法では、目的関数の形状により、極端な例が大きな影
響を与えないようになっているが、目的関数が異なれ
ば、重み係数の決定に線形的に影響する差分評価値の範
囲も異なり、最適な目的関数の形状は差分評価値の分布
に依存する。

【０００５】上記の理由により、目的関数の設定が、効
果的な重み係数を得ることに大きな影響を与える。しか
し、目的関数の最適な形は、知識源の数や、各知識源の
差分評価値の分布、各知識源の相関度に依存するため、
音声認識における知識源や認識の対象となる語彙などを
大幅に変更する際は、目的関数も再設定を必要とする。

【０００６】そのような目的関数の設定はシステム設計
者の経験に基づくものであり、目的関数を用いた重み係
数決定法は、完全にシステマティックな方法とは言い難
い。

【０００７】

【発明が解決しようとする課題】本発明は以上の事情を
考慮してなされたものであり、音響的な評価値と言語モ
デルから生成される言語的評価値とを重み付け加算して
統合評価する音声認識システムにおいて、知識源の数
や、各知識源の差分評価値の分布、各知識源の相関度に
依存することなく、またシステム設計者によるパラメー
タの調整なしに、簡易に、精度の良い重み係数を得るこ
とができるようにすることを目的としている。

【０００８】

【課題を解決するための手段】本発明によれば、上述の
目的を達成するために、音響単位の列の候補に対して複
数の知識源をそれぞれ用いて対応する個別評価値を生成
し、前記個別評価値を線形結合して総合評価値を生成
し、前記総合評価値に基づいて認識結果を決定する音声
認識装置に、音声トレーニングデータに対する真の音響
単位の列の候補及び偽の音響単位の列の候補に与えられ
る前記個別評価値を収集し、真の音響単位の列の候補の
個別評価値から偽の音響単位の列の候補の個別評価値を
引いて差分評価値を生成する手段と、前記差分評価値の
符号を正負反対にした逆差分評価値を生成する手段と、
音響単位の列の確からしさを決定するのに使われる情報
源の数の次元の空間における前記差分評価値および前記
逆差分評価値の分布に対し、前記差分評価値および前記
逆差分評価値の線形判別関数を求める手段と、前記線形
判別関数の係数を前記線形結合の重み係数として前記総
合評価値を生成する手段とを設けるようにしている。

【０００９】この構成においては、重み係数を、各知識
源の差分評価値の分布から直接、システマティックに求
める方法として、反復的プロセスによってではなく、差
分評価値の統計量を定形的な式にあてはめることで、確
定的に求めることができる。

【００１０】すなわち、所定の音声入力に対する複数の
音響単位の列の候補から、任意の２つを取り出し、各知
識源の評価値の線形結合、すなわち合成評価値を比較す
ると、合成評価値のより低い方が上位の認識候補とな
る。真の音響単位の列の候補が最上位の認識候補となる
ためには、真の候補の合成評価値とどの偽の候補の合成
評価値を比較しても、真の候補の合成評価値が低くなれ
ばよい。

【００１１】真の候補を含む候補の組で、各知識源の差
分評価値の、知識源の数だけの次元の空間における分布
に対して、前記空間の原点を通るある超平面の片側にの
み差分評価値が偏るように、前記超平面を設定できれ
ば、差分評価値の合成評価値を常に負にすることができ
る。これは、真の候補と偽の候補の合成評価値を比較し
たとき、真の候補の合成評価値が常に低くなることを意
味する。そのような合成評価値をつくる線形結合の重み
係数は、前記超平面の法線ベクトルである。

【００１２】しかし一般には、前記差分評価値は、ある
超平面の片側にのみ偏って分布することはないため、差
分評価値の分布の偏りが最大になるように、該超平面を
決定する。このような超平面の決定は、差分評価値の分
布の傾向を表す統計量を基にして確定的に行うことがで
きる。

【００１３】また、この構成においては、前記音声認識
装置に、さらに、音声認識時に得られた、真の音響単位
の列の候補及び偽の音響単位の列の候補に基づいて、前
記個別評価値を収集し、前記線形判別関数の係数および
判別効率を計算する手段と、前記判別効率に基づいて、
各知識源の認識に寄与する程度を算出する手段と、前記
寄与する程度に基づいて音声認識に用いる知識源を選択
する手段とを設け、前記選択された知識源について前記
線形判別関数の係数を再計算して前記総合評価値を更新
するようにしてもよい。

【００１４】

【発明の実施の態様】以下、本発明の実施例について説
明する。図２は、第１の実施例を全体として示すもの
で、この図において、実施例の音声認識装置は入力音声
１００を受け取りかな漢字混じり文の認識結果１６０を
出力するものであり、音響認識器２、音韻モデル記憶部
３、構文解析器４、文法情報記憶部５、構文解析テーブ
ル６、言語的評価値発生器７ａ〜７Ｎ、総合評価値発生
器８、音響的確信度発生器９、候補集合管理部１０、認
識用辞書記憶部１１、認識結果作成部１２等を有してい
る。

【００１５】音響認識器２は、入力された音声１００か
ら、音響的単位の列を取り出すものである。この例にお
いては、音響的単位の列を取り出す方法として、音声を
ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（隠れマルコ
フモデル、ＨＭＭ）と呼ばれる確率的な状態遷移モデル
を用いて処理するＨＭＭ法を使用する。もちろん他の手
法を用いてもよい。ＨＭＭ法では、認識対象の各音響的
単位毎に、学習によりＨＭＭ（音韻モデル）を用意して
おき、この各音響的単位のＨＭＭが入力音声を分析した
結果得られる記号列を発生する確率を計算して比較する
ことにより音響的照合を行う。そして、この確率の対数
を音響的評価値とすると、音響的評価値の順に順位づけ
られた音響的単位の集合を音韻認識結果として得ること
ができる。この例では、音韻モデル記憶部３に音韻モデ
ルが記憶され、音響認識器２がこれを参照して音韻の認
識を行っていく。

【００１６】音響認識器２は、こうした音響的単位の照
合を繰り返し、入力音声に対して、認識結果として音響
的単位の列の複数の候補１１０を作成する。この音響的
認識の単位としては、大語藁の認識を行うことを考える
と、単語以上の大きな単位では用意すべき照合用の標準
モデルのデータの量、照合のための計算コストを考える
と現実的ではない。日本語は、モーラ（音節）と呼ばれ
る比較的均一なリズム単位でできており、さらに、モー
ラを基本単位として言語的情報を記述できる。そこで、
音響的認識の単位としては、モーラあるいはそれに準じ
るものとするのが都合がよい。以下この例では、モーラ
を音響的単位として説明する。

【００１７】入力された音声に対して、発声開始時点か
ら発生終了時点に向けて、認識結果の候補のモーラを１
つずつ延長し、モーラ列の候補を作成していく。ここで
は、モーラ列の候補数の爆発を防ぐために、構文解析器
４を用いて、システムの文法によって認められないモー
ラ列を候補から除去する様にしている。この構文解析器
４としては、例えばＬＲパーサを使うことができる。Ｌ
Ｒパーサは、パーシング・テーブル６を利用してモーラ
列を解析するもので、構文解析不能なモーラ列を列の途
中で即座に判定し、効率的に解析を進めることができ
る。パーシング・テーブル６は、システム用に規定さ
れ、文法情報記憶部５に記憶されている文法情報から、
あらかじめ作成されている。構文解析の結果、文法に登
録された単語が確定する。こうして取り出されたモーラ
列は、音韻列の情報の外に、単語の列の情報も合わせて
持ち、図３に示すように複数の単語列の候補（モーラ・
ネットワーク）１２０が作られる。

【００１８】こうして取り出される複数のモーラ列（単
語列）に対して、次に、音響的確からしさと言語的確か
らしさを統合して、その確からしさを評価する。その方
法について次に説明する。

【００１９】言語的確からしさを評価するために、言語
的評価値発生器７ａ〜７Ｎを用いる。言語的評価値発生
器７ａ〜７Ｎは、各単語列（モーラ列）に対して、様々
な視点から独自の評価値を発生する。この個別評価値を
発生するための情報としては、モーラ及びモーラの連鎖
についての発生頻度の情報、構文解析の結果として得ら
れる品詞および品詞の連鎖についての発生頻度の情報、
構文解析の結果として得られる単語および単語の連鎖の
発生頻度の情報、品詞および単語の結合度値、適用され
た構文規則の発生頻度等がある。それらの情報から、そ
れぞれ独立に個別評価値を決定することができる。

【００２０】各言語的評価値発生器７ａ〜７Ｎが発生す
る言語的評価値１３１ａ〜１３１Ｎと音響認識器９が発
声する音響的評価値１３０は、統合評価値作成器８に送
られ、各構文解析可能な単語列に対応するモーフ列に対
して統合評価値が決定する。

【００２１】統合評価値発生器８における統合評価値の
決定方法の一つの例としては、音響的評価値をＳａ、各
言語的評価値発生器ｎからの評価値をＳｎとする時、

【００２２】

【数１】で決定することとする。ここで、ｗ０は音響的評価値に
対する重み係数、ｗｎは各言語的評価値発生器ｎに与え
られる重み係数である。また、Ｎは言語的評価値発生器
の総数である。

【００２３】ここで図１をも参照しながら総合評価値の
決定について説明する。この実施例は、発声された音声
に対して、音響的確からしさを表す音響的評価値と言語
的確からしさを表す言語的評価値を統合して、統合評価
値を決定し、それによって、大語彙を対象にして高い認
識率を実現しようとするものである。

【００２４】今、ｉ番目の音響的単位に対する音響的時
系列パターンの確率をＰａ（ｉ）、また、ｉ番目の音響
的単位の発生する言語的確率をＰｌ（ｉ）とするとき

【００２５】

【数２】が最も大きくなるような音響的単位の列を求めて認識結
果とする。上式の対数を取ると

【００２６】

【数３】であり、ｌｏｇＰａ（ｉ）を音響的評価値Ｓａ（ｉ）、
ｌｏｇＰｌ（ｉ）を言語的評価値Ｓｌ（ｉ）と定義する
と、

【００２７】

【数４】を音響的評価値と言語的評価値を統合した統合評価値と
定義できる。

【００２８】ここで、言語的評価値Ｓｌ（ｉ）を言語モ
デルを構成する各種の知識源ｎが発生する言語的評価値
をＳｎ（ｉ）を用いて

【００２９】

【数５】で近似する。ここで、ｗｎは知識源ｎが発生する評価値
に対する重み係数、Ｎは知識源の総数である。

【００３０】そうすると、統合評価値は一般的な形とし
て、

【００３１】

【数６】となる。このような総合評価値を発生する総合評価値発
生器８は図１に示すように重みづけ部８１、８２、８
３、・・・８４、および加算器８５等から構成される。
なお評価値記憶部８６、差分評価値・逆差分評価値生成
部８７および判別関数係数生成部８８は重み係数ｗ０〜
ｗＮを決定するためのものであり、その決定手法につい
ては以下において詳述する。

【００３２】音声認識によって取り出されたモーラ列に
は、発話者が意図した言葉に対応する真のモーラ列と発
話者が意図しなかった偽のモーラ列が存在する。真のモ
ーラ列の候補の個別評価値から偽のモーラ列の候補の個
別評価値を引いた値すなわち差分評価値の知識源の数だ
けの次元の空間における分布に加え、前記差分評価値の
符号を正負逆にした逆差分評価値の知識源の数の次元の
空間における分布を考える。差分評価値の分布が片側に
偏るような超平面を求めることは、差分評価値の分布と
逆差分評価値の分布を分離する超平面を求めることに等
しい。

【００３３】真と偽のモーラ列の候補ＡとＢが与えられ
た時、それぞれの評価値ＸＡとＸＢの差Ｘ＝ＸＡ−ＸＢ
が前記差分評価値に当たる（Ａが真）のか、それとも前
記逆差分評価値に当たる（Ｂが真）のかを判定するため
に判別分析を用いる。

【００３４】判別分析は、２つ、またはそれ以上の群が
存在するとき、所属が未知の個体から得られた多変量デ
ータをもとに、その固体を１つの群に割当てる問題とし
て定式化されるもので、１９３０年代にフィッシャーに
よって開発され、最近では多くの分野で広く応用されて
おり、判別分析自体の詳細な解説は行わない。以下に判
別分析の定式化を行う。

【００３５】判別分析の第１段階は、ｐ個の変数からな
る多変量データｘ＝（Ｘ１，Ｘ２，・・・，Ｘｐ）ｔに
よって特徴づけられる固体を、１つの群に割り当てるた
めの規則となる関数一判別関数を決定することにある。
判別関数を定めるためには、以下の３つの条件が必要と
される。（ａ）異なったｇ個の群それぞれについての、多変量デ
ータｘに関する確率密度ｆ（ｘ），ｉ＝１，２，・・
・、ｘ），ｉ＝１，２，・・・，ｇが知られていること（ｂ）ｇ個の群に属する個体の、各群での相対頻度にあ
たる先験確率πｉ，ｉ＝１，２，・・・，ｇが知られて
いること。（ｃ）第ｉ群に属する個体を、誤って第ｊ群へ判別し
たときにこうむる損失ｃｉｊが知られていることこのとき、統計的決定理論の考え方から、未知の個体ｘ
を第ｊ群へ誤って判別することで生じる総損失は、

【００３６】

【数７】で表される。これより、上式を最小とする群へ判別を行
えば、誤判別による損失を最小にすることができる。

【００３７】誤判別による損失Ｃｉｊは、通常はｉ＝ｊ
のときＣｉｊ＝０、ｉ≠ｊのときＣｉｊ＝１と仮定され
る。この場合は上式の規則は、誤判別率を最小にする基
準と同一になる。誤判別率を最小にする基準を選択した
とき、条件（ａ）の確率密度関数が、各群ごとに母数ま
で完全に分かっている場合には、次式を最大にする群に
割り当てを行えばよい。

【００３８】

【数８】今、各群の確率密度関数がｐ変量正規分布Ｎｐ（μ，
Σ）である場合を考える。第１群での母平均ベクトルを
μ１、第２群ではμ２、そして両群は等しい母分散・共
分散行列２を持つと仮定する。このとき、未知の多変量
データｘが与えられた場合、多変量正規分布の確率密度
は次式となる。

【００３９】

【数９】両群の先験確率をπ１＝π、π２＝１−πとして、誤判
別率を最小にする判別規則を用いると、第１群への判別
は、

【００４０】

【数１０】を満たすときに行われる。尤度比を表す式４の左辺に式
３を代入すると、

【００４１】

【数１１】と整理できる。こうして式４の両辺の自然対数をとる
と、

【００４２】

【数１２】という判別規則が導かれる。上式左辺は、ｘに関して一
次式となっており、このことから真の線形判別関数と呼
ばれる。

【００４３】真の線形判別関数は母数を含むため、実際
の応用場面では式５中のμ１、μ２、Σを標本から推定
する必要がある。両群の標本数をｎ１、ｎ２、標本平均
ベクトルをｍ１、ｍ２、不偏な標本分散・共分散行列を
Ｓ１、Ｓ２で表そう。このとき、μ１、μ２の推定値は
ｍ１、ｍ２であり、Σの普遍推定値は２群のプールされ
た分散共分散行列、

【００４４】

【数１３】である。これらの推定値を式５に代入することにより、
標本線形判別関数、

【００４５】

【数１４】が得られる。この結果、未知の個体は式７の値がｌｏｇ
（１−π）／πより大きいとき第１群へ、小さいとき第
２群へと判別される。両群の先験確率が等しい場合に
は、標本線形判別関数式７の正負によって個体の判別を
行うことができる。

【００４６】この判別分析を前記差分評価値と前記逆差
分評価値の判別超平面を求めるために用いる。差分評価
値と逆差分評価値は、その定義より自明であるが、原点
に対して対称に分布する。すなわち、分散・共分散行列
が等しく、先験確率も等しい。このため真のモーラ列の
候補を誤りと判定する第一種誤りと、偽のモーラ列の候
補を正しいと判定する第二種誤りが常に同数となり、判
別超平面は判別関数の値が０になる超平面、すなわち差
分評価値の分布の確率密度関数と逆差分評価値の分布の
確率密度関数が等しくなる超平面となる（図４参照）。

【００４７】差分評価値（Ｘ１）と逆差分評価値（Ｘ
２）の分布には正規分布Ｎｐ（μ，Σ）を仮定するが、
これは分布が明らかでない変数に対して妥当な仮定であ
り、実際にもよく当てはまる。このとき

【００４８】

【数１５】は確率密度により定義されるマハラノビス平方距離であ
る。ここでＭ１をＸ１の平均値、ΣＸ１をＸ１の分散・
共分散行列、Ｍ２をＸ２の平均値、ΣＸ２をＸ２の分散
・共分散行列とする。

【００４９】

【数１６】である。また

【００５０】

【数１７】はそれぞれ分布Ｘ１及びＸ２と点Ｘとのマハラノビス平
方距離である。判別超平面（ｌ）は

【００５１】

【数１８】を満たす超平面となる。ｌの法線ベクトルは

【００５２】

【数１９】これが求める重み係数である。

【００５３】以下に具体的な例を用いて重み係数の算出
を説明する。音響的確からしさを表す知識源Ａ及び、言
語的確からしさを表す知識源Ｂ、Ｃ、Ｄを用いて音声認
識を行う。知識源が与える評価値は、より確からしい候
補に対して、より低い値となる。

【００５４】音声トレーニングデータに対する音声認識
を行い、各サンプルに対する複数の認識候補と、知識源
Ａ、Ｂ、Ｃ、Ｄが該認識候補に与えた評価値を評価値記
憶部８６に保存する。但し、この時、知識源の重み係数
は各知識源で等しくする、あるいは知識源Ａ以外の知識
源の重みを０にするなど、仮設的に適当な値を設定して
おく。

【００５５】真の候補が得られなかったサンプル及び真
の候補は得られたが偽の候補が得られなかったサンプル
を除き、真の候補と偽の候補が共に存在するサンプル
の、真の候補に各知識源が与えた評価値より偽の候補に
各知識源が与えた評価値を引いた値、すなわち各知識源
の差分評価値を差分評価値・逆差分評価値生成部８７で
集計する。

【００５６】今、「お−も−し−ろ−い」という発声に
対する音響認識の結果として、図３の有向グラフで示さ
れるようなモーラの候補が音響認識部から順次出力され
るとする。図中で、グラフのアーク上に示されているの
が、候補として認識されたモーラで、それぞれ音響的確
からしさに応じた音響的評価値を持っている。また、
（＃）は無音区間に対する記号である。

【００５７】本実施例では、グラフの中のすべてのパス
が構文解析器４にかけられ、解析可能なパスのみが許さ
れるモーラ列として残され、評価値計算の対象となって
いる。ここで、システムによって解析可能なパス（モー
ラ列）として、（ａ）お−も−し−ろ−い（ｂ）こ−の−ひ−ろ−い（ｃ）ほ−も−し−ろ−いの３つがあるとする。これらのパスに対して、各知識源
が表１のような評価値を与えたとする。

【００５８】

【表１】このサンプルからは（ａ）−（ｂ）Ａ（−３）Ｂ（−６４）Ｃ（−１１）Ｄ（−８）（ａ）−（ｃ）Ａ（−２６）Ｂ（２６）Ｃ（１０）Ｄ（３）の２組の差分評価値が得られる。同様の評価を多数の発
声サンプルに対して行い、表２のような差分評価値の組
の並びを得る。

【００５９】

【表２】このようにして得られたデータより、知識源Ａ、Ｂ、
Ｃ、Ｄの差分評価値の、平均と分散・共分散行列を求め
る。各知識源の差分評価値の平均をベクトル化した平均
ベクトルに、前記分散・共分散行列の逆行列を掛け、得
られたベクトルの符号を正負反対にしたものを重み係数
を表すベクトルとして用いる。以上の計算は判別関数係
数生成部８８により行われる。

【００６０】知識源Ａ、Ｂ、Ｃ、Ｄの差分評価値の平均
として、表３のような値が得られた。ここで、知識源Ａ
〜Ｄの差分評価値の平均は全て負の値であり、平均的に
は真の候補に対して偽の候補よりも低い評価値を与えて
いることが分かる。つまり、各知識源を個別に見れば、
より低い評価値を持つ候補が、真の候補である可能性が
高いことになる。

【００６１】

【表３】また、差分評価値の分散・共分散行列は表４のようにな
った。

【００６２】

【表４】これらの値から計算した重み係数は、表５のようになっ
た。ここで、ＢとＣの重み係数が負となっているが、こ
れは、各知識源が与える評価値が独立していないため、
単独で考慮すれば正の働きをする知識源が、負の重みを
持つことで、全体としてより効率よく判別が行われるこ
とによる。

【００６３】

【表５】上述のようにして得られた重み係数を用いて、音声入力
に対する認識を行う。

【００６４】以上のようにしてモーラの列の候補の総合
評価が行われ、候補集合管理部１０は尤度の順に並べた
モーラの列の候補１５０を出力する。認識結果作成部１
２は認識用辞書記憶部１１を参照してモーラの列を漢字
かな混じり文に変換してユーザに表示する。

【００６５】つぎに本発明の第２の実施例について説明
する。この実施例は判別効率を用いて利用する知識源を
選定して認識システムを再構築するものである。

【００６６】まず、この実施例で採用する基本的な手法
について説明する。一般に音声認識で使用される知識源
は種類が多いほど音声認識の精度が向上すると考えられ
る。しかし、言語統計的な知識源のなかには、場面によ
っては正しい認識の妨げとなるものも存在する。第１の
実施例における例で見たように、ある知識源の重み係数
が負になる場合もあるが、それは必ずしもその知識源が
認識の役に立っていないことを意味しない。分布Ｘ１及
びＸ２の平均の間のマハラノビス平方距離

【００６７】

【数２０】が広がるほど、誤判別の確率は小さくなる。この２群の
平均間の距離の平方は判別効率と呼ばれる。

【００６８】

【数２１】が成り立つ。知識源が増えたとき、判別効率は増加する
が、その増分が、単なる誤差による見掛け上のものか、
あるいは認識率の向上につながる実質的なものかが問題
となる。

【００６９】これを判定するために、統計的モデルの悪
さを評価する統計量である、情報量基準ＡＩＣを用い
る。ＡＩＣは

【００７０】

【数２２】ＡＩＣ＝（−２）ｌｏｇ_e（最大尤度）＋２
（パラメータ数）と定義されている。判別分析の検定統計量は

【００７１】

【数２３】であり、これは自由度（１，Ｎ−ｐ）のＦ分布に従う。
ここで、Ｎ１は群Ｇ１の標本数を、Ｎ２は群Ｇ２の標本
数を表す。

【００７２】しかし本装置においては、差分評価値と逆
差分評価値は統計的に同一の分布であるから、検定統計
量として、

【００７３】

【数２４】を用いる。ｎはサンプル数、ｆ＝ｎ−１は群内自由度で
あり、Ｆは自由度（１，ｆ−ｐ）のＦ分布に従う。知識
源が１つ増えたときの情報量基準の変化の大きさＡＩＣ
ｐは

【００７４】

【数２５】である。小さなｚに対して

【００７５】

【数２６】となる。Ｆが２．０より大きいならぱ、情報基準の増分
ＡＩＣｐは負であり、追加した知識源Ｘｊは認識率の向
上に役立つが、Ｆが２．０より小さいときはＡＩＣｐは
正であり、追加した知識源Ｘｊは無用であると判定され
る。

【００７６】図５は以上の原理を採用した第２の実施例
の要部を示すものであり、この図において、音声認識装
置本体２０は図２に示す第１の実施例の音声認識装置と
同様に構成される。音声認識装置本体２０からは認識動
作に応じて差分評価値が出力され差分評価値記憶部２１
に記憶される。重み係数・Ｆ値計算部２２は差分評価値
に基づいて重み係数およびＦ値を計算するものである。
システム再構成判定部２３はＦ値に基づいて知識源を利
用するかどうかを決定し、決定に基づいてシステムの再
構成が必要であればシステムの再構成を行うものであ
る。重み係数・Ｆ値計算部２２は、システムの再構成が
必要なときに、重み係数を再計算して音声認識装置本体
２０に供給する。

【００７７】つぎに実施例の動作について図６をも参照
して説明する。まず、第１の実施例のようにして得た重
み係数を用いて、音声入力に対する認識を行う（Ｓ１
０）。音声認識の結果、幾つかの候補がユーザに提示さ
れるが、その中にユーザが意図したものが存在した場
合、ユーザはその候補を選択する（Ｓ１１）。複数の候
補から選択された候補が存在した場合、第１の実施例に
おいて、音声トレーニングデータに対して、真の候補の
評価値から偽の候補の評価値を引いた差分評価値を集計
したように、音声入力に対して、ユーザが選択した候補
が真の候補であり、それ以外の候補は偽の候補であると
して、差分評価値を集計する（Ｓ１２）。

【００７８】集計された差分評価値の数が、重み係数の
再計算を行うのに十分な数になったとき、重み係数を再
計算する（Ｓ１３）。このとき、全知識源を用いた場合
の判別効率を算出するとともに（Ｓ１４）、各知識源に
ついて、その知識源を用いない場合の判別効率を算出
し、各知識源についてＦを求める（Ｓ１５）。Ｆが２．
０より大きい知識源は、認識に有用であると判定され、
そのまま使用されるが（Ｓ１８）、Ｆが２．０より小さ
い知識源は、むしろ正しい認識の障害になると判定され
る（Ｓ１７）。

【００７９】Ｆが２．０より小さい知識源が２つ以上あ
った場合、まず、最もＦの小さい知識源を除き、次にそ
こからさらに各情報を除いた場合の判別効率を算出し、
あらためて各知識源についてＦを求める。このとき、さ
らにＦが２．０より小さい知識源が２つ以上あった場
合、同様の操作を繰り返す。

【００８０】なお、Ｆが２．０より小さく、正しい認識
の障害になると判定された知識源については、次にＦの
計算が行われ、Ｆの値が２．０より大きくなり、有効な
知識源と判断されるまで、認識候補の順位の決定に使用
しない、つまり重み係数を０とする。ただし、Ｆが２．
０より小さく、無効と判断された知識源についても、各
候補に対する評価値を計算し、差分評価値の集計は行
う。

【００８１】具体的に第１の実施例で用いた例につい
て、全知識源を用いた場合の判別効率と各知識源を除い
た場合の判別効率とＦ値を求めた（表６）。ただし、こ
こでは差分評価値のサンプル数が５０であったとする。

【００８２】

【表６】Ｃを除いた場合のＦ値が２．０以下であるため、知識源
Ｃは除かれ、知識源Ａ、Ｂ、Ｄのみを用いて以降の音声
認識が行われる。この時の各知識源の重み係数は表７の
ようになる。

【００８３】

【表７】以上説明した実施例によれば、重み係数が確定的に求め
られるため、重み係数の計算のコストをあらかじめ知る
ことができる。また前記コストは反復的プロセスによる
よりも小さいものである。さらに、音声認識システムの
構成の変化に際して、重み係数の決定にシステム設計者
の介入を要しないため、重み係数の再設定が容易であ
る。

【００８４】また、各知識源について、該知識源を除い
た判別関数の判別効率と、該知識源を取り入れた判別関
数の判別効率を比較することで、システム設計者の解析
を待たずに、各知識源の音声認識に対する有効性が判断
できる。

【００８５】

【発明の効果】以上説明したように、本発明の重み係数
決定手法は、知識源の数、語彙の大小による各知識源の
評価値の値城の違い、知識源相互の関連性によらず適用
可能であり、計算コストも小さい。複数の知識源を用い
る音声認識システムでは、どのようなシステムでも、シ
ステム設計者によるパラメータの調整なしに、容易に取
り入れることができる。

【００８６】また判別効率の値を用いることで、知識源
の有用性を客観的に評価可能であり、音声認識におい
て、不都合な働きをしている知識源を容易に特定でき、
音声認識の精度を向上させることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例の要部を示すブロック図
である。

【図２】上述第１の実施例の全体的な構成を示すブロッ
ク図である。

【図３】上述第１の実施例で用いるモーラ・ネットワー
クの例である。

【図４】判別超平面による差分評価値Ｘ１と逆差分評価
値Ｘ２との分離を説明する図である。

【図５】本発明の第２の実施例の構成を示すブロック図
である。

【図６】上述第２の実施例の動作を説明するフローチャ
ートである。

【符号の説明】

２音響認識器７ａ、７ｂ、・・・７Ｎ言語的評価値発生器８総合評価値発生器９音響的確信度発生器８１、８２、８３、８４重みづけ部８５加算器８６評価値記憶部８７差分評価値・逆差分評価値生成部８８判別関数係数生成部

Claims

【特許請求の範囲】

【請求項１】音響単位の列の候補に対して複数の知識
源をそれぞれ用いて対応する個別評価値を生成し、前記
個別評価値を線形結合して総合評価値を生成し、前記総
合評価値に基づいて認識結果を決定する音声認識装置に
おいて、音声トレーニングデータに対する真の音響単位の列の候
補及び偽の音響単位の列の候補に与えられる前記個別評
価値を収集し、真の音響単位の列の候補の個別評価値か
ら偽の音響単位の列の候補の個別評価値を引いて差分評
価値を生成する手段と、前記差分評価値の符号を正負反対にした逆差分評価値を
生成する手段と、音響単位の列の確からしさを決定するのに使われる情報
源の数の次元の空間における前記差分評価値および前記
逆差分評価値の分布に対し、前記差分評価値および前記
逆差分評価値の線形判別関数を求める手段と、前記線形判別関数の係数を前記線形結合の重み係数とし
て前記総合評価値を生成する手段とを有することを特徴
とする音声認識装置。
【請求項２】音声認識時に得られた、真の音響単位の
列の候補及び偽の音響単位の列の候補に基づいて、前記
個別評価値を収集し、前記線形判別関数の係数および判
別効率を計算する手段と、前記判別効率に基づいて、各知識源の認識に寄与する程
度を算出する手段と、前記寄与する程度に基づいて音声認識に用いる知識源を
選択する手段とを有し、前記選択された知識源について前記線形判別関数の係数
を再計算して前記総合評価値を更新するようにした請求
項１記載の音声認識装置。
【請求項３】音響単位の列の候補に対して複数の知識
源をそれぞれ用いて対応する個別評価値を生成し、前記
個別評価値を線形結合して総合評価値を生成し、前記総
合評価値に基づいて認識結果を決定する音声認識を実行
するためにコンピュータにおいて用いられるコンピュー
タ・プログラム製品において、音声トレーニングデータに対する真の音響単位の列の候
補及び偽の音響単位の列の候補に与えられる前記個別評
価値を収集し、真の音響単位の列の候補の個別評価値か
ら偽の音響単位の列の候補の個別評価値を引いて差分評
価値を生成するステップと、前記差分評価値の符号を正負反対にした逆差分評価値を
生成するステップと、音響単位の列の確からしさを決定するのに使われる情報
源の数の次元の空間における前記差分評価値および前記
逆差分評価値の分布に対し、前記差分評価値および前記
逆差分評価値の線形判別関数を求めるステップと、前記線形判別関数の係数を前記線形結合の重み係数とし
て前記総合評価値を生成するステップとを上記コンピュ
ータに実行させるために用いられることを特徴とする音
声認識用コンピュータ・プログラム製品。