JP2002123286A

JP2002123286A - 音声認識方法

Info

Publication number: JP2002123286A
Application number: JP2001270944A
Authority: JP
Inventors: Ralf Kompe; コンペ、ラルフ; Silke Goronzy; ゴロンジー、シルケ
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2000-09-06
Filing date: 2001-09-06
Publication date: 2002-04-26
Also published as: US6999929B2; EP1187096A1; KR20020020237A; CN1183511C; CN1342969A; US20020046024A1

Abstract

(57)【要約】【課題】音声認識のための演算の負荷を軽減して高速
な認識を行う。【解決手段】認識ステップを所定回数実行した後、現
音響モデルに基づき、既に得られている少なくとも所定
数の認識結果に関して貢献の度合いを無視できるモデル
関数の組合せの要素を除外することにより、修正音響モ
デルを生成し、各処理において、この修正音響モデル
（ＭＡＭ）を現音響モデル（ＣＡＭ）として継続して使
用する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、認識処理におい
て、１組のモデル関数の組合せに基づく音響モデルを使
用する音声認識方法に関する。詳しくは、本発明は、話
者適応形の隠れマルコフモデル（hidden Markov mode
l：ＨＭＭ）に基づく音声認識法において、使用される
ガウス関数等のモデル関数の組合せを減少させる音声認
識方法に関する。

【０００２】

【従来の技術】自動音声認識技術は、近年、益々重要に
なってきている。従来の音声認識技術における特別な問
題は、相反する目的を同時に達成しなくてはいけないと
いう点にある。すなわち、音声認識方法及び音声認識装
置は、特に発音、アクセント、方言等の発声に関する振
舞い（behavior）の広範囲な変化を取り扱うために、で
きるだけ高い柔軟性を有している必要がある。しかしな
がら、その一方で、音声認識方法及び音声認識装置の構
成は、特に低コストで容易に実現でき、高速で効率的な
認識性能を有するために、単純であることが望まれる。

【０００３】従来の音声認識方法及び音声認識方法は、
話者適応法（speaker adaptation methods）を用いて、
現在の又は特定の話者の音響特性及び発声に関する振舞
いにより適合するように、基底にある音響モデル（acou
stic model）を変形する。各音響モデルの基礎となるも
のは、本質的には、１組のモデル関数の組合せ（model
function mixtures）である。特に、短音（phones）、
音素、サブワードユニット、音節、単語等に関する音響
的振舞いの大きな変化及び変動をカバーするためには、
多くのモデル関数の組合せが必要である。従来の音声認
識技術においては、認識処理中に、既に得られている少
なくとも１つの認識結果に基づいて、モデル関数の組合
せのうちのモデル関数の組合せの要素の貢献（contribu
tions）の少なくとも一部を変更することにより、現音
響モデル（current acoustic model）を適応化する。

【０００４】

【発明が解決しようとする課題】このような従来の音声
認識技術における話者適応法では、非常に多くのモデル
関数の組合せ及びモデル関数の組合せの要素を用いなく
てはならないという問題があった。したがって、これら
の音声認識技術においては、現音響モデルを現在の話者
に適応させるために、多数の確認と、比較と、判定を実
行する必要があった。このように、演算の確認の負荷が
大きいために、従来の音声認識技術を実現するために
は、記憶容量が大きく、演算能力が高い高性能なコンピ
ュータシステムが必要であった。

【０００５】そこで、本発明は従来の課題に鑑みてなさ
れたものであり、演算の負荷を軽減して高速な認識を行
うとともに、高い認識精度を維持することができる音声
認識方法を提供することを目的とする。

【０００６】

【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係る音声認識方法は、既に得られている
少なくとも１つの認識結果に基づいて、モデル関数の組
合せにおけるモデル関数の組合せの要素の貢献の少なく
とも一部を認識処理中に変更することにより適応化され
る音響モデルであって、１組のモデル関数の組合せに基
づく現音響モデルを使用する音声認識方法において、認
識処理を、開始音響モデルを現音響モデルをとして使用
して開始し、認識ステップを所定回数実行した後、及び
／又は所定数の認識結果を得た後、現音響モデルに基づ
き、既に得られている少なくとも所定数の認識結果に関
して貢献の度合いが無視できるモデル関数の組合せの要
素を除外することにより、修正音響モデルを生成し、各
認識処理において、修正音響モデルを現音響モデルとし
て継続して使用する。

【０００７】このように、本発明では、多数のモデル関
数の組合せを用いて、話者の音響的特性の広範囲に亘る
変化及び変動をカバーする開始音響モデルを使用する。
現音響モデルから話者又は音響的振舞い及び／又は現在
の話者の特性を記述又はモデリングするために貢献して
いない又は貢献の程度が無視できる程度であるモデル関
数の組合せの要素を除外することにより、モデル関数の
組及び特にモデル関数の組合せとその貢献に関して確認
すべきモデル関数の組合せの要素を削減することができ
る。特定のモデル関数の組合せの要素が認識結果の算出
又は記述及び／又は特定の認識結果の取得に実質的に貢
献していない場合は、そのモデル関数の組合せの要素を
スキップする。したがって、現在の認識処理における後
続する認識ステップは、過去の認識処理において無視で
きるものと判定されたモデル関数の組合せの要素をスキ
ップして、これらに対する確認処理を行わずに実行され
る。

【０００８】音声認識のための従来の技術又は手法と比
較すると、本発明は、与えられた現在の話者に対して、
認識処理の開始段階においては、従来の手法と同様な音
響モデルを使用する。しかしながら、認識結果の数が増
加し、すなわち実行した認識ステップの数が増加するに
つれて、本発明によりモデル関数の組合せの要素の数が
減少し、したがって、現在の認識処理における後続する
認識ステップにおける適応化された現音響モデルにおけ
る残りのモデル関数の組合せの要素を評価する負荷が軽
減される。この結果、本発明に基づく音声認識方法で
は、より少ない記憶容量で、特に認識の精度及び効率を
低下させることなく、音声認識を高速に実行することが
できる。

【０００９】また、本発明係る音声認識方法において、
修正音響モデルは、認識ステップを一定及び／又は所定
回数実行する毎に及び／又は認識結果を一定及び／又は
所定回数取得する毎に、特に認識ステップを１回実行す
る毎に及び／又は認識結果を１回取得する毎に、繰り返
し生成されてもよい。現音響モデルを適応化する前に上
述の処理を繰り返す回数は、音声認識処理に必要とされ
る速度と、即時に更新される現音響モデルに基づく認識
の信頼性とが釣り合うように決定するとよい。

【００１０】適応化を行う前に実行する認識ステップの
回数を所定及び／又は一定とする代わりに、修正音響モ
デルが生成される前に実行される認識ステップ及び／又
は認識結果の取得の回数は、認識及び／又は適応化の現
在の処理において決定及び／又は変更してもよい。

【００１１】本発明の好適な具体例においては、各処理
において、特に開始音響モデル及び／又は現音響モデル
として音響モデルが使用され、該音響モデルのモデル関
数の組合せは、少なくとも分布関数等を含む。特に、ガ
ウス形の関数は、話者の音響的特性をモデリングするの
に好適であり、このような関数を使用することが望まし
い。

【００１２】さらに、本発明に係る音声認識方法の好適
な実施の形態においては、モデル関数の組み合わせは、
それぞれが有限の及び／又は同数の成分を有している関
数ベクトル及び重み付け係数ベクトルに基づいている。
これにより、各関数ベクトル成分は、現在の話者の音響
的振舞いをモデリングする際のその振幅又は貢献を記述
する特定の重み付け係数ベクトルに割り当てられる。異
なるモデル関数の組合せに対しては、それぞれ独立した
数の関数ベクトル又は重み付け係数ベクトル成分を選択
してもよい。なお、全てのモデル関数の組合せにおい
て、関数ベクトル及び重み付け係数ベクトルの成分の数
は同数であることが好ましい。

【００１３】明確なモデル関数の組合せをどのように構
築するかについて特定の単純な記述を用いることができ
れば有益である。そこで、それぞれの場合のモデル関数
の組合せは、重み付け係数ベクトル成分により重み付け
されたベクトル関数成分の一次結合又は累積（superpos
ition）により表現するとよい。特に、モデル関数の組
合せの要素の各々は、重み付け係数ベクトル成分により
重み付けされたベクトル関数成分の一次結合又は累積で
あり、ＭＦＭ_ｊをｊ番目のモデル関数の組合せとし、
ａ_ｊを重み付け係数ベクトルとし、Ａ_ｊ，ｋをそのｋ番
目の成分とし、ｆ_ｊをｊ番目の関数ベクトルとし、ｆ
_ｊ，ｋをそのｋ番目の成分とし、ａ_ｊ ^Ｔをａ_ｊの転置形
とし、・をベクトルのスカラー積又は内積として、以下
の式に示す重み付け係数ベクトルａ_ｊと関数ベクトルの
スカラー積として表される。

【００１４】

【数２】

【００１５】このような構造により、話者の振舞いに関
して、評価、演算及びモデル関数の組合せの構築を容易
に行うことができるとともに、現音響モデルにおけるこ
れらの貢献に関する評価を容易に行うことができる。

【００１６】本発明に基づく音声認識方法の基礎となる
思想は、モデル関数の組合せの要素及びこのモデル関数
の組合せの要素による現在の話者の音響的振舞いの記述
への貢献を定義する点にある。さらに、本発明の好適な
実施の形態においては、モデル関数の組合せの要素は、
特に所定数認識処理が繰り返された後及び／又は認識結
果が取得された後に、その重み付け係数ベクトル成分の
絶対値が所定の閾値を下回る場合、無視できるものと判
定されるこの閾値は、モデル関数の組合せの要素、すな
わち適切な重み付け係数ベクトル成分の振幅が到達すべ
き限界を定義し、これにより、明確なモデル関数の組合
せの要素は、現在の話者の音響的振舞いの記述及びモデ
リングに貢献する。

【００１７】通常、所定の閾値を１回超えなかっただけ
で、そのモデル関数の組合せの要素が無視できるものと
判断するには不十分である。したがって、モデル関数の
組合せの要素は、その重み付け係数ベクトル成分の絶対
値が既に実行されている認識ステップ又は既に取得され
ている認識結果において、所定回数所定の閾値を下回る
場合、無視できるものと判定するとよい。これは、音声
の振舞いの評価及び現音響モデルの適応化において、特
定の重み付け係数ベクトルが所定の閾値を下回った回数
が、所定の回数を超えているか否かを判定することを意
味する。

【００１８】さらに、所定の閾値を下回った状況が、モ
デル関数の組合せの要素が所定回数現在の話者の音声の
振舞いの記述及びモデリングに貢献した状況により分離
されている場合を区別して考慮してもよい。所定の閾値
を下回る状況が連続せず又は一回のみの場合、このモデ
ル関数の組合せの要素を無視できるものと判断しない場
合もある。この場合、モデル関数の組合せの要素は、所
定の閾値を下回る状況が連続する又は相関性を有する場
合に、無視できるものと判断してもよい。

【００１９】さらに、本発明の好適な実施の形態におい
ては、閾値は、各モデル関数の組合せの要素毎に独立し
て、特に認識処理の開始以前に予め定められた及び／又
は固定の値としてもよい。これにより、開始音響モデル
及びその適応化及び評価処理における音響モデルの振舞
いに関する特定の設計を実現できる。モデル関数の組合
せの要素又はモデル関数の組合せの幾つかは、特定の閾
値の組に基づいて、特別な手法で評価することもでき
る。

【００２０】現音響モデルの適応化及び評価処理の間、
認識処理において閾値を固定せずに随時決定及び／又は
変更して調整してもよい。この閾値の適応化及び変更
は、特に入力される音声情報の信号品質及び／又は統計
的及び／又は雑音データに基づいて実行してもよい。

【００２１】本発明は、以下のように要約することがで
きる。

【００２２】従来の話者適応法は、音声認識装置又は音
声認識方法における基底の音響モデルを変形して、現在
の話者の音響的特性及び音声の振舞いに適合させてい
た。音響モデルの基礎となるものは、特にガウス関数形
の多数のモデル関数の組合せである。発声される短音
（phones）、音素、サブワードユニット、音節、単語等
に関する音響的振舞いの大きな変化及び変動を捕捉し及
びカバーするためには、多くのモデル関数の組合せが必
要である。

【００２３】このような手法によっても、従来の音声認
識方法は、音声の振舞いの大きな変動の一部しか取り扱
うことができない。従来の音声認識方法では、現在の認
識処理の度に、現在の話者の記述に必要であるか否かに
関わらず、多数のモデル関数の組合せ及びその成分を評
価しなくてはならないという問題があった。複数回の適
応化ステップの後、モデルは、新たな話者の音響的特性
により良好に適合するように変形される。すなわち、モ
デルは、特定の話者に適合するように変形される。これ
は、変動がより小さくなるために、多くのモデル関数の
組合せを使用する必要がなくなることを意味する。さら
に、このことは、この話者に対するモデル関数の組合せ
の貢献に対して、重みがより高いと表現することもでき
る。

【００２４】したがって、本発明に係る音声認識方法で
は、現音響モデルに含まれるモデル関数の組合せ及びモ
デル関数の組合せの要素を現在の話者の記述に実際に必
要なモデル関数の組合せ及びモデル関数の組合せの要素
に低減する。これにより、処理時間を削減でき、高速な
処理性能を実現できるとともに、記憶容量の負荷を低減
することもできる。

【００２５】現在の話者の適応化処理の後は、現音響モ
デルにおいて、特に全ての可能な話者に関する開始音響
モデルにおける広範囲に亘る変動を考慮する必要がなく
なる。したがって、現音響モデルとして適応化された音
響モデルにおいては、より少ない数のモデル関数の組合
せ及びモデル関数の組合せの要素により十分に現在の話
者の記述及びモデリングを行うことができる。これらの
モデル関数の組合せの要素のみが適応処理において維持
され、正しい認識結果を得るために必要とされる。

【００２６】認識処理又は音声信号において頻繁に観察
される、例えばガウス関数などのモデル関数の組合せの
要素、すなわち、過去の認識処理、取得された認識結果
又は観察された音声フレームに最も適合する成分につい
て、組合せの重み又は重み付け係数ベクトル成分は徐々
に増加される。一方、観察されない他のモデル関数の組
合せの要素については、重み付け係数ベクトル成分は低
減される。このようなモデル関数の組合せの要素の組合
せの重みが上述の所定の閾値を下回った場合、そのモデ
ル関数の組合せの要素は除外される。すなわち、このモ
デル関数の組合せの要素は、これ以降評価されない。こ
れにより、処理時間が速められ、記憶容量を節約するこ
とができる。

【００２７】

【発明の実施の形態】以下、本発明に係る音声認識方法
について、図面を参照にして詳細に説明する。

【００２８】図１は、本発明を適用した音声認識方法の
手順１０を示す図である。

【００２９】まず、ステップＳ１１において、現在の話
者からの音声信号が受信され、処理される。音声信号
は、連続的に受信される音声の一部であってもよく、こ
の音声信号は、音声認識処理のコアであるステップＳ１
２に供給され、ステップＳ１３において音声認識処理の
結果が得られる。すなわち、ステップＳ１２では、ステ
ップＳ１９の１組のモデル関数の組合せ（model functi
on mixture、ＭＦＭ_１・・・ＭＦＭ_ｎ）に基づく現音響
モデル（current acoustic model：以下、ＣＡＭとい
う。）として、ステップ１９ａの開始音響モデル（star
ting acoustic model：以下、ＳＡＭという。）を用
い、音声信号の音声認識を行う。ステップＳ１２におけ
る音声認識及びステップＳ１３の音声認識結果に基づい
て、ステップＳ１４において、オンライン話者適応化
（online speaker adaptation）が開始される。ステッ
プＳ１４のオンライン話者適応化においては、平均ベク
トル、分散（variances）及び組合せ重みａ_ｊ、すなわ
ちガウス関数の組合せ（Gaussian mixtures）の重み付
け係数ベクトル成分が変更される。

【００３０】ステップＳ１５において、組合せ重みａ_ｊ
は、特に既に実行されている現在の認識処理の認識ステ
ップＳ１２に関連付けて評価される。この評価処理にお
いて、重み付け係数ベクトルａ_ｊ，ｋが所定の閾値Ｃ
_ｊ，ｋより小さいガウス関数又は一般的モデル関数の組
合せの要素が現音響モデルから取り出され、取り除かれ
る。

【００３１】次のステップＳ１６において、残りの重み
付け係数ベクトル成分が、各モデル関数の組合せに対し
てその和が１となるようの正規化される。

【００３２】次のステップＳ１７において、現音響モデ
ルＣＡＭは、隠れマルコフモデル等の内部データを含む
ように適応化及び更新され、修正音響モデル（modified
acoustic model：以下、ＭＡＭという。）が形成され
る。

【００３３】次のステップＳ１８において、現音響モデ
ルＣＡＭは、ステップＳ１７において形成された修正音
響モデルＭＡＭに設定される。そして、ステップＳ１９
において、現音響モデルＣＡＭは、次の認識ステップＳ
１２において音声を認識するための規則（rule）とする
ために準備される。

【００３４】ここで、上述したステップＳ１５において
は、重み付け係数ベクトル成分ａ_ｋ _，ｊは、話者適応化
処理用に修正音響モデルＭＡＭの他の成分のうち、所定
の閾値以下の重み付け係数ベクトル成分を低減するよう
に修正される。

【００３５】本発明では、上述したステップＳ１１〜Ｓ
１９の処理を繰り返して、音声認識を行う。すなわち、
既に得られている少なくとも１つの認識結果に基づい
て、モデル関数の組合せ（ＭＦＭ_ｊ）におけるモデル関
数の組合せの要素（ＭＦＭ_ｊ， _ｋ）の貢献の少なくとも
一部を認識処理中に変更することにより適応化される、
１組のモデル関数の組合せ（ＭＦＭ_１・・・ＭＦＭ_ｎ）
に基づく現音響モデル（ＣＡＭ）を用いて音声認識を行
う。そして、認識処理を、開始音響モデル（ＳＡＭ）を
上記現音響モデル（ＣＭ）をとして使用して開始する。
そして、認識処理を所定回数実行した後、及び／又は所
定数の認識結果を得た後、現音響モデル（ＣＡＭ）に基
づき、既に得られている少なくとも所定数の認識結果に
関して貢献の度合いを無視できるモデル関数の組合せの
要素（ＭＦＭ_ｊ，ｋ）を除外することにより、修正音響
モデル（ＭＡＭ）を生成する。各認識処理において、修
正音響モデル（ＭＡＭ）を現音響モデル（ＣＡＭ）とし
て継続して使用する。

【００３６】このように、本発明では、多数のモデル関
数の組合せを用いて、話者の音響的特性の広範囲に亘る
変化及び変動をカバーする開始音響モデルを使用する。
現音響モデルから話者又は音響的振舞い及び／又は現在
の話者の特性を記述又はモデリングするために貢献して
いない又は貢献の程度が無視できる程度であるモデル関
数の組合せの要素を除外することにより、モデル関数の
組及び特にモデル関数の組合せとその貢献に関して確認
すべきモデル関数の組合せの要素を削減することができ
る。特定のモデル関数の組合せの要素が認識結果の算出
又は記述及び／又は特定の認識結果の取得に実質的に貢
献していない場合は、そのモデル関数の組合せの要素を
スキップする。したがって、現在の認識処理における後
続する認識ステップは、過去の認識処理において無視で
きるものと判定されたモデル関数の組合せの要素をスキ
ップして、これらに対する確認処理を行わずに実行され
る。

【００３７】音声認識のための従来の技術又は手法と比
較すると、本発明は、与えられた現在の話者に対して、
認識処理の開始段階においては、従来の手法と同様な音
響モデルを使用する。しかしながら、認識結果の数が増
加し、すなわち実行した認識ステップの数が増加するに
つれて、本発明によりモデル関数の組合せの要素の数が
減少し、したがって、現在の認識処理における後続する
認識ステップにおける適応化された現音響モデルにおけ
る残りのモデル関数の組合せの要素を評価する負荷が軽
減される。この結果、本発明に基づく音声認識方法で
は、より少ない記憶容量で、特に認識の精度及び効率を
低下させることなく、音声認識を高速に実行することが
できる。

【００３８】なお、上述した修正音響モデルは、認識ス
テップを一定及び／又は所定回数実行する毎に及び／又
は認識結果を一定及び／又は所定回数取得する毎に、特
に認識ステップを１回実行する毎に及び／又は認識結果
を１回取得する毎に、繰り返し生成されてもよい。現音
響モデルを適応化する前に上述の処理を繰り返す回数
は、音声認識処理に必要とされる速度と、即時に更新さ
れる現音響モデルに基づく認識の信頼性とが釣り合うよ
うに決定するとよい。

【００３９】また、適応化を行う前に実行する認識ステ
ップの回数を所定及び／又は一定とする代わりに、修正
音響モデルが生成される前に実行される認識ステップ及
び／又は認識結果の取得の回数は、認識及び／又は適応
化の現在の処理において決定及び／又は変更してもよ
い。

【００４０】ところで、上述したように、各認識処理に
おいて、特に開始音響モデル及び／又は現音響モデルと
して音響モデルが使用され、この音響モデルのモデル関
数の組合せは、例えば少なくとも分布関数等を含むよう
にしてもよい。特に、ガウス形の関数は、話者の音響的
特性をモデリングするのに適しているので、このような
関数を使用する。

【００４１】また、モデル関数の組合せは、それぞれが
有限の及び／又は同数の成分を有している関数ベクトル
及び重み付け係数ベクトルに基づいている。これによ
り、各関数ベクトル成分は、現在の話者の音響的振舞い
をモデリングする際のその振幅又は貢献を記述する特定
の重み付け係数ベクトルに割り当てられる。異なるモデ
ル関数の組合せに対しては、それぞれ独立した数の関数
ベクトル又は重み付け係数ベクトル成分を選択してもよ
い。なお、全てのモデル関数の組合せにおいて、関数ベ
クトル及び重み付け係数ベクトルの成分の数は、例えば
同数とする。

【００４２】明確なモデル関数の組合せをどのように構
築するかについて特定の単純な記述を用いることができ
れば有益である。そこで、それぞれの場合のモデル関数
の組合せは、重み付け係数ベクトル成分により重み付け
されたベクトル関数成分の一次結合又は累積（superpos
ition）により表現するとよい。特に、モデル関数の組
合せの要素の各々は、重み付け係数ベクトル成分により
重み付けされたベクトル関数成分の一次結合又は累積で
あり、ＭＦＭ_ｊをｊ番目のモデル関数の組合せとし、
ａ_ｊを重み付け係数ベクトルとし、Ａ_ｊ，ｋをそのｋ番
目の成分とし、ｆ_ｊをｊ番目の関数ベクトルとし、ｆ
_ｊ，ｋをそのｋ番目の成分とし、ａ_ｊ ^Ｔをａ_ｊの転置形
とし、・をベクトルのスカラー積又は内積として、以下
の式に示す重み付け係数ベクトルａ_ｊと関数ベクトルの
スカラー積として表される。

【００４３】

【数３】

【００４４】このような構造により、話者の振舞いに関
して、評価、演算及びモデル関数の組合せの構築を容易
に行うことができるとともに、現音響モデルにおけるこ
れらの貢献に関する評価を容易に行うことができる。

【００４５】本発明に基づく音声認識方法の基礎となる
思想は、モデル関数の組合せの要素及びこのモデル関数
の組合せの要素による現在の話者の音響的振舞いの記述
への貢献を定義する点にある。さらに、本発明の好適な
実施の形態においては、モデル関数の組合せの要素は、
特に所定数認識処理が繰り返された後及び／又は認識結
果が取得された後に、その重み付け係数ベクトル成分の
絶対値が所定の閾値を下回る場合、無視できるものと判
定されるこの閾値は、モデル関数の組合せの要素、すな
わち適切な重み付け係数ベクトル成分の振幅が到達すべ
き限界を定義し、これにより、明確なモデル関数の組合
せの要素は、現在の話者の音響的振舞いの記述及びモデ
リングに貢献する。

【００４６】通常、所定の閾値を１回超えなかっただけ
で、そのモデル関数の組合せの要素が無視できるものと
判断するには不十分である。したがって、モデル関数の
組合せの要素は、その重み付け係数ベクトル成分の絶対
値が既に実行されている認識ステップ又は既に取得され
ている認識結果において、所定回数所定の閾値を下回る
場合、無視できるものと判定するとよい。これは、音声
の振舞いの評価及び現音響モデルの適応化において、特
定の重み付け係数ベクトルが所定の閾値を下回った回数
が、所定の回数を超えているか否かを判定することを意
味する。

【００４７】さらに、所定の閾値を下回った状況が、モ
デル関数の組合せの要素が所定回数現在の話者の音声の
振舞いの記述及びモデリングに貢献した状況により分離
されている場合を区別して考慮してもよい。所定の閾値
を下回る状況が連続せず又は一回のみの場合、このモデ
ル関数の組合せの要素を無視できるものと判断しない場
合もある。この場合、モデル関数の組合せの要素は、所
定の閾値を下回る状況が連続する又は相関性を有する場
合に、無視できるものと判断してもよい。

【００４８】さらに、本発明では、閾値は、各モデル関
数の組合せの要素毎に独立して、特に認識処理の開始以
前に予め定められた及び／又は固定の値としてもよい。
これにより、開始音響モデル及びその適応化及び評価処
理における音響モデルの振舞いに関する特定の設計を実
現できる。モデル関数の組合せの要素又はモデル関数の
組合せの幾つかは、特定の閾値の組に基づいて、特別な
手法で評価することもできる。

【００４９】現音響モデルの適応化及び評価処理の間、
認識処理において閾値を固定せずに随時決定及び／又は
変更して調整してもよい。この閾値の適応化及び変更
は、特に入力される音声情報の信号品質及び／又は統計
的及び／又は雑音データに基づいて実行してもよい。

【００５０】ここで、本発明を、従来の方法と比較して
説明すると、以下のようになる。

【００５１】従来の話者適応法は、音声認識装置又は音
声認識方法における基底の音響モデルを変形して、現在
の話者の音響的特性及び音声の振舞いに適合させてい
た。音響モデルの基礎となるものは、特にガウス関数形
の多数のモデル関数の組合せである。発声される短音
（phones）、音素、サブワードユニット、音節、単語等
に関する音響的振舞いの大きな変化及び変動を捕捉し及
びカバーするためには、多くのモデル関数の組合せが必
要である。

【００５２】このような方法によっても、従来の音声認
識方法は、音声の振舞いの大きな変動の一部しか取り扱
うことができない。従来の音声認識方法では、現在の認
識処理の度に、現在の話者の記述に必要であるか否かに
関わらず、多数のモデル関数の組合せ及びその成分を評
価しなくてはならないという問題があった。複数回の適
応化ステップの後、モデルは、新たな話者の音響的特性
により良好に適合するように変形される。すなわち、モ
デルは、特定の話者に適合するように変形される。これ
は、変動がより小さくなるために、多くのモデル関数の
組合せを使用する必要がなくなることを意味する。さら
に、このことは、この話者に対するモデル関数の組合せ
の貢献に対して、重みがより高いと表現することもでき
る。

【００５３】したがって、本発明に係る音声認識方法で
は、現音響モデルに含まれるモデル関数の組合せ及びモ
デル関数の組合せの要素を現在の話者の記述に実際に必
要なモデル関数の組合せ及びモデル関数の組合せの要素
に低減する。これにより、処理時間を削減でき、高速な
処理性能を実現できるとともに、記憶容量の負荷を低減
することもできる。

【００５４】現在の話者の適応化処理の後は、現音響モ
デルにおいて、特に全ての可能な話者に関する開始音響
モデルにおける広範囲に亘る変動を考慮する必要がなく
なる。したがって、現音響モデルとして適応化された音
響モデルにおいては、より少ない数のモデル関数の組合
せ及びモデル関数の組合せの要素により十分に現在の話
者の記述及びモデリングを行うことができる。これらの
モデル関数の組合せの要素のみが適応処理において維持
され、正しい認識結果を得るために必要とされる。

【００５５】認識処理又は音声信号において頻繁に観察
される、例えばガウス関数などのモデル関数の組合せの
要素、すなわち、過去の認識処理、取得された認識結果
又は観察された音声フレームに最も適合する成分につい
て、組合せの重み又は重み付け係数ベクトル成分は徐々
に増加される。一方、観察されない他のモデル関数の組
合せの要素については、重み付け係数ベクトル成分は低
減される。このようなモデル関数の組合せの要素の組合
せの重みが上述の所定の閾値を下回った場合、そのモデ
ル関数の組合せの要素は除外される。すなわち、このモ
デル関数の組合せの要素は、これ以降評価されない。こ
れにより、処理時間が速められ、記憶容量を節約するこ
とができる。

【００５６】

【発明の効果】以上のように、本発明に係る音声認識方
法では、認識ステップを所定回数実行した後、現音響モ
デルに基づき、既に得られている少なくとも所定数の認
識結果に関して貢献の度合いを無視できるモデル関数の
組合せの要素を除外することにより、修正音響モデルを
生成し、各処理において、この修正音響モデル（ＭＡ
Ｍ）を現音響モデル（ＣＡＭ）として継続して使用す
る。これにより、音声認識のための演算の負荷を軽減し
て高速な認識を行うとともに、高い認識精度を維持する
ことができる。

【図面の簡単な説明】

【図１】本発明に基づく音声認識方法の手順を説明する
図である。

【符号の説明】

───────────────────────────────────────────────────── フロントページの続き (72)発明者コンペ、ラルフドイツ連邦共和国 70327 シュトゥットゥガルトヘデルフィンガーシュトラーセ 61 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドヴァンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者ゴロンジー、シルケドイツ連邦共和国 70327 シュトゥットゥガルトヘデルフィンガーシュトラーセ 61 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドヴァンスドテクノロジーセンターシュトゥットゥガルト内Ｆターム(参考） 5D015 GG01 HH00

Claims

【特許請求の範囲】

【請求項１】既に得られている少なくとも１つの認識
結果に基づいて、モデル関数の組合せ（ＭＦＭ_ｊ）にお
けるモデル関数の組合せの要素（ＭＦＭ_ｊ，ｋ）の貢献
の少なくとも一部を認識処理中に変更することにより適
応化される現音響モデル（ＣＡＭ）であって、１組のモ
デル関数の組合せ（ＭＦＭ_１・・・ＭＦＭ_ｎ）に基づく
上記現音響モデル（ＣＡＭ）を使用する音声認識方法に
おいて、上記認識処理を、開始音響モデル（ＳＡＭ）を
上記現音響モデル（ＣＭ）をとして使用して開始し、認識ステップを所定回数実行した後、及び／又は所定数
の認識結果を得た後、上記現音響モデル（ＣＡＭ）に基
づき、既に得られている少なくとも所定数の認識結果に
関して貢献の度合いを無視できるモデル関数の組合せの
要素（ＭＦＭ_ｊ _，ｋ）を除外することにより、修正音響
モデル（ＭＡＭ）を生成し、各認識処理において、上記修正音響モデル（ＭＡＭ）を
上記現音響モデル（ＣＡＭ）として継続して使用する音
声認識方法。
【請求項２】上記修正音響モデル（ＭＡＭ）は、上記
認識ステップを一定及び／又は所定回数実行する毎に及
び／又は上記認識結果を一定及び／又は所定回数取得す
る毎に、あるいは上記認識ステップを１回実行する毎に
及び／又は上記認識結果を１回取得する毎に、繰り返し
生成されることを特徴とする請求項１記載の音声認識方
法。
【請求項３】上記修正音響モデルが生成される前に実
行される上記認識ステップ及び／又は認識結果の取得の
回数は、認識及び／又は適応化の現在の処理において決
定及び／又は変更されることを特徴とする請求項１又は
２記載の音声認識方法。
【請求項４】各認識処理において、上記開始音響モデ
ル（ＳＡＭ）及び／又は上記現音響モデル（ＣＡＭ）と
して音響モデルが使用され、該音響モデルのモデル関数
の組合せ（ＭＦＭ_ｊ）は、上記モデル関数の組合せの要
素（ＭＦＭ_ｊ， _ｋ）として少なくとも分布関数又はガウ
ス関数を含むことを特徴とする請求項１乃至３いずれか
１項記載の音声認識方法。
【請求項５】上記モデル関数の組合せ（ＭＦＭ_ｊ）
は、それぞれが有限の及び／又は同数（ｎ_ｊ）の成分を
有している関数ベクトル（ｆ_ｊ）及び重み付け係数ベク
トル（ａ_ｊ）に基づいていることを特徴とする請求項１
乃至４いずれか１項記載の音声認識方法。
【請求項６】上記モデル関数の組合せ（ＭＦＭ_ｊ）の
各々は、重み付け係数ベクトル成分（ａ_ｊ，ｋ）により
重み付けされたベクトル関数成分（ｆ_ｊ，ｋ）の一次結
合又は累積であり、ＭＦＭ_ｊをｊ番目のモデル関数の組
合せとし、ａ_ｊを重み付け係数ベクトルとし、Ａ_ｊ，ｋ
をそのｋ番目の成分とし、ｆ_ｊをｊ番目の関数ベクトル
とし、ｆ_ｊ，ｋをそのｋ番目の成分とし、ａ_ｊ ^Ｔをａ_ｊ
の転置形とし、・をベクトルのスカラー積又は内積とし
て、以下の式に示す重み付け係数ベクトルａ_ｊと関数ベ
クトルのスカラー積として表されることを特徴とする請
求項５記載の音声認識方法。【数１】
【請求項７】上記モデル関数の組合せの要素（ＭＦＭ
_ｊ，ｋ）は、その重み付け係数ベクトル成分
（ａ_ｊ，ｋ）の絶対値（｜ａ_ｊ，ｋ｜）が既に実行され
ている認識ステップ又は既に取得されている認識結果に
おいて、？所定回数（ｍ_ｊ _，ｋ）所定の閾値
（ｃ_ｊ，ｋ）を下回る場合、無視できるものと判定され
ることを特徴とする請求項５又は６記載の音声認識方
法。
【請求項８】上記閾値（ｃ_ｊ，ｋ）は、各モデル関数
の組合せの要素（ＭＦＭ_ｊ，ｋ）毎に独立して、認識処
理の開始以前に予め定められた及び／又は固定の値であ
ることを特徴とする請求項７記載の音声認識方法。
【請求項９】上記閾値（ｃ_ｊ，ｋ）は、入力される音
声情報の信号品質及び／又は統計的及び／又は雑音デー
タに基づいて、認識処理の実行中に決定及び／又は変更
されることを特徴とする請求項７又は８記載の音声認識
方法。
【請求項１０】上記重み付け係数ベクトル成分（ａ
_ｊ，ｋ）は、話者の修正音響モデル（ＭＡＭ）の他の成
分のうち、特に所定の閾値以下の重み付け係数ベクトル
成分（ａ_ｊ，ｋ）を低減することにより修正されること
を特徴とする請求項１乃至９いずれか１項記載の音声認
識方法。