JP2005031258A

JP2005031258A - 認識モデル学習装置及び方法

Info

Publication number: JP2005031258A
Application number: JP2003194542A
Authority: JP
Inventors: Hideo Kuboyama; 英生久保山; Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-07-09
Filing date: 2003-07-09
Publication date: 2005-02-03

Abstract

【課題】様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる認識モデル学習装置及び方法を提供する。
【解決手段】パターン認識モデル格納部６０６には、パターン認識装置におけるパターン認識処理に用いられるパターン認識モデルが格納されている。情報入力部６０２から学習用情報が入力され、情報特徴量計算部６０３で情報の特徴量が計算される。ここで、パラメータ変動部６０４でパラメータが変動され、パターン認識モデル学習部６０５において、変動させたパラメータで計算された特徴量を用いてパターン認識モデルが学習される。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
本発明は、パターン認識において用いられるパターン認識モデルの学習及び当該パターン認識モデルを用いたパターン認識等に関する技術に関する。
【０００２】
【従来の技術】
音声認識は、各種情報処理装置に対して、誰でも簡単に音声を用いて指示を与えることができるユーザインタフェースとして注目されている。近年では、隠れマルコフモデル（ＨＭＭ）を音響モデルに用いた音声認識が主流であり、雑音の少ない環境下においては高い認識率で不特定話者の音声を認識することができるようになっている。その一方で、実環境において音声認識を行う場合は、雑音が大きな問題となる。すなわち、実環境等の雑音が比較的多い環境では、雑音によって音声が歪んでしまうと音声認識が困難になり、誤認識がしばしば発生していた。このような誤認識の原因となる雑音には、大きく分けて、車の騒音や周囲の話し声等の環境雑音が主となる加算性雑音と、回線特性が主となる乗算性雑音との２つの雑音がある。
【０００３】
これらの雑音に対処する方法としては、雑音を含んだ原音声から雑音成分を推定し、その雑音成分を減じることにより雑音を含んでいない音声を推定して認識する方法が一般的である。その代表的なものとして、上記加算性雑音を除去するＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ（ＳＳ）法（例えば、非特許文献１参照）や、上記乗算性雑音を除去するＣｅｐｓｔｒｕｍＭｅａｎＳｕｂｔｒａｃｔｉｏｎ（ＣＭＳ）法（例えば、非特許文献２参照）が提案されている。
【０００４】
非特許文献１に記載されているように、ＳＳ法は、非音声区間などで求めた雑音成分を原音声から周波数領域において減じることで、加算性雑音を除去する方法である。また、非特許文献２に記載されているように、ＣＭＳ法は、入力音声の長時間平均をケプストラム（ｃｅｐｓｔｒｕｍ）領域において減じることで、乗算性雑音を除去する方法である。このようなＳＳ法やＣＭＳ法に代表される雑音適応化法を用いることにより、雑音を推定して原音声の特徴量から減ずることによって入力音声の特徴量を雑音のない音声の特徴量に近づけて、認識率の向上を図ることが可能である。
【０００５】
しかし、ＳＳ法やＣＭＳ法を用いた場合であっても、推定した雑音が実際の雑音と大きく異なっているとその効果が得られず、時には認識率を下げてしまうこともある。図１は、ＳＳ法に基づく雑音除去の概要を説明するための図である。図１において、１０１は原音声、１０２は推定した雑音、１０３はＳＳ法により雑音１０２を除去した音声、１０４はＳＳ法を表す式である。通常は、原音声１０１から推定した雑音１０２をそのまま減ずるので、式１０４の減算係数αを１として雑音除去すればよい。しかし、雑音１０２が正しく推定されていない場合には、各周波数において原音声から過剰に減算してしまったり、十分に雑音を減算することができなかったりすることによって、結果として音声を歪ませてしまうことになる。
【０００６】
このような問題の対策として、ＳＳ法における雑音の減算係数αを調節して過剰な減算や不十分な減算を軽減し、認識率を上げるという方法もある（例えば、特許文献１参照）。特許文献１では、音声信号区間の直前区間の雑音のスペクトル包絡に基づいて、周波数ごとに減算係数αを設定している。すなわち、従来は、一定の値又は所定のアルゴリズムで求められた減算係数αを用いて求めた音声特徴量を用いて音声認識のための音響モデルを学習し、認識時にはそれらの一定の値又は同じ所定のアルゴリズムで求められた減算係数αを用いて音声特徴量を求めることにより認識が行われていた。
【０００７】
【特許文献１】
特開２００２−０１４６９４号公報
【非特許文献１】
ＳｔｅｖｅｎＦＢｏｌｌ，「ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅＳｐｅｅｃｈＵｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ」，ＩＥＥＥ，（米国），ＡＳＳＰ−２７，Ｎｏ．２，１９７９年
【非特許文献２】
Ｒａｈｉｍ，ｅｔａｌ．，「ＳｉｇｎａｌＢｉａｓＲｅｍｏｖａｌｆｏｒＲｏｂｕｓｔＴｅｌｅｐｈｏｎｅＢａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｉｎＡｄｖｅｒｓｅＥｎｖｉｒｏｎｍｅｎｔｓ」，（米国）Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ’９４，１９９４年
【０００８】
【発明が解決しようとする課題】
しかしながら、いかに減算係数αを調整した場合であっても、過剰な減算や不十分な減算を完全になくすことは困難である。また、減算係数αを経験的ルールや音声情報に基づいて様々な方法で決定することは、音響モデル学習処理や音声認識処理の煩雑化につながりやすいという問題もある。
【０００９】
本発明は、このような事情を考慮してなされたものであり、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる認識モデル学習装置及び方法を提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記課題を解決するため、本発明に係る認識モデル学習装置は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習装置であって、
前記認識モデルを格納する格納手段と、
学習用の認識情報を入力する入力手段と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する学習手段と
を備えることを特徴とする。
【００１１】
また、本発明は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習方法であって、
前記認識モデルを取得する第１の取得工程と、
学習用の認識情報を取得する第２の取得工程と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算工程と、
前記パラメータを変動させる変動工程と、
前記変動工程によって変動させた前記パラメータで前記計算工程で計算された前記特徴量を用いて、前記第１の取得工程で取得された前記認識モデルを学習する学習工程と
を有することを特徴とする。
【００１２】
【発明の実施の形態】
以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。
【００１３】
＜第１の実施形態＞
第１の実施形態では、各種環境下での音声認識装置による音声認識の認識率を向上させるための音響モデルを学習する音響モデル学習装置について説明する。
【００１４】
図２は、本発明の第１の実施形態に係る音響モデル学習の構成を示すブロック図である。図２において、２０１は、音響モデルの学習に用いる学習用音声データを格納する学習用音声データベースである。２０２は、学習用音声データベース２０１から学習用音声データを入力する音声入力部である。
【００１５】
２０３は、音声入力部２０１により入力された音声を分析して音声特徴量を求める音声特徴量計算部である。２０４は、音声入力部２０２により入力された音声に含まれる雑音成分を推定する雑音推定部である。２０５は、音声特徴量計算部２０３に含まれ、雑音推定部２０４において推定された雑音を音声入力部２０３より入力された音声から除去して、雑音除去後の音声特徴量を求める雑音除去部である。２０６は、雑音除去部２０５において雑音を減算して除去するための減算係数αを所定の範囲で変動させる減算係数変動部である。
【００１６】
また、２０７は、音声特徴量計算部２０３により雑音除去された音声特徴量を用いて音響モデルを学習する音響モデル学習部である。そして、２０８は、音響モデル学習部２０７による学習対象である音響モデルを格納する音響モデル格納部である。尚、この音響モデルは、学習後、本音響モデル学習装置から不図示の音声認識装置に直接出力するようにしたり、再度音響モデル格納部２０８等に記憶するようにしてもよい。
【００１７】
図３は、図２に示す第１の実施形態に係る音響モデル学習装置による音響モデルの学習の手順を説明するためのフローチャートである。以下、図２及び図３を用いて、本実施形態における音響モデル学習について詳細に説明する。
【００１８】
まず、音声入力部２０２により、学習用音声データベース２０１からある１つの音声データを入力する（ステップＳ３０１）。次に、音声特徴量計算部２０３により、入力された音声の音声特徴量を計算する（ステップＳ３０２）。さらに、雑音推定部２０４により入力音声に含まれる雑音成分を推定する（ステップＳ３０３）。このとき、雑音推定の方法はアルゴリズムの種類によって様々な方法を適用することが可能である。例えば、前述したＣＭＳ法のように音声特徴量から求める方法を用いたり、入力音声の非発声区間を利用する場合のように入力音声から求める方法を適用することも可能である。尚、雑音推定部２０４において音声特徴量を用いないで雑音推定する場合は、このステップＳ３０３は音声特徴量計算のステップＳ３０２の後でなくとも良い。また、既に求めた雑音を一音声又は所定時間一定にするような場合は、雑音推定部２０４で雑音推定処理することなく、既に推定されている雑音を雑音除去部２０５に送るようにすれば良い。
【００１９】
次に、減算係数変動部２０６により、雑音除去部２０５で雑音を減算するための減算係数αを所定の範囲のいずれか（例えば、０．７、１．０、１．３の三段階のいずれか）に設定する（ステップＳ３０４）。そして、雑音除去部２０５により、原音声の音声特徴量から雑音成分を減算し、雑音除去した音声特徴量を算出する（ステップＳ３０５）。尚、このとき減算係数には、ステップＳ３０４の減算係数αを変動した処理で設定された値を用いる。尚、雑音の減算方法は雑音除去アルゴリズムによって様々であり、例えばＳＳ法ではスペクトルを減算し、ＣＭＳ法ではケプストラム（ｃｅｐｓｔｒｕｍ）を減算する。
【００２０】
次に、音響モデル学習部２０７によって、音響モデル格納部２０８に格納された音響モデルが読み出され、雑音除去した音声特徴量を用いて当該音響モデルが学習される（ステップＳ３０６）。さらに、音響モデル学習部２０７においては、減算係数の所定の範囲の全ての段階で学習をしたか否かが判定される（ステップＳ３０７）。その結果、全て終了していないと判定された場合（Ｎｏ）、ステップＳ３０４に戻って、減算係数αを次の段階の値に変動して再度上述した処理が行われる。一方、全て終了していると判定された場合（Ｙｅｓ）、音響モデル学習部２０７では、さらに学習用音声データベース２０１の全てのデータを用いて学習がされたか否かが判定される（ステップＳ３０８）。その結果、全て終了していないと判定された場合（Ｎｏ）、ステップＳ３０１に戻って次の音声を入力して、上記処理を実行する。一方、全て終了していると判定された場合（Ｙｅｓ）、音響モデル学習部２０７は学習を終了させて、学習後の音響モデルを再度音響モデル格納部２０８に出力する（ステップＳ３０９）。或いは、不図示の音声認識装置に出力するようにしてもよい。
【００２１】
すなわち、本実施形態に係る音響モデル学習装置は、音声認識装置における音声認識処理に用いられる音響モデルを学習するものであり、音響モデルを格納する音響モデル格納部２０８と、学習用の音声情報を入力する音声入力部２０２と、音声情報の特徴量をパラメータを用いて計算する音声特徴量計算部２０３と、音声情報の特徴量に含まれる雑音成分を推定する雑音推定部２０４と、パラメータを変動させる演算係数変動部２０６と、変動させたパラメータで計算した特徴量を用いて雑音成分を除去する雑音除算部２０５と、雑音成分が除去された特徴量を用いて、音響モデルを学習する音響モデル学習部２０７とを備えることを特徴とする。
【００２２】
また、上記音響モデル学習装置は、音響モデル学習部２０７により学習させた音響モデルを出力する出力手段をさらに備えることを特徴とする。
【００２３】
次に、上述したステップＳ３０４の雑音係数の変動とステップＳ３０５の雑音除去についてさらに詳しく説明する。図４は、減算係数変動部２０６によって設定された減算係数αに基づいて、雑音除去部２０５が雑音を含む原音声の音声特徴量から雑音を減算する様子をＳＳ法を例にとって示した概要図である。図４において、４０１は原音声の１フレームのスペクトル、４０２は推定した雑音のスペクトル、４０３ａ、４０３ｂはそれぞれ減算係数αをα＞１の場合とα＜１の場合とに分け、推定した雑音４０２に乗じて得られた雑音スペクトル、４０４ａ、４０４ｂはそれぞれ原音声４０１から雑音スペクトル４０３ａ、４０３ｂを減算処理した音声のスペクトルである。
【００２４】
雑音除去部２０５は、音声入力部２０２より入力された同じ音声に対して、設定された減算係数αの数だけそれぞれ雑音減算処理を行って、雑音除去済みの音声特徴量を生成する。このとき、α＝１の場合は雑音推定部２０４によって推定された雑音をそのまま減算することになり、α＞１の場合は推定値より多く、α＜１の場合は推定値より少なく減算することになる。すなわち、雑音推定部２０４が、ある程度の精度で雑音を推定しているとすると、雑音を含んだ音声に対してα＞１の場合には過剰な雑音除去が行われ、α＜１の場合には不十分な雑音除去が行われ、α＝１の場合には概ね適切な雑音除去が行われるといった傾向となる。
【００２５】
このように本実施形態では、所定の音声を使って音響モデルの所定の音素列を学習するに際して、過剰な雑音除去、不十分な雑音除去、適切な雑音除去といった多彩な状態の音声特徴量を用いる。そのため、これらの様々な状態に対する音響モデル学習が行われ、音声認識時に、過剰な雑音除去や不十分な雑音除去が起った場合であったとしても耐性の高い音声認識が可能となる。
【００２６】
上述したように、本実施形態では、一つの音声に対して様々な雑音係数αを設定して複数の音声特徴量を生成していたが、本発明はこれだけに限られるものではなく、学習用音声データベース２０１に大量の音声データファイルがある場合には、各音声ファイルに対して異なる一つの雑音係数を設定して音声特徴量を求め、音響モデルを学習するようにしてもよい。
【００２７】
また、上記実施形態では、雑音除去に関する説明に一例としてＳＳ法を用いて説明したが、本発明はこれだけに限られるものではなく、ＣＭＳ法を始めとする音声特徴量に対して行う他の雑音除去手法を適用することが可能である。
【００２８】
＜第２の実施形態＞
上述した第１の実施形態では、雑音除去の減算係数に注目し、これを変動して求まる音声特徴量で学習を行って雑音除去の不都合に頑健な音響モデルを学習したが、本発明の適用は雑音除去に限られるものではなく、音声特徴量算出の際にパラメータを操作する必要があるものに全てに対して有効である。すなわち、音声特徴量を変化させるパラメータを、ルールや経験等に基づいてチューニングする必要がなく、所定の範囲でパラメータを変動させ、それら全てを音響モデルの学習に用いることにより、パラメータの設定による特徴量の変動の影響に対して耐性のある音声認識を行うことができる。
【００２９】
図５は、第２の実施形態に係る音響モデル学習装置の構成を示すブロック図である。図５において、５０１は音声特徴量を求める所定のパラメータを変動させるパラメータ変動部である。また、図５では、第１の実施形態に係る音響モデル学習装置と同一の構成要素については同一の符号を付して示している。このような構成の音響モデル学習装置によれば、パラメータ変動部５０１で設定された各パラメータに基づいて音声特徴量を求め、音響モデルを学習することにより、パラメータが音声特徴量に及ぼす悪影響に対して耐性のある音声認識が可能となるような音響モデルを得ることができる。
【００３０】
＜他の実施形態＞
上記第１の実施形態では、雑音減算係数を変動させる所定の範囲を人手で設定していたが、この範囲を統計的に決定するようにしてもよい。すなわち、学習用音声データベース２０１の各音声データファイルに対して、あらかじめ雑音推定部２０４が雑音を推定しておく。この雑音の平均μと分散σを求めることにより、学習用音声データベース２０１における雑音の変動範囲を判断し、その範囲内で雑音の減算係数αを変動させる。
【００３１】
例えば、ＳＳ法においては、雑音のパワーの平均をμ_ｐ、パワーの分散をσ_ｐ、学習させる一音声の雑音のパワーをＰとして、（μ_ｐ−３σ_ｐ）／Ｐ≦α≦（μ_ｐ＋３σ_ｐ）／Ｐの範囲内で適度に段階分けしてαを変動させるようにする。また、ＣＭＳ法においては、ケプストラムの長時間平均（ＣｅｐｓｔｒｕｍＭｅａｎ）の平均をμ_ｃ、分散をσ_ｃ、学習させる一音声又は話者ごとの音声のケプストラムの長時間平均をＣとして、同様に（μ_ｃ−３σ_ｃ）／Ｃ≦α≦（μ_ｃ＋３σ_ｃ）／Ｃの範囲内でαを変動させる。これによって、大幅に雑音とずれてしまう係数αを人手で設定して悪影響を与えるということがなくなる。
【００３２】
また、上記第１の実施形態では、雑音減算係数αを変動させて、それぞれ同じ重みで学習を行っているが、学習に対する重み付けをαの値によって変えても構わない。例えば、α＝１はその音声に対して雑音推定部２０４が推定した雑音であるので、α＝１に近いほど高い重みで学習させても良い。また、学習用音声データベース２０１の各音声データファイルの雑音の平均μに、αを乗じた雑音が近いほど、高い重みで学習させても良い。
【００３３】
すなわち、本実施形態に係る音響モデル学習装置では、音響モデル学習部２０７が、パラメータの値に応じて音響モデルを学習により更新する度合いを変更することを特徴とする。
【００３４】
また、上記音響モデル学習装置では、演算係数変動部２０６が、雑音推定部２０４により推定された雑音成分の平均及び分散を計算して当該雑音成分の変動範囲を決定し、当該変動範囲に基づいて雑音除去係数を変動することを特徴とする。
【００３５】
さらに、上記第１及び第２の実施形態に係る音響モデル学習装置によって学習された音響モデルを用いて、例えば既知の音声認識装置と組み合わせることによって、より認識率の高い音声認識装置を提供することも可能である。尚、本音声認識装置において音声を分析して音声特徴量を求める場合には、雑音減算係数を所定の値に固定してもよく、所定のアルゴリズムにより変動させてもよい。
【００３６】
さらに、上記実施形態では、音声認識における音響モデルを学習する際に、音声特徴量を求めるためのパラメータの値を変動させて音声特徴量を求め、これらの音声特徴量を用いて音響モデルを学習させることにより、認識時のパラメータの値による悪影響に対して頑健に認識をすることができるものであるが、本発明による技術思想は音声認識に限らず、幅広くパターン認識に適用することができる。
【００３７】
例えば、手書き文字認識の場合、文字の特徴量を求めるための１ステップとして、文字画像から文字画素と背景画素とを分別する処理が必要な場合がある。このとき、分別するパラメータの値によっては、文字の線が途切れてしまったり、離れていなければならない線が繋がってしまうことがある。そこで、文字認識モデルを学習する際に、分別するためのパラメータを変動させ、あえて線が途切れた文字や線が繋がった文字の特徴量を含めて学習させることで、実際の文字認識の際に、文字画素と背景画素を分別するパラメータの値によって線が途切れたり線が繋がったりした文字を認識する場合にも頑健に認識することができ、ロバストなパターン認識処理が可能となる。
【００３８】
図６は、パターン認識に用いられるパターン認識モデルを学習するためのパターン認識モデル学習装置の構成を示すブロック図である。図６において、６０１は学習するパターンを含んだ音声、画像等の学習用情報を保持する学習用情報データベースである。６０２は認識対象の情報を入力する情報入力部である。６０３は情報入力部６０２により入力された情報を分析して、当該情報の特徴量を求める情報特徴量計算部である。６０４は情報特徴量計算部６０３において、情報特徴量を求めるための所定パラメータを所定範囲で変動させるパラメータ変動部である。６０５はパラメータを変動させて求めた情報特徴量を用いてパターン認識モデルを学習するパターン認識モデル学習部である。そして、６０６はパターン認識モデル学習部６０５によって学習されて出力等されるパターン認識に用いられるパターン認識モデルである。尚、パターン認識モデル学習部６０５における学習処理の詳細については、上述した実施形態で説明した音響モデル学習部２０７での学習処理と同様である。
【００３９】
すなわち、本実施形態に係る認識モデル学習装置は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習するものであって、認識モデルを格納するパターン認識モデル格納部６０６と、学習用の認識情報を入力する情報入力部６０２と、認識情報の特徴量をパラメータを用いて計算する情報特徴量計算部６０３と、パラメータを変動させるパラメータ変動部６０４と、パラメータ変動部６０４により変動させたパラメータで計算した特徴量を用いて、認識モデルを学習するパターン認識モデル学習部６０５とを備えることを特徴とする。
【００４０】
また、上記認識モデル学習装置は、認識情報の特徴量に含まれるノイズ成分を推定し、パラメータ変動部６０４により変動させたパラメータで計算した特徴量を用いて、推定したノイズ成分を認識情報の特徴量から除去する。そして、パターン認識モデル学習部６０５は、ノイズ成分が除去された特徴量を用いて、認識モデルを学習することを特徴とする。
【００４１】
さらに、上記認識モデル学習装置は、パターン認識モデル学習部６０５により学習させた認識モデルを出力する出力手段をさらに備えることを特徴とする。
【００４２】
尚、上記実施例においては、プログラムをＲＯＭに保持する場合について説明したが、これだけに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【００４３】
尚、本発明は、複数の機器（例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置等）に適用してもよい。
【００４４】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００４５】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００４６】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【００４７】
【発明の効果】
以上説明したように、本発明によれば、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる。
【図面の簡単な説明】
【図１】ＳＳ法に基づく雑音除去の概要を説明するための図である。
【図２】本発明の第１の実施形態に係る音響モデル学習装置の構成を示すブロック図である。
【図３】図２に示す第１の実施形態に係る音響モデル学習装置による音響モデルの学習の手順を説明するためのフローチャートである。
【図４】減算係数変動部２０６によって設定された減算係数αに基づいて、雑音除去部２０５が雑音を含む原音声の音声特徴量から雑音を減算する様子をＳＳ法を例にとって示した概要図である。
【図５】第２の実施形態に係る音響モデル学習装置の構成を示すブロック図である。
【図６】パターン認識に用いられるパターン認識モデルを学習するためのパターン認識モデル学習装置の構成を示すブロック図である。
【符号の説明】
２０１学習用音声データベース
２０２音声入力部
２０３音声特徴量計算部
２０４雑音推定部
２０５雑音除去部
２０６減算係数変動部
２０７音響モデル学習部
２０８音響モデル

Claims

パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習装置であって、
前記認識モデルを格納する格納手段と、
学習用の認識情報を入力する入力手段と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する学習手段と
を備えることを特徴とする認識モデル学習装置。
前記認識情報の前記特徴量に含まれる雑音成分を推定する推定手段と、
前記変動手段により変動させた前記パラメータを用いて前記雑音成分を前記特徴量から除去する除去手段とをさらに備え、
前記学習手段は、前記雑音成分が除去された前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する
ことを特徴とする請求項１に記載の認識モデル学習装置。
前記学習手段により学習させた前記認識モデルを出力する出力手段をさらに備えることを特徴とする請求項１又は２に記載の認識モデル学習装置。
音声認識装置における音声認識処理に用いられる音響モデルを学習する音響モデル学習装置であって、
前記音響モデルを格納する格納手段と、
学習用の音声情報を入力する入力手段と、
前記音声情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記音響モデルを学習する学習手段と
を備えることを特徴とする音響モデル学習装置。
前記音声情報の前記特徴量に含まれる雑音成分を推定する推定手段と、
前記変動手段により変動させた前記パラメータを用いて前記雑音成分を前記特徴量から除去する除去手段とをさらに備え、
前記学習手段は、前記雑音成分が除去された前記特徴量を用いて、前記格納手段に格納された前記音響モデルを学習する
ことを特徴とする請求項４に記載の音響モデル学習装置。
前記学習手段により学習させた前記音響モデルを出力する出力手段をさらに備えることを特徴とする請求項５に記載の音響モデル学習装置。
前記パラメータが、前記除去手段において前記音声情報から前記雑音成分を減算する割合を示す雑音除去係数であることを特徴とする請求項５記載の音響モデル学習装置。
前記変動手段が、前記推定手段により推定された前記雑音成分の平均及び分散を計算して該雑音成分の変動範囲を決定し、該変動範囲に基づいて前記雑音除去係数を変動することを特徴とする請求項７記載の音響モデル学習装置。
前記推定手段及び前記除去手段が、スペクトラルサブトラクション法に基づいて処理することを特徴とする請求項５から８までのいずれか１項に記載の音響モデル学習装置。
前記推定手段及び前記除去手段が、ＣＭＳ法に基づいて処理することを特徴とする請求項５から８までのいずれか１項に記載の音響モデル学習装置。
請求項１から３までのいずれか１項に記載の認識モデル学習装置によって学習された前記認識モデルを用いてパターン認識を行うことを特徴とするパターン認識装置。
請求項４から１０までのいずれか１項に記載の音響モデル学習装置によって学習された前記音響モデルを用いて音声認識を行うことを特徴とする音声認識装置。
前記学習手段が、前記パラメータの値に応じて、前記認識モデルを学習することにより更新する度合いを変更することを特徴とする請求項１から３までのいずれか１項に記載の認識モデル学習装置。
パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習方法であって、
前記認識モデルを取得する第１の取得工程と、
学習用の認識情報を取得する第２の取得工程と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算工程と、
前記パラメータを変動させる変動工程と、
前記変動工程によって変動させた前記パラメータで前記計算工程で計算された前記特徴量を用いて、前記第１の取得工程で取得された前記認識モデルを学習する学習工程と
を有することを特徴とする認識モデル学習方法。
コンピュータに、パターン認識処理に用いられる認識モデルを学習させるためのプログラムであって、
前記認識モデルを取得する第１の取得手順と、
学習用の認識情報を取得する第２の取得手順と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手順と、
前記パラメータを変動させる変動手順と、
前記変動手順によって変動させた前記パラメータで前記計算手順で計算された前記特徴量を用いて、前記第１の取得手順で取得された前記認識モデルを学習する学習手順と
を実行するためのプログラム。
請求項１５に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。