JP2005031258A - 認識モデル学習装置及び方法 - Google Patents
認識モデル学習装置及び方法 Download PDFInfo
- Publication number
- JP2005031258A JP2005031258A JP2003194542A JP2003194542A JP2005031258A JP 2005031258 A JP2005031258 A JP 2005031258A JP 2003194542 A JP2003194542 A JP 2003194542A JP 2003194542 A JP2003194542 A JP 2003194542A JP 2005031258 A JP2005031258 A JP 2005031258A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- recognition
- unit
- feature amount
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる認識モデル学習装置及び方法を提供する。
【解決手段】パターン認識モデル格納部606には、パターン認識装置におけるパターン認識処理に用いられるパターン認識モデルが格納されている。情報入力部602から学習用情報が入力され、情報特徴量計算部603で情報の特徴量が計算される。ここで、パラメータ変動部604でパラメータが変動され、パターン認識モデル学習部605において、変動させたパラメータで計算された特徴量を用いてパターン認識モデルが学習される。
【選択図】 図6
【解決手段】パターン認識モデル格納部606には、パターン認識装置におけるパターン認識処理に用いられるパターン認識モデルが格納されている。情報入力部602から学習用情報が入力され、情報特徴量計算部603で情報の特徴量が計算される。ここで、パラメータ変動部604でパラメータが変動され、パターン認識モデル学習部605において、変動させたパラメータで計算された特徴量を用いてパターン認識モデルが学習される。
【選択図】 図6
Description
【0001】
【発明の属する技術分野】
本発明は、パターン認識において用いられるパターン認識モデルの学習及び当該パターン認識モデルを用いたパターン認識等に関する技術に関する。
【0002】
【従来の技術】
音声認識は、各種情報処理装置に対して、誰でも簡単に音声を用いて指示を与えることができるユーザインタフェースとして注目されている。近年では、隠れマルコフモデル(HMM)を音響モデルに用いた音声認識が主流であり、雑音の少ない環境下においては高い認識率で不特定話者の音声を認識することができるようになっている。その一方で、実環境において音声認識を行う場合は、雑音が大きな問題となる。すなわち、実環境等の雑音が比較的多い環境では、雑音によって音声が歪んでしまうと音声認識が困難になり、誤認識がしばしば発生していた。このような誤認識の原因となる雑音には、大きく分けて、車の騒音や周囲の話し声等の環境雑音が主となる加算性雑音と、回線特性が主となる乗算性雑音との2つの雑音がある。
【0003】
これらの雑音に対処する方法としては、雑音を含んだ原音声から雑音成分を推定し、その雑音成分を減じることにより雑音を含んでいない音声を推定して認識する方法が一般的である。その代表的なものとして、上記加算性雑音を除去するSpectral Subtraction(SS)法(例えば、非特許文献1参照)や、上記乗算性雑音を除去するCepstrum Mean Subtraction(CMS)法(例えば、非特許文献2参照)が提案されている。
【0004】
非特許文献1に記載されているように、SS法は、非音声区間などで求めた雑音成分を原音声から周波数領域において減じることで、加算性雑音を除去する方法である。また、非特許文献2に記載されているように、CMS法は、入力音声の長時間平均をケプストラム(cepstrum)領域において減じることで、乗算性雑音を除去する方法である。このようなSS法やCMS法に代表される雑音適応化法を用いることにより、雑音を推定して原音声の特徴量から減ずることによって入力音声の特徴量を雑音のない音声の特徴量に近づけて、認識率の向上を図ることが可能である。
【0005】
しかし、SS法やCMS法を用いた場合であっても、推定した雑音が実際の雑音と大きく異なっているとその効果が得られず、時には認識率を下げてしまうこともある。図1は、SS法に基づく雑音除去の概要を説明するための図である。図1において、101は原音声、102は推定した雑音、103はSS法により雑音102を除去した音声、104はSS法を表す式である。通常は、原音声101から推定した雑音102をそのまま減ずるので、式104の減算係数αを1として雑音除去すればよい。しかし、雑音102が正しく推定されていない場合には、各周波数において原音声から過剰に減算してしまったり、十分に雑音を減算することができなかったりすることによって、結果として音声を歪ませてしまうことになる。
【0006】
このような問題の対策として、SS法における雑音の減算係数αを調節して過剰な減算や不十分な減算を軽減し、認識率を上げるという方法もある(例えば、特許文献1参照)。特許文献1では、音声信号区間の直前区間の雑音のスペクトル包絡に基づいて、周波数ごとに減算係数αを設定している。すなわち、従来は、一定の値又は所定のアルゴリズムで求められた減算係数αを用いて求めた音声特徴量を用いて音声認識のための音響モデルを学習し、認識時にはそれらの一定の値又は同じ所定のアルゴリズムで求められた減算係数αを用いて音声特徴量を求めることにより認識が行われていた。
【0007】
【特許文献1】
特開2002−014694号公報
【非特許文献1】
Steven F Boll,「Suppression of Acoustic Noise Speech Using Spectral Subtraction」,IEEE,(米国),ASSP−27,No.2,1979年
【非特許文献2】
Rahim, et al.,「Signal BiasRemoval for Robust Telephone Based Speech Recognition in Adverse Environments」,(米国)Proc. of ICASSP’94,1994年
【0008】
【発明が解決しようとする課題】
しかしながら、いかに減算係数αを調整した場合であっても、過剰な減算や不十分な減算を完全になくすことは困難である。また、減算係数αを経験的ルールや音声情報に基づいて様々な方法で決定することは、音響モデル学習処理や音声認識処理の煩雑化につながりやすいという問題もある。
【0009】
本発明は、このような事情を考慮してなされたものであり、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる認識モデル学習装置及び方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
上記課題を解決するため、本発明に係る認識モデル学習装置は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習装置であって、
前記認識モデルを格納する格納手段と、
学習用の認識情報を入力する入力手段と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する学習手段と
を備えることを特徴とする。
【0011】
また、本発明は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習方法であって、
前記認識モデルを取得する第1の取得工程と、
学習用の認識情報を取得する第2の取得工程と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算工程と、
前記パラメータを変動させる変動工程と、
前記変動工程によって変動させた前記パラメータで前記計算工程で計算された前記特徴量を用いて、前記第1の取得工程で取得された前記認識モデルを学習する学習工程と
を有することを特徴とする。
【0012】
【発明の実施の形態】
以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。
【0013】
<第1の実施形態>
第1の実施形態では、各種環境下での音声認識装置による音声認識の認識率を向上させるための音響モデルを学習する音響モデル学習装置について説明する。
【0014】
図2は、本発明の第1の実施形態に係る音響モデル学習の構成を示すブロック図である。図2において、201は、音響モデルの学習に用いる学習用音声データを格納する学習用音声データベースである。202は、学習用音声データベース201から学習用音声データを入力する音声入力部である。
【0015】
203は、音声入力部201により入力された音声を分析して音声特徴量を求める音声特徴量計算部である。204は、音声入力部202により入力された音声に含まれる雑音成分を推定する雑音推定部である。205は、音声特徴量計算部203に含まれ、雑音推定部204において推定された雑音を音声入力部203より入力された音声から除去して、雑音除去後の音声特徴量を求める雑音除去部である。206は、雑音除去部205において雑音を減算して除去するための減算係数αを所定の範囲で変動させる減算係数変動部である。
【0016】
また、207は、音声特徴量計算部203により雑音除去された音声特徴量を用いて音響モデルを学習する音響モデル学習部である。そして、208は、音響モデル学習部207による学習対象である音響モデルを格納する音響モデル格納部である。尚、この音響モデルは、学習後、本音響モデル学習装置から不図示の音声認識装置に直接出力するようにしたり、再度音響モデル格納部208等に記憶するようにしてもよい。
【0017】
図3は、図2に示す第1の実施形態に係る音響モデル学習装置による音響モデルの学習の手順を説明するためのフローチャートである。以下、図2及び図3を用いて、本実施形態における音響モデル学習について詳細に説明する。
【0018】
まず、音声入力部202により、学習用音声データベース201からある1つの音声データを入力する(ステップS301)。次に、音声特徴量計算部203により、入力された音声の音声特徴量を計算する(ステップS302)。さらに、雑音推定部204により入力音声に含まれる雑音成分を推定する(ステップS303)。このとき、雑音推定の方法はアルゴリズムの種類によって様々な方法を適用することが可能である。例えば、前述したCMS法のように音声特徴量から求める方法を用いたり、入力音声の非発声区間を利用する場合のように入力音声から求める方法を適用することも可能である。尚、雑音推定部204において音声特徴量を用いないで雑音推定する場合は、このステップS303は音声特徴量計算のステップS302の後でなくとも良い。また、既に求めた雑音を一音声又は所定時間一定にするような場合は、雑音推定部204で雑音推定処理することなく、既に推定されている雑音を雑音除去部205に送るようにすれば良い。
【0019】
次に、減算係数変動部206により、雑音除去部205で雑音を減算するための減算係数αを所定の範囲のいずれか(例えば、0.7、1.0、1.3の三段階のいずれか)に設定する(ステップS304)。そして、雑音除去部205により、原音声の音声特徴量から雑音成分を減算し、雑音除去した音声特徴量を算出する(ステップS305)。尚、このとき減算係数には、ステップS304の減算係数αを変動した処理で設定された値を用いる。尚、雑音の減算方法は雑音除去アルゴリズムによって様々であり、例えばSS法ではスペクトルを減算し、CMS法ではケプストラム(cepstrum)を減算する。
【0020】
次に、音響モデル学習部207によって、音響モデル格納部208に格納された音響モデルが読み出され、雑音除去した音声特徴量を用いて当該音響モデルが学習される(ステップS306)。さらに、音響モデル学習部207においては、減算係数の所定の範囲の全ての段階で学習をしたか否かが判定される(ステップS307)。その結果、全て終了していないと判定された場合(No)、ステップS304に戻って、減算係数αを次の段階の値に変動して再度上述した処理が行われる。一方、全て終了していると判定された場合(Yes)、音響モデル学習部207では、さらに学習用音声データベース201の全てのデータを用いて学習がされたか否かが判定される(ステップS308)。その結果、全て終了していないと判定された場合(No)、ステップS301に戻って次の音声を入力して、上記処理を実行する。一方、全て終了していると判定された場合(Yes)、音響モデル学習部207は学習を終了させて、学習後の音響モデルを再度音響モデル格納部208に出力する(ステップS309)。或いは、不図示の音声認識装置に出力するようにしてもよい。
【0021】
すなわち、本実施形態に係る音響モデル学習装置は、音声認識装置における音声認識処理に用いられる音響モデルを学習するものであり、音響モデルを格納する音響モデル格納部208と、学習用の音声情報を入力する音声入力部202と、音声情報の特徴量をパラメータを用いて計算する音声特徴量計算部203と、音声情報の特徴量に含まれる雑音成分を推定する雑音推定部204と、パラメータを変動させる演算係数変動部206と、変動させたパラメータで計算した特徴量を用いて雑音成分を除去する雑音除算部205と、雑音成分が除去された特徴量を用いて、音響モデルを学習する音響モデル学習部207とを備えることを特徴とする。
【0022】
また、上記音響モデル学習装置は、音響モデル学習部207により学習させた音響モデルを出力する出力手段をさらに備えることを特徴とする。
【0023】
次に、上述したステップS304の雑音係数の変動とステップS305の雑音除去についてさらに詳しく説明する。図4は、減算係数変動部206によって設定された減算係数αに基づいて、雑音除去部205が雑音を含む原音声の音声特徴量から雑音を減算する様子をSS法を例にとって示した概要図である。図4において、401は原音声の1フレームのスペクトル、402は推定した雑音のスペクトル、403a、403bはそれぞれ減算係数αをα>1の場合とα<1の場合とに分け、推定した雑音402に乗じて得られた雑音スペクトル、404a、404bはそれぞれ原音声401から雑音スペクトル403a、403bを減算処理した音声のスペクトルである。
【0024】
雑音除去部205は、音声入力部202より入力された同じ音声に対して、設定された減算係数αの数だけそれぞれ雑音減算処理を行って、雑音除去済みの音声特徴量を生成する。このとき、α=1の場合は雑音推定部204によって推定された雑音をそのまま減算することになり、α>1の場合は推定値より多く、α<1の場合は推定値より少なく減算することになる。すなわち、雑音推定部204が、ある程度の精度で雑音を推定しているとすると、雑音を含んだ音声に対してα>1の場合には過剰な雑音除去が行われ、α<1の場合には不十分な雑音除去が行われ、α=1の場合には概ね適切な雑音除去が行われるといった傾向となる。
【0025】
このように本実施形態では、所定の音声を使って音響モデルの所定の音素列を学習するに際して、過剰な雑音除去、不十分な雑音除去、適切な雑音除去といった多彩な状態の音声特徴量を用いる。そのため、これらの様々な状態に対する音響モデル学習が行われ、音声認識時に、過剰な雑音除去や不十分な雑音除去が起った場合であったとしても耐性の高い音声認識が可能となる。
【0026】
上述したように、本実施形態では、一つの音声に対して様々な雑音係数αを設定して複数の音声特徴量を生成していたが、本発明はこれだけに限られるものではなく、学習用音声データベース201に大量の音声データファイルがある場合には、各音声ファイルに対して異なる一つの雑音係数を設定して音声特徴量を求め、音響モデルを学習するようにしてもよい。
【0027】
また、上記実施形態では、雑音除去に関する説明に一例としてSS法を用いて説明したが、本発明はこれだけに限られるものではなく、CMS法を始めとする音声特徴量に対して行う他の雑音除去手法を適用することが可能である。
【0028】
<第2の実施形態>
上述した第1の実施形態では、雑音除去の減算係数に注目し、これを変動して求まる音声特徴量で学習を行って雑音除去の不都合に頑健な音響モデルを学習したが、本発明の適用は雑音除去に限られるものではなく、音声特徴量算出の際にパラメータを操作する必要があるものに全てに対して有効である。すなわち、音声特徴量を変化させるパラメータを、ルールや経験等に基づいてチューニングする必要がなく、所定の範囲でパラメータを変動させ、それら全てを音響モデルの学習に用いることにより、パラメータの設定による特徴量の変動の影響に対して耐性のある音声認識を行うことができる。
【0029】
図5は、第2の実施形態に係る音響モデル学習装置の構成を示すブロック図である。図5において、501は音声特徴量を求める所定のパラメータを変動させるパラメータ変動部である。また、図5では、第1の実施形態に係る音響モデル学習装置と同一の構成要素については同一の符号を付して示している。このような構成の音響モデル学習装置によれば、パラメータ変動部501で設定された各パラメータに基づいて音声特徴量を求め、音響モデルを学習することにより、パラメータが音声特徴量に及ぼす悪影響に対して耐性のある音声認識が可能となるような音響モデルを得ることができる。
【0030】
<他の実施形態>
上記第1の実施形態では、雑音減算係数を変動させる所定の範囲を人手で設定していたが、この範囲を統計的に決定するようにしてもよい。すなわち、学習用音声データベース201の各音声データファイルに対して、あらかじめ雑音推定部204が雑音を推定しておく。この雑音の平均μと分散σを求めることにより、学習用音声データベース201における雑音の変動範囲を判断し、その範囲内で雑音の減算係数αを変動させる。
【0031】
例えば、SS法においては、雑音のパワーの平均をμp、パワーの分散をσp、学習させる一音声の雑音のパワーをPとして、(μp−3σp)/P≦α≦(μp+3σp)/Pの範囲内で適度に段階分けしてαを変動させるようにする。また、CMS法においては、ケプストラムの長時間平均(Cepstrum Mean)の平均をμc、分散をσc、学習させる一音声又は話者ごとの音声のケプストラムの長時間平均をCとして、同様に(μc−3σc)/C≦α≦(μc+3σc)/Cの範囲内でαを変動させる。これによって、大幅に雑音とずれてしまう係数αを人手で設定して悪影響を与えるということがなくなる。
【0032】
また、上記第1の実施形態では、雑音減算係数αを変動させて、それぞれ同じ重みで学習を行っているが、学習に対する重み付けをαの値によって変えても構わない。例えば、α=1はその音声に対して雑音推定部204が推定した雑音であるので、α=1に近いほど高い重みで学習させても良い。また、学習用音声データベース201の各音声データファイルの雑音の平均μに、αを乗じた雑音が近いほど、高い重みで学習させても良い。
【0033】
すなわち、本実施形態に係る音響モデル学習装置では、音響モデル学習部207が、パラメータの値に応じて音響モデルを学習により更新する度合いを変更することを特徴とする。
【0034】
また、上記音響モデル学習装置では、演算係数変動部206が、雑音推定部204により推定された雑音成分の平均及び分散を計算して当該雑音成分の変動範囲を決定し、当該変動範囲に基づいて雑音除去係数を変動することを特徴とする。
【0035】
さらに、上記第1及び第2の実施形態に係る音響モデル学習装置によって学習された音響モデルを用いて、例えば既知の音声認識装置と組み合わせることによって、より認識率の高い音声認識装置を提供することも可能である。尚、本音声認識装置において音声を分析して音声特徴量を求める場合には、雑音減算係数を所定の値に固定してもよく、所定のアルゴリズムにより変動させてもよい。
【0036】
さらに、上記実施形態では、音声認識における音響モデルを学習する際に、音声特徴量を求めるためのパラメータの値を変動させて音声特徴量を求め、これらの音声特徴量を用いて音響モデルを学習させることにより、認識時のパラメータの値による悪影響に対して頑健に認識をすることができるものであるが、本発明による技術思想は音声認識に限らず、幅広くパターン認識に適用することができる。
【0037】
例えば、手書き文字認識の場合、文字の特徴量を求めるための1ステップとして、文字画像から文字画素と背景画素とを分別する処理が必要な場合がある。このとき、分別するパラメータの値によっては、文字の線が途切れてしまったり、離れていなければならない線が繋がってしまうことがある。そこで、文字認識モデルを学習する際に、分別するためのパラメータを変動させ、あえて線が途切れた文字や線が繋がった文字の特徴量を含めて学習させることで、実際の文字認識の際に、文字画素と背景画素を分別するパラメータの値によって線が途切れたり線が繋がったりした文字を認識する場合にも頑健に認識することができ、ロバストなパターン認識処理が可能となる。
【0038】
図6は、パターン認識に用いられるパターン認識モデルを学習するためのパターン認識モデル学習装置の構成を示すブロック図である。図6において、601は学習するパターンを含んだ音声、画像等の学習用情報を保持する学習用情報データベースである。602は認識対象の情報を入力する情報入力部である。603は情報入力部602により入力された情報を分析して、当該情報の特徴量を求める情報特徴量計算部である。604は情報特徴量計算部603において、情報特徴量を求めるための所定パラメータを所定範囲で変動させるパラメータ変動部である。605はパラメータを変動させて求めた情報特徴量を用いてパターン認識モデルを学習するパターン認識モデル学習部である。そして、606はパターン認識モデル学習部605によって学習されて出力等されるパターン認識に用いられるパターン認識モデルである。尚、パターン認識モデル学習部605における学習処理の詳細については、上述した実施形態で説明した音響モデル学習部207での学習処理と同様である。
【0039】
すなわち、本実施形態に係る認識モデル学習装置は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習するものであって、認識モデルを格納するパターン認識モデル格納部606と、学習用の認識情報を入力する情報入力部602と、認識情報の特徴量をパラメータを用いて計算する情報特徴量計算部603と、パラメータを変動させるパラメータ変動部604と、パラメータ変動部604により変動させたパラメータで計算した特徴量を用いて、認識モデルを学習するパターン認識モデル学習部605とを備えることを特徴とする。
【0040】
また、上記認識モデル学習装置は、認識情報の特徴量に含まれるノイズ成分を推定し、パラメータ変動部604により変動させたパラメータで計算した特徴量を用いて、推定したノイズ成分を認識情報の特徴量から除去する。そして、パターン認識モデル学習部605は、ノイズ成分が除去された特徴量を用いて、認識モデルを学習することを特徴とする。
【0041】
さらに、上記認識モデル学習装置は、パターン認識モデル学習部605により学習させた認識モデルを出力する出力手段をさらに備えることを特徴とする。
【0042】
尚、上記実施例においては、プログラムをROMに保持する場合について説明したが、これだけに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0043】
尚、本発明は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。
【0044】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0045】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0046】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【0047】
【発明の効果】
以上説明したように、本発明によれば、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる。
【図面の簡単な説明】
【図1】SS法に基づく雑音除去の概要を説明するための図である。
【図2】本発明の第1の実施形態に係る音響モデル学習装置の構成を示すブロック図である。
【図3】図2に示す第1の実施形態に係る音響モデル学習装置による音響モデルの学習の手順を説明するためのフローチャートである。
【図4】減算係数変動部206によって設定された減算係数αに基づいて、雑音除去部205が雑音を含む原音声の音声特徴量から雑音を減算する様子をSS法を例にとって示した概要図である。
【図5】第2の実施形態に係る音響モデル学習装置の構成を示すブロック図である。
【図6】パターン認識に用いられるパターン認識モデルを学習するためのパターン認識モデル学習装置の構成を示すブロック図である。
【符号の説明】
201 学習用音声データベース
202 音声入力部
203 音声特徴量計算部
204 雑音推定部
205 雑音除去部
206 減算係数変動部
207 音響モデル学習部
208 音響モデル
【発明の属する技術分野】
本発明は、パターン認識において用いられるパターン認識モデルの学習及び当該パターン認識モデルを用いたパターン認識等に関する技術に関する。
【0002】
【従来の技術】
音声認識は、各種情報処理装置に対して、誰でも簡単に音声を用いて指示を与えることができるユーザインタフェースとして注目されている。近年では、隠れマルコフモデル(HMM)を音響モデルに用いた音声認識が主流であり、雑音の少ない環境下においては高い認識率で不特定話者の音声を認識することができるようになっている。その一方で、実環境において音声認識を行う場合は、雑音が大きな問題となる。すなわち、実環境等の雑音が比較的多い環境では、雑音によって音声が歪んでしまうと音声認識が困難になり、誤認識がしばしば発生していた。このような誤認識の原因となる雑音には、大きく分けて、車の騒音や周囲の話し声等の環境雑音が主となる加算性雑音と、回線特性が主となる乗算性雑音との2つの雑音がある。
【0003】
これらの雑音に対処する方法としては、雑音を含んだ原音声から雑音成分を推定し、その雑音成分を減じることにより雑音を含んでいない音声を推定して認識する方法が一般的である。その代表的なものとして、上記加算性雑音を除去するSpectral Subtraction(SS)法(例えば、非特許文献1参照)や、上記乗算性雑音を除去するCepstrum Mean Subtraction(CMS)法(例えば、非特許文献2参照)が提案されている。
【0004】
非特許文献1に記載されているように、SS法は、非音声区間などで求めた雑音成分を原音声から周波数領域において減じることで、加算性雑音を除去する方法である。また、非特許文献2に記載されているように、CMS法は、入力音声の長時間平均をケプストラム(cepstrum)領域において減じることで、乗算性雑音を除去する方法である。このようなSS法やCMS法に代表される雑音適応化法を用いることにより、雑音を推定して原音声の特徴量から減ずることによって入力音声の特徴量を雑音のない音声の特徴量に近づけて、認識率の向上を図ることが可能である。
【0005】
しかし、SS法やCMS法を用いた場合であっても、推定した雑音が実際の雑音と大きく異なっているとその効果が得られず、時には認識率を下げてしまうこともある。図1は、SS法に基づく雑音除去の概要を説明するための図である。図1において、101は原音声、102は推定した雑音、103はSS法により雑音102を除去した音声、104はSS法を表す式である。通常は、原音声101から推定した雑音102をそのまま減ずるので、式104の減算係数αを1として雑音除去すればよい。しかし、雑音102が正しく推定されていない場合には、各周波数において原音声から過剰に減算してしまったり、十分に雑音を減算することができなかったりすることによって、結果として音声を歪ませてしまうことになる。
【0006】
このような問題の対策として、SS法における雑音の減算係数αを調節して過剰な減算や不十分な減算を軽減し、認識率を上げるという方法もある(例えば、特許文献1参照)。特許文献1では、音声信号区間の直前区間の雑音のスペクトル包絡に基づいて、周波数ごとに減算係数αを設定している。すなわち、従来は、一定の値又は所定のアルゴリズムで求められた減算係数αを用いて求めた音声特徴量を用いて音声認識のための音響モデルを学習し、認識時にはそれらの一定の値又は同じ所定のアルゴリズムで求められた減算係数αを用いて音声特徴量を求めることにより認識が行われていた。
【0007】
【特許文献1】
特開2002−014694号公報
【非特許文献1】
Steven F Boll,「Suppression of Acoustic Noise Speech Using Spectral Subtraction」,IEEE,(米国),ASSP−27,No.2,1979年
【非特許文献2】
Rahim, et al.,「Signal BiasRemoval for Robust Telephone Based Speech Recognition in Adverse Environments」,(米国)Proc. of ICASSP’94,1994年
【0008】
【発明が解決しようとする課題】
しかしながら、いかに減算係数αを調整した場合であっても、過剰な減算や不十分な減算を完全になくすことは困難である。また、減算係数αを経験的ルールや音声情報に基づいて様々な方法で決定することは、音響モデル学習処理や音声認識処理の煩雑化につながりやすいという問題もある。
【0009】
本発明は、このような事情を考慮してなされたものであり、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる認識モデル学習装置及び方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
上記課題を解決するため、本発明に係る認識モデル学習装置は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習装置であって、
前記認識モデルを格納する格納手段と、
学習用の認識情報を入力する入力手段と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する学習手段と
を備えることを特徴とする。
【0011】
また、本発明は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習方法であって、
前記認識モデルを取得する第1の取得工程と、
学習用の認識情報を取得する第2の取得工程と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算工程と、
前記パラメータを変動させる変動工程と、
前記変動工程によって変動させた前記パラメータで前記計算工程で計算された前記特徴量を用いて、前記第1の取得工程で取得された前記認識モデルを学習する学習工程と
を有することを特徴とする。
【0012】
【発明の実施の形態】
以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。
【0013】
<第1の実施形態>
第1の実施形態では、各種環境下での音声認識装置による音声認識の認識率を向上させるための音響モデルを学習する音響モデル学習装置について説明する。
【0014】
図2は、本発明の第1の実施形態に係る音響モデル学習の構成を示すブロック図である。図2において、201は、音響モデルの学習に用いる学習用音声データを格納する学習用音声データベースである。202は、学習用音声データベース201から学習用音声データを入力する音声入力部である。
【0015】
203は、音声入力部201により入力された音声を分析して音声特徴量を求める音声特徴量計算部である。204は、音声入力部202により入力された音声に含まれる雑音成分を推定する雑音推定部である。205は、音声特徴量計算部203に含まれ、雑音推定部204において推定された雑音を音声入力部203より入力された音声から除去して、雑音除去後の音声特徴量を求める雑音除去部である。206は、雑音除去部205において雑音を減算して除去するための減算係数αを所定の範囲で変動させる減算係数変動部である。
【0016】
また、207は、音声特徴量計算部203により雑音除去された音声特徴量を用いて音響モデルを学習する音響モデル学習部である。そして、208は、音響モデル学習部207による学習対象である音響モデルを格納する音響モデル格納部である。尚、この音響モデルは、学習後、本音響モデル学習装置から不図示の音声認識装置に直接出力するようにしたり、再度音響モデル格納部208等に記憶するようにしてもよい。
【0017】
図3は、図2に示す第1の実施形態に係る音響モデル学習装置による音響モデルの学習の手順を説明するためのフローチャートである。以下、図2及び図3を用いて、本実施形態における音響モデル学習について詳細に説明する。
【0018】
まず、音声入力部202により、学習用音声データベース201からある1つの音声データを入力する(ステップS301)。次に、音声特徴量計算部203により、入力された音声の音声特徴量を計算する(ステップS302)。さらに、雑音推定部204により入力音声に含まれる雑音成分を推定する(ステップS303)。このとき、雑音推定の方法はアルゴリズムの種類によって様々な方法を適用することが可能である。例えば、前述したCMS法のように音声特徴量から求める方法を用いたり、入力音声の非発声区間を利用する場合のように入力音声から求める方法を適用することも可能である。尚、雑音推定部204において音声特徴量を用いないで雑音推定する場合は、このステップS303は音声特徴量計算のステップS302の後でなくとも良い。また、既に求めた雑音を一音声又は所定時間一定にするような場合は、雑音推定部204で雑音推定処理することなく、既に推定されている雑音を雑音除去部205に送るようにすれば良い。
【0019】
次に、減算係数変動部206により、雑音除去部205で雑音を減算するための減算係数αを所定の範囲のいずれか(例えば、0.7、1.0、1.3の三段階のいずれか)に設定する(ステップS304)。そして、雑音除去部205により、原音声の音声特徴量から雑音成分を減算し、雑音除去した音声特徴量を算出する(ステップS305)。尚、このとき減算係数には、ステップS304の減算係数αを変動した処理で設定された値を用いる。尚、雑音の減算方法は雑音除去アルゴリズムによって様々であり、例えばSS法ではスペクトルを減算し、CMS法ではケプストラム(cepstrum)を減算する。
【0020】
次に、音響モデル学習部207によって、音響モデル格納部208に格納された音響モデルが読み出され、雑音除去した音声特徴量を用いて当該音響モデルが学習される(ステップS306)。さらに、音響モデル学習部207においては、減算係数の所定の範囲の全ての段階で学習をしたか否かが判定される(ステップS307)。その結果、全て終了していないと判定された場合(No)、ステップS304に戻って、減算係数αを次の段階の値に変動して再度上述した処理が行われる。一方、全て終了していると判定された場合(Yes)、音響モデル学習部207では、さらに学習用音声データベース201の全てのデータを用いて学習がされたか否かが判定される(ステップS308)。その結果、全て終了していないと判定された場合(No)、ステップS301に戻って次の音声を入力して、上記処理を実行する。一方、全て終了していると判定された場合(Yes)、音響モデル学習部207は学習を終了させて、学習後の音響モデルを再度音響モデル格納部208に出力する(ステップS309)。或いは、不図示の音声認識装置に出力するようにしてもよい。
【0021】
すなわち、本実施形態に係る音響モデル学習装置は、音声認識装置における音声認識処理に用いられる音響モデルを学習するものであり、音響モデルを格納する音響モデル格納部208と、学習用の音声情報を入力する音声入力部202と、音声情報の特徴量をパラメータを用いて計算する音声特徴量計算部203と、音声情報の特徴量に含まれる雑音成分を推定する雑音推定部204と、パラメータを変動させる演算係数変動部206と、変動させたパラメータで計算した特徴量を用いて雑音成分を除去する雑音除算部205と、雑音成分が除去された特徴量を用いて、音響モデルを学習する音響モデル学習部207とを備えることを特徴とする。
【0022】
また、上記音響モデル学習装置は、音響モデル学習部207により学習させた音響モデルを出力する出力手段をさらに備えることを特徴とする。
【0023】
次に、上述したステップS304の雑音係数の変動とステップS305の雑音除去についてさらに詳しく説明する。図4は、減算係数変動部206によって設定された減算係数αに基づいて、雑音除去部205が雑音を含む原音声の音声特徴量から雑音を減算する様子をSS法を例にとって示した概要図である。図4において、401は原音声の1フレームのスペクトル、402は推定した雑音のスペクトル、403a、403bはそれぞれ減算係数αをα>1の場合とα<1の場合とに分け、推定した雑音402に乗じて得られた雑音スペクトル、404a、404bはそれぞれ原音声401から雑音スペクトル403a、403bを減算処理した音声のスペクトルである。
【0024】
雑音除去部205は、音声入力部202より入力された同じ音声に対して、設定された減算係数αの数だけそれぞれ雑音減算処理を行って、雑音除去済みの音声特徴量を生成する。このとき、α=1の場合は雑音推定部204によって推定された雑音をそのまま減算することになり、α>1の場合は推定値より多く、α<1の場合は推定値より少なく減算することになる。すなわち、雑音推定部204が、ある程度の精度で雑音を推定しているとすると、雑音を含んだ音声に対してα>1の場合には過剰な雑音除去が行われ、α<1の場合には不十分な雑音除去が行われ、α=1の場合には概ね適切な雑音除去が行われるといった傾向となる。
【0025】
このように本実施形態では、所定の音声を使って音響モデルの所定の音素列を学習するに際して、過剰な雑音除去、不十分な雑音除去、適切な雑音除去といった多彩な状態の音声特徴量を用いる。そのため、これらの様々な状態に対する音響モデル学習が行われ、音声認識時に、過剰な雑音除去や不十分な雑音除去が起った場合であったとしても耐性の高い音声認識が可能となる。
【0026】
上述したように、本実施形態では、一つの音声に対して様々な雑音係数αを設定して複数の音声特徴量を生成していたが、本発明はこれだけに限られるものではなく、学習用音声データベース201に大量の音声データファイルがある場合には、各音声ファイルに対して異なる一つの雑音係数を設定して音声特徴量を求め、音響モデルを学習するようにしてもよい。
【0027】
また、上記実施形態では、雑音除去に関する説明に一例としてSS法を用いて説明したが、本発明はこれだけに限られるものではなく、CMS法を始めとする音声特徴量に対して行う他の雑音除去手法を適用することが可能である。
【0028】
<第2の実施形態>
上述した第1の実施形態では、雑音除去の減算係数に注目し、これを変動して求まる音声特徴量で学習を行って雑音除去の不都合に頑健な音響モデルを学習したが、本発明の適用は雑音除去に限られるものではなく、音声特徴量算出の際にパラメータを操作する必要があるものに全てに対して有効である。すなわち、音声特徴量を変化させるパラメータを、ルールや経験等に基づいてチューニングする必要がなく、所定の範囲でパラメータを変動させ、それら全てを音響モデルの学習に用いることにより、パラメータの設定による特徴量の変動の影響に対して耐性のある音声認識を行うことができる。
【0029】
図5は、第2の実施形態に係る音響モデル学習装置の構成を示すブロック図である。図5において、501は音声特徴量を求める所定のパラメータを変動させるパラメータ変動部である。また、図5では、第1の実施形態に係る音響モデル学習装置と同一の構成要素については同一の符号を付して示している。このような構成の音響モデル学習装置によれば、パラメータ変動部501で設定された各パラメータに基づいて音声特徴量を求め、音響モデルを学習することにより、パラメータが音声特徴量に及ぼす悪影響に対して耐性のある音声認識が可能となるような音響モデルを得ることができる。
【0030】
<他の実施形態>
上記第1の実施形態では、雑音減算係数を変動させる所定の範囲を人手で設定していたが、この範囲を統計的に決定するようにしてもよい。すなわち、学習用音声データベース201の各音声データファイルに対して、あらかじめ雑音推定部204が雑音を推定しておく。この雑音の平均μと分散σを求めることにより、学習用音声データベース201における雑音の変動範囲を判断し、その範囲内で雑音の減算係数αを変動させる。
【0031】
例えば、SS法においては、雑音のパワーの平均をμp、パワーの分散をσp、学習させる一音声の雑音のパワーをPとして、(μp−3σp)/P≦α≦(μp+3σp)/Pの範囲内で適度に段階分けしてαを変動させるようにする。また、CMS法においては、ケプストラムの長時間平均(Cepstrum Mean)の平均をμc、分散をσc、学習させる一音声又は話者ごとの音声のケプストラムの長時間平均をCとして、同様に(μc−3σc)/C≦α≦(μc+3σc)/Cの範囲内でαを変動させる。これによって、大幅に雑音とずれてしまう係数αを人手で設定して悪影響を与えるということがなくなる。
【0032】
また、上記第1の実施形態では、雑音減算係数αを変動させて、それぞれ同じ重みで学習を行っているが、学習に対する重み付けをαの値によって変えても構わない。例えば、α=1はその音声に対して雑音推定部204が推定した雑音であるので、α=1に近いほど高い重みで学習させても良い。また、学習用音声データベース201の各音声データファイルの雑音の平均μに、αを乗じた雑音が近いほど、高い重みで学習させても良い。
【0033】
すなわち、本実施形態に係る音響モデル学習装置では、音響モデル学習部207が、パラメータの値に応じて音響モデルを学習により更新する度合いを変更することを特徴とする。
【0034】
また、上記音響モデル学習装置では、演算係数変動部206が、雑音推定部204により推定された雑音成分の平均及び分散を計算して当該雑音成分の変動範囲を決定し、当該変動範囲に基づいて雑音除去係数を変動することを特徴とする。
【0035】
さらに、上記第1及び第2の実施形態に係る音響モデル学習装置によって学習された音響モデルを用いて、例えば既知の音声認識装置と組み合わせることによって、より認識率の高い音声認識装置を提供することも可能である。尚、本音声認識装置において音声を分析して音声特徴量を求める場合には、雑音減算係数を所定の値に固定してもよく、所定のアルゴリズムにより変動させてもよい。
【0036】
さらに、上記実施形態では、音声認識における音響モデルを学習する際に、音声特徴量を求めるためのパラメータの値を変動させて音声特徴量を求め、これらの音声特徴量を用いて音響モデルを学習させることにより、認識時のパラメータの値による悪影響に対して頑健に認識をすることができるものであるが、本発明による技術思想は音声認識に限らず、幅広くパターン認識に適用することができる。
【0037】
例えば、手書き文字認識の場合、文字の特徴量を求めるための1ステップとして、文字画像から文字画素と背景画素とを分別する処理が必要な場合がある。このとき、分別するパラメータの値によっては、文字の線が途切れてしまったり、離れていなければならない線が繋がってしまうことがある。そこで、文字認識モデルを学習する際に、分別するためのパラメータを変動させ、あえて線が途切れた文字や線が繋がった文字の特徴量を含めて学習させることで、実際の文字認識の際に、文字画素と背景画素を分別するパラメータの値によって線が途切れたり線が繋がったりした文字を認識する場合にも頑健に認識することができ、ロバストなパターン認識処理が可能となる。
【0038】
図6は、パターン認識に用いられるパターン認識モデルを学習するためのパターン認識モデル学習装置の構成を示すブロック図である。図6において、601は学習するパターンを含んだ音声、画像等の学習用情報を保持する学習用情報データベースである。602は認識対象の情報を入力する情報入力部である。603は情報入力部602により入力された情報を分析して、当該情報の特徴量を求める情報特徴量計算部である。604は情報特徴量計算部603において、情報特徴量を求めるための所定パラメータを所定範囲で変動させるパラメータ変動部である。605はパラメータを変動させて求めた情報特徴量を用いてパターン認識モデルを学習するパターン認識モデル学習部である。そして、606はパターン認識モデル学習部605によって学習されて出力等されるパターン認識に用いられるパターン認識モデルである。尚、パターン認識モデル学習部605における学習処理の詳細については、上述した実施形態で説明した音響モデル学習部207での学習処理と同様である。
【0039】
すなわち、本実施形態に係る認識モデル学習装置は、パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習するものであって、認識モデルを格納するパターン認識モデル格納部606と、学習用の認識情報を入力する情報入力部602と、認識情報の特徴量をパラメータを用いて計算する情報特徴量計算部603と、パラメータを変動させるパラメータ変動部604と、パラメータ変動部604により変動させたパラメータで計算した特徴量を用いて、認識モデルを学習するパターン認識モデル学習部605とを備えることを特徴とする。
【0040】
また、上記認識モデル学習装置は、認識情報の特徴量に含まれるノイズ成分を推定し、パラメータ変動部604により変動させたパラメータで計算した特徴量を用いて、推定したノイズ成分を認識情報の特徴量から除去する。そして、パターン認識モデル学習部605は、ノイズ成分が除去された特徴量を用いて、認識モデルを学習することを特徴とする。
【0041】
さらに、上記認識モデル学習装置は、パターン認識モデル学習部605により学習させた認識モデルを出力する出力手段をさらに備えることを特徴とする。
【0042】
尚、上記実施例においては、プログラムをROMに保持する場合について説明したが、これだけに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0043】
尚、本発明は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。
【0044】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0045】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0046】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【0047】
【発明の効果】
以上説明したように、本発明によれば、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができる。
【図面の簡単な説明】
【図1】SS法に基づく雑音除去の概要を説明するための図である。
【図2】本発明の第1の実施形態に係る音響モデル学習装置の構成を示すブロック図である。
【図3】図2に示す第1の実施形態に係る音響モデル学習装置による音響モデルの学習の手順を説明するためのフローチャートである。
【図4】減算係数変動部206によって設定された減算係数αに基づいて、雑音除去部205が雑音を含む原音声の音声特徴量から雑音を減算する様子をSS法を例にとって示した概要図である。
【図5】第2の実施形態に係る音響モデル学習装置の構成を示すブロック図である。
【図6】パターン認識に用いられるパターン認識モデルを学習するためのパターン認識モデル学習装置の構成を示すブロック図である。
【符号の説明】
201 学習用音声データベース
202 音声入力部
203 音声特徴量計算部
204 雑音推定部
205 雑音除去部
206 減算係数変動部
207 音響モデル学習部
208 音響モデル
Claims (16)
- パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習装置であって、
前記認識モデルを格納する格納手段と、
学習用の認識情報を入力する入力手段と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する学習手段と
を備えることを特徴とする認識モデル学習装置。 - 前記認識情報の前記特徴量に含まれる雑音成分を推定する推定手段と、
前記変動手段により変動させた前記パラメータを用いて前記雑音成分を前記特徴量から除去する除去手段とをさらに備え、
前記学習手段は、前記雑音成分が除去された前記特徴量を用いて、前記格納手段に格納された前記認識モデルを学習する
ことを特徴とする請求項1に記載の認識モデル学習装置。 - 前記学習手段により学習させた前記認識モデルを出力する出力手段をさらに備えることを特徴とする請求項1又は2に記載の認識モデル学習装置。
- 音声認識装置における音声認識処理に用いられる音響モデルを学習する音響モデル学習装置であって、
前記音響モデルを格納する格納手段と、
学習用の音声情報を入力する入力手段と、
前記音声情報の特徴量を所定のパラメータを用いて計算する計算手段と、
前記パラメータを変動させる変動手段と、
前記変動手段によって変動させた前記パラメータで前記計算手段が計算した前記特徴量を用いて、前記格納手段に格納された前記音響モデルを学習する学習手段と
を備えることを特徴とする音響モデル学習装置。 - 前記音声情報の前記特徴量に含まれる雑音成分を推定する推定手段と、
前記変動手段により変動させた前記パラメータを用いて前記雑音成分を前記特徴量から除去する除去手段とをさらに備え、
前記学習手段は、前記雑音成分が除去された前記特徴量を用いて、前記格納手段に格納された前記音響モデルを学習する
ことを特徴とする請求項4に記載の音響モデル学習装置。 - 前記学習手段により学習させた前記音響モデルを出力する出力手段をさらに備えることを特徴とする請求項5に記載の音響モデル学習装置。
- 前記パラメータが、前記除去手段において前記音声情報から前記雑音成分を減算する割合を示す雑音除去係数であることを特徴とする請求項5記載の音響モデル学習装置。
- 前記変動手段が、前記推定手段により推定された前記雑音成分の平均及び分散を計算して該雑音成分の変動範囲を決定し、該変動範囲に基づいて前記雑音除去係数を変動することを特徴とする請求項7記載の音響モデル学習装置。
- 前記推定手段及び前記除去手段が、スペクトラルサブトラクション法に基づいて処理することを特徴とする請求項5から8までのいずれか1項に記載の音響モデル学習装置。
- 前記推定手段及び前記除去手段が、CMS法に基づいて処理することを特徴とする請求項5から8までのいずれか1項に記載の音響モデル学習装置。
- 請求項1から3までのいずれか1項に記載の認識モデル学習装置によって学習された前記認識モデルを用いてパターン認識を行うことを特徴とするパターン認識装置。
- 請求項4から10までのいずれか1項に記載の音響モデル学習装置によって学習された前記音響モデルを用いて音声認識を行うことを特徴とする音声認識装置。
- 前記学習手段が、前記パラメータの値に応じて、前記認識モデルを学習することにより更新する度合いを変更することを特徴とする請求項1から3までのいずれか1項に記載の認識モデル学習装置。
- パターン認識装置におけるパターン認識処理に用いられる認識モデルを学習する認識モデル学習方法であって、
前記認識モデルを取得する第1の取得工程と、
学習用の認識情報を取得する第2の取得工程と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算工程と、
前記パラメータを変動させる変動工程と、
前記変動工程によって変動させた前記パラメータで前記計算工程で計算された前記特徴量を用いて、前記第1の取得工程で取得された前記認識モデルを学習する学習工程と
を有することを特徴とする認識モデル学習方法。 - コンピュータに、パターン認識処理に用いられる認識モデルを学習させるためのプログラムであって、
前記認識モデルを取得する第1の取得手順と、
学習用の認識情報を取得する第2の取得手順と、
前記認識情報の特徴量を所定のパラメータを用いて計算する計算手順と、
前記パラメータを変動させる変動手順と、
前記変動手順によって変動させた前記パラメータで前記計算手順で計算された前記特徴量を用いて、前記第1の取得手順で取得された前記認識モデルを学習する学習手順と
を実行するためのプログラム。 - 請求項15に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003194542A JP2005031258A (ja) | 2003-07-09 | 2003-07-09 | 認識モデル学習装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003194542A JP2005031258A (ja) | 2003-07-09 | 2003-07-09 | 認識モデル学習装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031258A true JP2005031258A (ja) | 2005-02-03 |
Family
ID=34205683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003194542A Withdrawn JP2005031258A (ja) | 2003-07-09 | 2003-07-09 | 認識モデル学習装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031258A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279185A (ja) * | 2005-03-28 | 2006-10-12 | Casio Comput Co Ltd | 撮像装置、音声記録方法及びプログラム |
JP2007248534A (ja) * | 2006-03-13 | 2007-09-27 | Nara Institute Of Science & Technology | 音声認識装置、周波数スペクトル取得装置および音声認識方法 |
WO2012063963A1 (ja) * | 2010-11-11 | 2012-05-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2016161823A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社日立製作所 | 音響モデル学習支援装置、音響モデル学習支援方法 |
JPWO2017037830A1 (ja) * | 2015-08-31 | 2017-11-24 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
US11620985B2 (en) | 2018-05-15 | 2023-04-04 | Nec Corporation | Pattern recognition robust to influence of a transfer path |
-
2003
- 2003-07-09 JP JP2003194542A patent/JP2005031258A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279185A (ja) * | 2005-03-28 | 2006-10-12 | Casio Comput Co Ltd | 撮像装置、音声記録方法及びプログラム |
JP2007248534A (ja) * | 2006-03-13 | 2007-09-27 | Nara Institute Of Science & Technology | 音声認識装置、周波数スペクトル取得装置および音声認識方法 |
WO2012063963A1 (ja) * | 2010-11-11 | 2012-05-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
US9245524B2 (en) | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
JP5949553B2 (ja) * | 2010-11-11 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2016161823A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社日立製作所 | 音響モデル学習支援装置、音響モデル学習支援方法 |
JPWO2017037830A1 (ja) * | 2015-08-31 | 2017-11-24 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
US11620985B2 (en) | 2018-05-15 | 2023-04-04 | Nec Corporation | Pattern recognition robust to influence of a transfer path |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1638084B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
US8214205B2 (en) | Speech enhancement apparatus and method | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
EP1891627B1 (en) | Multi-sensory speech enhancement using a clean speech prior | |
JPWO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
WO2003100769A1 (en) | Method of determining uncertainty associated with noise reduction | |
JP2010230868A (ja) | パターン認識装置、パターン認識方法、及び、プログラム | |
US20030216914A1 (en) | Method of pattern recognition using noise reduction uncertainty | |
JP5344251B2 (ja) | 雑音除去システム、雑音除去方法および雑音除去プログラム | |
JP3907194B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
US6381572B1 (en) | Method of modifying feature parameter for speech recognition, method of speech recognition and speech recognition apparatus | |
JP2005031258A (ja) | 認識モデル学習装置及び方法 | |
US7236930B2 (en) | Method to extend operating range of joint additive and convolutive compensating algorithms | |
KR20110061781A (ko) | 실시간 잡음 추정에 기반하여 잡음을 제거하는 음성 처리 장치 및 방법 | |
JP7156084B2 (ja) | 音信号処理プログラム、音信号処理方法及び音信号処理装置 | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
KR100413797B1 (ko) | 음성 신호 보상 방법 및 그 장치 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP4856526B2 (ja) | 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体 | |
JP2001067094A (ja) | 音声認識装置及び方法 | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
KR100435441B1 (ko) | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 | |
Zhou et al. | Speech Enhancement Based on Nonlocal Means Denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061003 |