JP4577543B2 - モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 - Google Patents

モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 Download PDF

Info

Publication number
JP4577543B2
JP4577543B2 JP2000353790A JP2000353790A JP4577543B2 JP 4577543 B2 JP4577543 B2 JP 4577543B2 JP 2000353790 A JP2000353790 A JP 2000353790A JP 2000353790 A JP2000353790 A JP 2000353790A JP 4577543 B2 JP4577543 B2 JP 4577543B2
Authority
JP
Japan
Prior art keywords
speech
section
model
silence
immediately before
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000353790A
Other languages
English (en)
Other versions
JP2002156992A (ja
Inventor
洪長 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000353790A priority Critical patent/JP4577543B2/ja
Publication of JP2002156992A publication Critical patent/JP2002156992A/ja
Application granted granted Critical
Publication of JP4577543B2 publication Critical patent/JP4577543B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置に関し、特に、例えば、ノイズに起因する音声認識性能の劣化を防止することができるようにするモデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置に関する。
【0002】
【従来の技術】
音声認識装置においては、例えば、音声認識対象の音声から、その特徴ベクトルが抽出され、その特徴ベクトルの系列が、音声の音響モデルから観測される尤度を計算すること等によって、音声が認識される。
【0003】
【発明が解決しようとする課題】
ところで、音声認識装置においては、一般に、ユーザの発話が行われている区間である音声区間を特定し、その音声区間を対象に、音声認識が行われる。
【0004】
しかしながら、ユーザの音声は、音声区間の全体にわたって存在するとは限らない。即ち、音声区間には、一般に、息継ぎ等によって、ユーザの音声が存在しない部分がある。
【0005】
一方、音声認識装置が使用される環境においては、認識対象の音声以外の音、即ち、ノイズが存在する。
【0006】
具体的には、例えば、音声を入力するマイク(マイクロフォン)を叩く音や、場所によっては、ドアを開閉する音、ユーザの咳の音、音声認識しようとしている音声のユーザ以外のユーザの発話等が、ノイズとして存在する。また、例えば、音声認識装置が、エンターテイメント用のロボット等に適用された場合には、そのロボットに各種の動作を行わせるためのアクチュエータの音が、ノイズとして存在し、さらに、そのロボットが、デモンストレーション会場で公表されるときには、観衆の話し声や拍手等が、ノイズとして存在する。
【0007】
従って、音声区間において、ユーザの音声が存在しない部分には、上述したようなノイズのみが存在することとなるが、音声認識装置では、そのノイズのみの部分についても、ユーザの音声が存在するものとして、音響モデルを用いて、音声認識が行われるため、認識性能が劣化することがあった。即ち、特に、音声区間の開始から、実際に、ユーザの発話が開始されるまでの時間が長くなると、認識性能が低下する課題があった。
【0008】
そこで、ユーザの音声が存在しない状態、即ち、音声認識装置が使用される環境においてノイズが存在する場合には、そのノイズのみが存在する状態としての無音を表す音響モデルである無音モデルを導入し、音声区間の中で、ユーザの音声が存在しない部分(以下、適宜、無音部分という)については、その無音モデルで対処する方法がある。
【0009】
しかしながら、音声認識装置が使用される環境におけるノイズは、一定であるとは限らず、むしろ時々刻々と変化することが多いため、あらかじめ作成しておいた無音モデルを、そのまま用いるのでは、音声区間中の無音部分について、十分に対処することができない場合がある。
【0010】
そこで、本件出願人は、例えば、特開2000-259198号公報(特願平11-57467号)において、音声区間の直前の区間における音声(ノイズ)に基づいて、無音モデルの適応を行う方法について、先に提案している。
【0011】
しかしながら、先に提案した方法では、現在の音声認識の対象となっている音声の音声区間(以下、適宜、注目音声区間という)の直前の区間における音声にのみ基づいて、無音モデルの適応を行うため、例えば、注目音声区間の直前において、ユーザが、音声の入力に用いるマイクを叩く等した場合や、観衆が拍手を行った場合等の、いわば突発的なノイズが生じた場合、その突発的なノイズに基づいて、無音モデルの適応が行われることがあり、この場合、音声区間中の無音部分について、十分に対処することが困難であると考えられる。
【0012】
また、そのような突発的なノイズが生じず、比較的定常的なノイズが長時間連続している場合には、注目音声区間のみならず、過去に音声認識の対象とされた音声の音声区間の直前の区間におけるノイズをも用いて、無音モデルの適応を行った方が、音声区間中の無音部分について、より十分に対処することができると予想される。
【0013】
本発明は、このような状況に鑑みてなされたものであり、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことができるようにし、これにより、無音部分に起因する音声認識性能の劣化を防止(低減)することができるようにするものである。
【0014】
【課題を解決するための手段】
本発明のモデル適応装置、又は、記録媒体は、音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段とを備え、前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行うモデル適応装置、又は、モデル適応装置としてコンピュータを機能させるためのプログラムが記録された記録媒体である。
【0015】
本発明のモデル適応方法は、音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出ステップと、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応ステップとを備え、前記モデル適応ステップでは、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行うモデル適応方法である。
【0017】
本発明の音声認識装置は、音声データの特徴量を抽出する特徴抽出手段と、前記特徴量と音響モデルに基づいて、前記音声を認識する音声認識手段と、音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段とを備え、前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う音声認識装置である。
【0018】
本発明のモデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置においては、音声区間の直前の区間で観測される音声データが抽出され、抽出データとして出力される。そして、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応が行われる。無音モデルの適応は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して行われる。
【0019】
【発明の実施の形態】
図1は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。
【0020】
この音声認識装置において、マイク1は、認識対象である発話音声を、環境ノイズとともに集音し、フレーム化部2に出力する。フレーム化部2は、マイク1から入力される音声データを、所定の時間間隔(例えば、10ms)で取り出し、その取り出したデータを、1フレームのデータとして出力する。フレーム化部2が出力する1フレーム単位の音声データは、そのフレームを構成する時系列の音声データそれぞれをコンポーネントとする観測ベクトルaとして、ノイズ観測区間抽出部3、および特徴抽出部5に供給される。
【0021】
ここで、以下、適宜、第tフレームの音声データである観測ベクトルを、a(t)と表す。
【0022】
ノイズ観測区間抽出部3は、フレーム化部2から入力されるフレーム単位の音声データを所定の時間(Mフレーム分以上)だけバッファリングし、図2に示すように、発話スイッチ4がオンとされるタイミングtbからMフレーム分だけ以前のタイミングtaまでをノイズ観測区間Tnとして、そのノイズ観測区間TnにおけるMフレーム分の観測ベクトルaを抽出して、無音モデル補正部7に出力する。
【0023】
発話スイッチ4は、ユーザが発話を開始するときにユーザによってオンとされ、発話を終了するときにオフとされる。したがって、発話スイッチ4がオンとされたタイミングtb以前(ノイズ観測区間Tn)の音声データには、発話音声は含まれず、環境ノイズだけが存在する。また、発話スイッチ4がオンとされたタイミングtbから発話スイッチ4がオフとされるタイミングtdまでは、音声区間とされて、その音声区間の音声データが音声認識の対象とされる。
【0024】
特徴抽出部5は、例えば、図3に示すように、パワースペクトラム分析部11から構成され、フレーム化部2からの音声区間における観測ベクトルaとしての音声データをフーリエ変換することにより、音声の特徴量として、そのパワースペクトラムを求め、そのパワースペクトラムの各周波数成分をコンポーネントとする特徴ベクトルyを算出する。特徴抽出部5で得られた特徴ベクトルyは、音声認識部6に供給される。
【0025】
なお、パワースペクトラムの算出方法は、フーリエ変換によるものに限定されるものではない。すなわち、パワースペクトラムは、その他、例えば、いわゆるフィルタバンク法などによって求めることも可能である。
【0026】
また、ここでは、音声の特徴量として、パワースペクトラムを用いることとしているが、音声の特徴量としては、パワースペクトラムの他、ケプストラム係数(MFCC(Mel Frequency Cepstrum Coefficients)を含む)や、線形予測係数その他を採用することが可能である。
【0027】
音声認識部6は、特徴抽出部5から入力される特徴ベクトルyを、所定数Kの音響モデルと1個の無音モデルの中のいずれかに分類し、その分類結果を、入力された音声の認識結果として出力する。すなわち、音声認識部6は、例えば、無音区間に対応する識別関数(特徴パラメータyが無音モデルに分類されるかを識別するための関数)と、所定数Kの単語それぞれに対応する識別関数(特徴パラメータyがいずれの音響モデルに分類されるかを識別するための関数)とを記憶しており、各音響モデルの識別関数の値を、特徴抽出部5からの特徴ベクトルyを引数として計算する。そして、音声認識部6は、その関数値(いわゆるスコア)が最大である音響モデル(単語、または無音(ノイズ))を認識結果として出力する。
【0028】
即ち、図4は、図1の音声認識部6の詳細な構成例を示している。
【0029】
特徴抽出部5から入力される特徴ベクトルyは、識別関数演算部21−1乃至21−k、および識別関数演算部21−sに供給される。識別関数演算部21−k(k=1,2,・・・,K)は、K個の音響モデルのうちのk番目に対応する単語を識別するための識別関数Gk()を記憶しており、特徴抽出部5からの特徴ベクトルyを引数として、識別関数Gk(y)を演算する。識別関数演算部21−sは、無音モデルに対応する無音区間を識別するための識別関数Gs()を記憶しており、特徴抽出部5からの特徴ベクトルyを引数として、識別関数Gs(y)を演算する。
【0030】
なお、音声認識部6では、例えば、HMM(Hidden Markov Model)法を用いて、クラスとしての単語または無音の識別(認識)が行われる。
【0031】
ここで、図5は、HMMを示している。
【0032】
同図において、HMMは、H個の状態q1乃至qHを有しており、状態の遷移は、自身への遷移と、右隣の状態への遷移のみが許されている。また、初期状態は、最も左の状態q1とされ、最終状態は、最も右の状態qHとされており、最終状態qHからの状態遷移は禁止されている。このように、自身よりも左にある状態への遷移のないモデルは、left-to-rightモデルと呼ばれ、音声認識では、一般に、left-to-rightモデルが用いられる。
【0033】
いま、HMMのkクラスを識別するためのモデル(音響モデル)を、kクラスモデルというとすると、kクラスモデルは、例えば、最初に状態qhにいる確率(初期状態確率)πk(qh)、ある時刻(フレーム)tにおいて、状態qiにいて、次の時刻t+1において、状態qjに状態遷移する確率(遷移確率)ak(qi,qj)、および状態qiから状態遷移が生じるときに、その状態qiが、特徴ベクトルOを出力する確率(出力確率)bk(qi)(O)によって規定される(h=1,2,・・・,H)。
【0034】
そして、ある特徴ベクトル系列O1,O2,・・・が与えられた場合、例えば、そのような特徴ベクトル系列が観測される確率(観測確率)が最も高いモデルのクラスが、その特徴ベクトル系列の認識結果とされる。
【0035】
ここでは、この観測確率が、識別関数Gk(y)によって求められる。すなわち、識別関数Gk(y)は、特徴ベクトル(系列)y={y1,y2,・・・,yT}に対する最適状態系列(最適な状態の遷移のしていき方)において、そのような特徴ベクトル(系列)y={y1,y2,・・・,yT}が観測される確率を求めるものとして、次式(1)で与えられる。
【0036】
【数1】
Figure 0004577543
【0037】
ここで、連続HMMにおいては、状態qiにおける出力確率bk(qi)(yj)は、確率分布によって表される。即ち、特徴ベクトル空間上のコンポーネントどうしに相関がないものとして、出力確率bk(qi)(yj)を規定する確率分布に、正規分布関数を用いることとすると、その正規分布関数P(qi)(d)(y(t)(d))は、次式で表すことができる。
【0038】
【数2】
Figure 0004577543
但し、式(2)において、μk(qi)(d)は、正規分布を規定する平均ベクトルのd番目のコンポーネントを表し、Σk(qi)(d,d)は、正規分布を規定する分散マトリクスの第d行第d列のコンポーネントを表す。また、y(t)(d)は、特徴ベクトルy(t)のd番目のコンポーネントを表す。
【0039】
kクラスモデルの状態qiにおける出力確率は、式(2)の平均ベクトルμk(qi)(d)と、分散マトリクスΣk(qi)(d,d)によって規定される。
【0040】
なお、HMMは、上述したように、初期状態確率πk(qh)、遷移確率ak(qi,qj)、および出力確率bk(qi)(O)によって規定されるが、これらは、学習用の音声データから特徴ベクトルを算出し、その特徴ベクトルを用いて、予め求められる。
【0041】
また、HMMとして、図5に示したものを用いる場合には、常に、最も左の状態q1から遷移が始まるので、状態q1に対応する初期状態確率だけが1とされ、他の状態に対応する初期状態確率はすべて0とされる。
【0042】
さらに、HMMの学習方法としては、例えば、Baum-Welchの再推定法などが知られている。
【0043】
図4において、識別関数演算部21−k(k=1,2,・・・,K)は、kクラスモデルについて、あらかじめ学習により求められている初期状態確率πk(qh)、遷移確率ak(qi,qj)、および出力確率bk(qi)(O)によって規定される式(2)の識別関数Gk(y)を記憶しており、特徴抽出部2からの特徴ベクトルyを引数として、識別関数Gk(y)を演算し、その関数値(上述した観測確率)Gk(y)を、決定部22に出力する。識別関数演算部21−sは、音声モデルとしての、初期状態確率πs(qh)、遷移確率as(qi,qj)、および出力確率bs(qi)(O)によって規定される式(2)の識別関数Gk(y)と同様の識別関数Gs(y)を記憶しており、特徴抽出部2からの特徴ベクトルyを引数として、識別関数Gs(y)を演算し、その関数値(上述した観測確率)Gs(y)を、決定部22に出力する。
【0044】
決定部22では、識別関数演算部21−1乃至21−k、および識別関数演算部21−sそれぞれからの関数値Gk(y)(ここでは、関数値Gs(y)を含むものとする)に対して、例えば、次式(3)に示す決定規則を用いて、特徴ベクトルy、すなわち、入力された音声が属するクラス(音響モデル)が識別される。
【0045】
【数3】
Figure 0004577543
但し、C(y)は、特徴ベクトルyが属するクラスを識別する識別操作(処理)を行う関数を表す。また、式(3)の第2式の右辺におけるmaxは、それに続く関数値Gi(y)(ただし、ここでは、i=s,1,2,・・・,K)の最大値を表す。
【0046】
決定部22は、式(3)にしたがって、クラスを決定すると、対応する単語(または無音である旨)を、入力された音声の認識結果として出力する。
【0047】
図1に戻り、無音モデル補正部7は、ノイズ観測区間抽出部3から入力されるノイズ観測区間Tnにおける音声データとしての環境ノイズに基づいて、音声認識部6に記憶されている無音モデルに対応する識別関数Gs(y)を生成し、この識別関数Gs(y)によって、音声認識部6に記憶されている無音モデルの適応を行う。
【0048】
具体的には、無音モデル補正部7は、ノイズ観測区間抽出部3から入力されるノイズ観測区間Tnの音声データ(環境ノイズ)のM個のフレームの各フレームについて、特徴ベクトルyの系列を観測し、その特徴ベクトルyの系列に対して統計的処理を施すことによって、無音モデルを規定する確率分布(無音モデルとしてのHMMの出力確率を規定する確率分布)を生成する。
【0049】
即ち、例えば、いま、無音モデルを規定する確率分布が正規分布で表されるとすると、無音モデル補正部7は、ノイズ観測区間TnのMフレームの特徴ベクトルy(t)の系列を用い、式(4)にしたがった計算を行うことにより、無音モデルGs(y)としての正規分布を規定する平均値μsilと、分散マトリクスΣsilを求める。
【0050】
【数4】
Figure 0004577543
なお、式(4)におけるTは、転置を表す。
【0051】
そして、無音モデル補正部7は、平均値μsilと分散マトリクスΣsilで規定される正規分布としての無音モデルGs(y)によって、識別関数演算部21−sの無音モデルGs(y)としての識別関数を更新(補正)する。
【0052】
次に、図6のフローチャートを参照して、図1の音声認識装置による音声認識処理について説明する。
【0053】
フレーム化部2には、マイク1で集音された音声データが入力され、そこでは、音声データがフレーム化され、各フレームの音声データは、観測ベクトルaとして、ノイズ観測区間抽出部3、および特徴抽出部5に順次供給される。ノイズ観測区間抽出部3は、ステップS1において、フレーム化部2からの各フレームの音声データをバッファリングする。
【0054】
ここで、ノイズ観測区間抽出部3は、少なくともMフレーム以上の音声データを記憶することのできる、図示せぬバッファを有しており、そのバッファの記憶容量分の音声データを記憶した後は、最も古い音声データに上書きする形で、新たな音声データを記憶するようになっている。従って、ノイズ観測区間抽出部3では、常に、最新のMフレーム以上の音声データが記憶される。
【0055】
その後、ステップS2において、音声区間が開始されたかどうか、即ち、ユーザによって、発話スイッチ4が操作されたかどうかが判定される。ステップS2において、音声区間が開始されていないと判定された場合、ステップS1に戻り、以下、同様の処理を繰り返す。
【0056】
また、ステップS2において、音声区間が開始されたと判定された場合、ステップS3に進み、無音モデル補正部7において、無音モデル適応処理が行われる。
【0057】
即ち、ステップS2では、ノイズ観測区間抽出部3は、発話スイッチ4がオンとされたタイミングtbの直前の区間であるノイズ観測区間Tnの音声データ(環境ノイズ)を、その内蔵するバッファから抽出し、無音モデル補正部7に供給する。
【0058】
無音モデル補正部7は、ノイズ観測区間Tnの各フレームの音声データの特徴ベクトルy(t)を求め、その特徴ベクトル(y)を用いて、式(4)により、平均値μsilと分散マトリクスΣsilを求める。そして、無音モデル補正部7は、その平均値μsilと分散マトリクスΣsilで規定される正規分布N(μsil,Σsil)によって、音声認識部6の無音モデルGs(y)を更新する。
【0059】
一方、特徴抽出部5は、発話スイッチ4がオンとされ、音声区間が開始されると、フレーム化部2からの観測ベクトルaとしての音声データを音響分析し、その特徴ベクトルyを求め、音声認識部6に供給する。音声認識部6は、ステップS4において、特徴抽出部5からの特徴ベクトルyを用いて、無音と所定数Kの単語それぞれに対応する音響モデルの識別関数の値を演算し、ステップS5に進む。ステップS5では、音声認識部6は、ステップS5で演算した識別関数の関数値が最大となる音響モデルを選択し、対応する単語(または無音)を、音声の認識結果として出力する。
【0060】
その後、ステップS6に進み、音声認識処理を終了するかどうかが判定され、終了しないと判定された場合、ステップS1に戻り、次の発話について、以下、同様の処理が行われる。
【0061】
また、ステップS6において、音声認識処理を終了すると判定された場合、即ち、例えば、ユーザが、音声認識装置の電源をオフする操作を行った場合、処理を終了する。
【0062】
次に、上述の場合においては、図7に示すように、各発話の音声区間ごとに、その直前のノイズ観測区間Tnの音声データ(環境ノイズ)のみに基づいて、無音モデルの適応が行われる。即ち、いま、音声認識装置において音声認識処理が開始されてから、ユーザが行った発話を、第1発話、第2発話、・・・とカウントすることとし、第N発話を、現在の音声認識の対象となっている音声の音声区間(注目音声区間)の発話であるとすると、第N発話の音声区間である注目音声区間の音声の認識には、その注目音声区間の直前のノイズ観測区間Tnの環境ノイズだけに基づいて生成された無音モデルが用いられる。
【0063】
ここで、図7において(後述する図8,図10,図12においても同様)、Inは、第n発話を表し、Gs[In]は、第n発話の音声区間の音声の認識に用いられる無音モデルを表す。
【0064】
注目音声区間の直前のノイズ観測区間Tnの環境ノイズだけに基づいて、無音モデルを生成する場合、前述したように、例えば、注目音声区間の直前において、ユーザが、音声の入力に用いるマイクを叩く等したときや、観衆が拍手を行ったとき等の、いわば突発的なノイズが生じたときには、その突発的なノイズに基づいて、無音モデルの適応が行われる。
【0065】
しかしながら、注目音声区間の、ユーザが発話を行う区間においては、突発的なノイズが存在しなくなるから、突発的なノイズに基づいて生成された無音モデルを用いて、注目音声区間の音声を認識したのでは、認識率が劣化することがある。
【0066】
また、比較的定常的なノイズが長時間連続している場合には、注目音声区間のみならず、過去に音声認識の対象とされた音声の音声区間の直前の区間における環境ノイズにも基づいて、無音モデルを生成した方が、環境ノイズをより的確に表す無音モデルを得ることができると予想され、さらに、そのような無音モデル用いて、注目音声区間の音声認識を行うことにより、精度の高い音声認識を行うことが可能となる。
【0067】
そこで、音声認識装置では、注目音声区間の直前の環境ノイズだけでなく、過去の1以上の音声区間の直前の環境ノイズにも基づいて、以下のような第1乃至第3の3つの適応方法のいずれかにより、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うことが可能となっている。
【0068】
即ち、第1の適応方法では、図8に示すように、第N発話の音声区間である注目音声区間の直前の環境ノイズと、過去の第1乃至第N−1発話の音声区間の直前の環境ノイズから、注目音声区間の音声の認識に用いる無音モデルGs[IN]が生成される。
【0069】
この場合、図6のステップS3における無音モデル適応処理は、図9のフローチャートに示すように行われる。
【0070】
即ち、この場合、ステップS11において、無音モデル補正部7は、第1乃至第N発話の音声区間の直前のノイズ観測区間Tnの音声データ(環境ノイズ)の特徴ベクトルy(t)を計算する。従って、この場合、ノイズ観測区間抽出部3では、注目音声区間である第N発話の音声区間の直前の環境ノイズだけでなく、過去の第1乃至第N発話の音声区間の直前の環境ノイズも記憶しておく必要がある。
【0071】
さらに、無音モデル補正部7は、第1乃至第N発話の音声区間の直前のノイズ観測区間Tnの音声データ(環境ノイズ)の特徴ベクトルy(t)の集合の平均ベクトルμsilと分散マトリクスΣsilを、次式にしたがって計算し、その平均ベクトルμsilと分散マトリクスΣsilによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルGs[IN]とする。
【0072】
【数5】
Figure 0004577543
【0073】
なお、M(i)は、第i発話の音声区間の直前のノイズ観測区間Tnのフレーム数を表し、本実施の形態では、上述したことから、すべてMフレームである。但し、ノイズ観測区間Tnのフレーム数は、各発話ごとに、異なるフレーム数とすることが可能である。
【0074】
また、wiは、第i発話の音声区間の直前の環境ノイズに対する重みを表す。この重みwiは、式(6)を満たすもので、例えば、第N発話の音声区間(注目音声区間)の直前の環境ノイズに対する重みwNは、0.5とし、第1乃至第N−1発話の音声区間の直前の環境ノイズに対する重みw1乃至wN-1は、いずれも、0.5/(N−1)とすることが可能である。
【0075】
【数6】
Figure 0004577543
【0076】
さらに、重みwiは、注目音声区間である第N発話の音声区間から離れた音声区間の直前の環境ノイズに対するものほど、小さな値にするようにすること等が可能である。
【0077】
また、式(5)において、y(t)[Ii]は、第i発話の音声区間の直前の環境ノイズの第tフレーム(ノイズ観測区間Twの第tフレーム)の特徴ベクトルを表す。
【0078】
次に、第2の適応方法では、図10に示すように、過去の第1乃至第N−1発話の音声区間の直前の環境ノイズに基づいて、第1の無音モデルGs-1が生成されるとともに、第N発話の音声区間である注目音声区間の直前の環境ノイズに基づいて、第2の無音モデルGs-2が生成され、その第1の無音モデルGs-1と、第2の無音モデルGs-2とに基づいて、注目音声区間の音声の認識に用いる無音モデルGs[IN]が生成される。
【0079】
この場合、図6のステップS3における無音モデル適応処理は、図11のフローチャートに示すように行われる。
【0080】
即ち、この場合、ステップS21において、無音モデル補正部7は、第1乃至第N−1発話の音声区間の直前のノイズ観測区間Tnの環境ノイズの特徴ベクトルy(t)を計算する。さらに、無音モデル補正部7は、第1乃至第N−1発話の音声区間の直前のノイズ観測区間Tnの環境ノイズの特徴ベクトルy(t)の集合の平均ベクトルμsil-1と分散マトリクスΣsil-1を、式(5)における場合と同様に計算し、その平均ベクトルμsil-1と分散マトリクスΣsil-1によって規定される正規分布を、第1の無音モデルGs-1とする。
【0081】
そして、ステップS22に進み、無音モデル補正部7は、注目フレームである第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズの特徴ベクトルy(t)を計算する。さらに、無音モデル補正部7は、第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズの特徴ベクトルy(t)の集合の平均ベクトルμsil-2と分散マトリクスΣsil-2を、上述の式(4)にしたがって計算し、その平均ベクトルμsil-2と分散マトリクスΣsil-2によって規定される正規分布を、第2の無音モデルGs-2とする。
【0082】
以上のようにして、第1の無音モデルGs-1と、第2の無音モデルGs-2を得た後は、ステップS23に進み、無音モデル補正部7は、第1の無音モデルGs-1と、第2の無音モデルGs-2とを統合することにより、注目音声区間の音声の認識に用いる無音モデルGs[IN]を生成する。
【0083】
即ち、無音モデル補正部7は、例えば、式(7)にしたがい、第1の無音モデルGs-1を規定する平均ベクトルμsil-1と、第2の無音モデルGs-2を規定する平均ベクトルμsil-2とを統合し、平均ベクトルμsilを求めるとともに、第1の無音モデルGs-1を規定する分散マトリクスΣsil-1と、第2の無音モデルGs-2を規定する分散マトリクスΣsil-2とを統合し、分散マトリクスΣsilを求める。そして、無音モデル補正部7は、その平均ベクトルμsilと分散マトリクスΣsilによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルGs[IN]とする。
【0084】
【数7】
Figure 0004577543
【0085】
ここで、式(7)におけるaμ 1,bμ 2,aΣ 1,bΣ 2は、いずれも、0以上1以下の範囲の値をとる重みであり、式aμ 1+bμ 2=1と、式aΣ 1+bΣ 2=1を満たすものである。
【0086】
環境ノイズが、比較的定常的なものである場合には、重みaμ 1,bμ 2,aΣ 1,bΣ 2としては、例えば、同一の値を使用することができる。また、環境ノイズが、時間の経過に伴って、比較的変化する場合には、重みaμ 1,bμ 2,aΣ 1,bΣ 2としては、例えば、aμ 1とaΣ 1については、小さな値を、bμ 2とbΣ 2については、大きな値を、それぞれ採用することができる。さらに、注目音声区間の直前の環境ノイズが、突発的なものである場合には、重みaμ 1,bμ 2,aΣ 1,bΣ 2としては、例えば、aμ 1とaΣ 1については、大きな値を、bμ 2とbΣ 2については、小さな値を、それぞれ採用することができる。
【0087】
なお、第1および第2の適応方法においては、過去の音声区間については、注目音声区間より過去の音声区間すべての直前の環境ノイズを用いる他、そのうちの一部の音声区間の直前の環境ノイズを用いて、注目音声区間の音声認識に用いる無音モデルの適応を行うようにすることが可能である。
【0088】
次に、第3の適応方法では、図12に示すように、第N発話の音声区間である注目音声区間の直前の環境ノイズに基づいて、無音モデルが生成され、その無音モデルと、過去の音声区間、即ち、図12の実施の形態では、注目音声区間の直前の音声区間(第N−1発話の音声区間)の音声認識に用いられた無音モデルとに基づいて、注目音声区間の音声の認識に用いる無音モデルGs[IN]が生成される。
【0089】
この場合、図6のステップS3における無音モデル適応処理は、図13のフローチャートに示すように行われる。
【0090】
即ち、この場合、ステップS31において、無音モデル補正部7は、直前の発話、つまり第N−1発話の音声区間の音声認識に用いられた無音モデルGs[IN-1]を、音声認識部6(図4)から取得し、ステップS32に進む。
【0091】
ステップS32では、無音モデル補正部7は、注目フレームである第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズの特徴ベクトルy(t)を計算する。さらに、無音モデル補正部7は、第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズの特徴ベクトルy(t)の集合の平均ベクトルと分散マトリクスを、上述の式(4)にしたがって計算し、その平均ベクトルと分散マトリクスによって規定される正規分布としての無音モデルGs’[IN]を生成する。
【0092】
そして、ステップS33に進み、無音モデル補正部7は、第N−1発話の音声区間の音声認識に用いられた無音モデルGs[IN-1]と、第N発話の音声区間の直前の環境ノイズだけから得られた無音モデルGs’[IN]とを統合することにより、注目音声区間の音声の認識に用いる無音モデルGs[IN]を生成する。
【0093】
即ち、例えば、第N−1発話の音声区間の音声認識に用いられた無音モデルGs[IN-1]としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμsil-1とΣsil-1とするとともに、第N発話の音声区間の直前の環境ノイズだけから得られた無音モデルGs’[IN]としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμsil-2とΣsil-2とすると、無音モデル補正部7は、ステップS33において、例えば、上述の式(7)にしたがい、平均ベクトルμsil-1とμsil-2とを統合し、平均ベクトルμsilを求めるとともに、分散マトリクスΣsil-1とΣsil-2とを統合し、分散マトリクスΣsilを求める。そして、無音モデル補正部7は、その平均ベクトルμsilと分散マトリクスΣsilによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルGs[IN]とする。
【0094】
なお、第3の適応方法においては、第N−1発話の音声認識に用いられた無音モデルの他、過去の他の発話の音声認識に用いられた無音モデルを用いて、注目音声区間の音声認識に用いる無音モデルを生成することが可能である。
【0095】
以上のように、注目音声区間の直前の環境ノイズだけでなく、過去の1以上の音声区間の直前の環境ノイズにも基づいて、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うようにしたので、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことができ、これにより、無音部分に起因する音声認識性能の劣化を防止(低減)することができる。
【0096】
ところで、ノイズ環境下において音声を認識する場合の特徴量(特徴ベクトル)の抽出方法の1つに、例えば、スペクトルサブトラクション(Spectral Subtraction)と呼ばれるものがある。
【0097】
スペクトルサブトラクションでは、音声の発話がされる前の入力(音声区間の前の入力)を、ノイズとして、そのノイズの平均スペクトルが算出される。そして、音声区間の音声から、ノイズの平均スペクトルが差し引かれ(Subtract)、その残りを、真の音声成分として、特徴ベクトルが算出される。
【0098】
一方、図1の音声認識装置における特徴抽出部5では、各フレームの音声データとしての観測ベクトルaから、特徴ベクトルが求められるが、このことは、観測ベクトル空間上の、ある点を表す観測ベクトルaを、特徴ベクトル空間上に写像することにより、その特徴ベクトル空間上の、対応する点を表す特徴ベクトルに変換する処理が行われると考えることができる。
【0099】
従って、特徴ベクトルは、特徴ベクトル空間上の、ある1点(観測ベクトルaに対応する点)を表す。
【0100】
スペクトルサブトラクションでは、観測ベクトルaから、ノイズの平均スペクトル成分が取り除かれて、特徴ベクトルが算出されるが、この特徴ベクトルは、上述したように、特徴ベクトル空間上の1点であるため、ノイズの平均的な性質を考慮したものとはなっているが、ノイズの分散などの不規則な性質を考慮したものとはなっていない。
【0101】
このため、スペクトルサブトラクション処理後に得られる特徴ベクトルは、観測ベクトルaの特徴を充分に(あるいは、正確に)表現しているとはいえず、そのような特徴ベクトルでは、認識性能を十分に向上させることができないことがある。
【0102】
そこで、図14は、本発明を適用した音声認識装置の他の一実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0103】
即ち、図14の実施の形態では、図1の特徴抽出部5、音声認識部6、または無音モデル補正部7に替えて、特徴抽出部31、音声認識部32、または無音モデル補正部33がそれぞれ設けられており、さらに、ノイズ観測区間抽出部3が出力する環境ノイズが、無音モデル補正部33だけでなく、特徴抽出部31にも供給されるようになっている。
【0104】
但し、ノイズ観測区間抽出部3は、フレーム化部2から入力されるフレーム単位の音声データを、図1における場合よりも長い時間(例えば、2Mフレーム分以上など)だけバッファリングすることができるようになっている。
【0105】
即ち、図14の実施の形態においては、ノイズ観測区間抽出部3は、例えば、図15に示すように、発話スイッチ4がオンとされたタイミングtbからMフレーム分だけ以前のタイミングtaまでを、ノイズ観測区間Tnとするとともに、さらの、そのノイズ観測区間TnからMフレーム分だけ以前のタイミングt0までをノイズ観測区間Tmとして、その連続する2つのノイズ観測区間TnとTmにおける2Mフレーム分の観測ベクトルaを抽出して、特徴抽出部31、および無音モデル補正部33に出力する。
【0106】
なお、2つのノイズ観測区間TnとTmは、連続していなくてもかまわない。
また、ノイズ観測区間Tnは、上述したように、無音モデルの適応を行うための環境ノイズを得るための区間であるが、ノイズ観測区間Tmは、後述する特徴分布を抽出するための環境ノイズを得るための区間である。さらに、ここでは、2つのノイズ観測区間TmとTnを、いずれも、Mフレームで構成するようにしたが、ノイズ観測区間TmとTnのフレーム数は、同一である必要はない。
【0107】
特徴抽出部31は、ノイズ観測区間抽出部3から入力されるノイズ観測区間TmとTnのうちの前半のノイズ観測区間Tmの環境ノイズだけが存在する音声データに基づいて、フレーム化部2から入力される、タイミングtb以降の音声区間の観測ベクトルaから環境ノイズ成分を除去して、その特徴量を抽出する。
【0108】
即ち、特徴抽出部31は、例えば、図1の特徴抽出部5と同様に、観測ベクトルaとしての音声データをフーリエ変換し、そのパワースペクトラムを求め、そのパワースペクトラムの各周波数成分をコンポーネントとする特徴ベクトルyを算出する。さらに、特徴抽出部31は、観測ベクトルaとしての音声データに含まれる真の音声成分を、その特徴量の空間(特徴ベクトル空間)に写像したときに得られる、その特徴ベクトル空間上の分布を表すパラメータ(以下、特徴分布パラメータと記述する)Zを、特徴ベクトルyとノイズ観測区間Tmの環境ノイズに基づいて算出し、音声認識部32に供給する。
【0109】
即ち、図16は、図14の特徴抽出部31の詳細な構成例を示している。なお、図中、図3の特徴抽出部5における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、特徴抽出部31は、特徴分布パラメータ算出部42とノイズ特性算出部43が新たに設けられている他は、図3の特徴抽出部5と同様に構成されている。
【0110】
フレーム化部2から入力される観測ベクトルaは、特徴抽出部31において、パワースペクトラム分析部11に供給され、特徴ベクトルyとしてのパワースペクトラムとされる。なお、ここでは、1フレームの音声データとしての観測ベクトルaが、D個のコンポーネントからなる特徴ベクトル(D次元の特徴ベクトル)に変換されるものとする。
【0111】
ここで、第tフレームの観測ベクトルa(t)から得られる特徴ベクトルy(t)のうち、真の音声のスペクトル成分をx(t)と、環境ノイズのスペクトル成分をu(t)と表す。この場合、真の音声のスペクトル成分x(t)は、次式(8)で表される。
【0112】
【数8】
Figure 0004577543
【0113】
ただし、ここでは、環境ノイズが不規則な特性を有し、また、観測ベクトルa(t)としての音声データは、真の音声成分に環境ノイズを加算したものであると仮定している。
【0114】
一方、ノイズ観測区間抽出部3から入力される音声データとしてのノイズ観測区間Tmにおける環境ノイズは、特徴抽出部31において、ノイズ特性算出部43に供給される。ノイズ特性算出部43では、ノイズ観測区間Tmにおける環境ノイズの特性が求められる。
【0115】
即ち、ここでは、音声区間における環境ノイズのパワースペクトラムu(t)の分布が、その音声区間の直前のノイズ観測区間Tmにおける環境ノイズと同一であり、かつ、その分布が正規分布であると仮定して、ノイズ特性算出部43において、その正規分布を規定する、環境ノイズの平均ベクトルμ’と分散マトリクスΣ’が、次式(9)にしたがって求められる。
【0116】
【数9】
Figure 0004577543
【0117】
ただし、μ’(i)は、平均ベクトルμ’のi番目のコンポーネントを表す(i=1,2,・・・,D)。また、y(t)(i)は、第tフレームの特徴ベクトルのi番目のコンポーネントを表す。さらに、Σ’(i,j)は、分散マトリクスΣ’の、第i行、第j列のコンポーネントを表す(j=1,2,・・・,D)。
【0118】
ここで、計算量の低減のために、環境ノイズについては、特徴ベクトルyの各コンポーネントが、互いに無相関であると仮定する。この場合、次式に示すように、分散マトリクスΣ’は、対角成分以外は0となる。
【0119】
【数10】
Figure 0004577543
【0120】
なお、環境ノイズについて、特徴ベクトルyの各コンポーネントが、互いに無相関であると仮定しなくても、計算量は増加するが、以下説明する処理を行うことは可能である。
【0121】
ノイズ特性算出部43は、以上のようにして、環境ノイズの特性としての、正規分布を規定する平均ベクトルμ’および分散マトリクスΣ’を求め、特徴分布パラメータ算出部42に供給する。
【0122】
一方、パワースペクトラム分析部11の出力、すなわち、環境ノイズを含む音声区間の音声の特徴ベクトルyも、特徴分布パラメータ算出部42に供給される。特徴分布パラメータ算出部42は、パワースペクトラム分析部11からの特徴ベクトルy、およびノイズ特性算出部43からの環境ノイズの特性(ここでは、環境ノイズを表す正規分布を規定する平均ベクトルμ‘と分散マトリクスΣ’)に基づいて、真の音声のパワースペクトラムの分布(推定値の分布)を表す特徴分布パラメータを算出する。
【0123】
即ち、特徴分布パラメータ算出部42は、真の音声のパワースペクトラムの分布が正規分布であるとして、その平均ベクトルξと分散マトリクスΨを、特徴分布パラメータとして、次式(11)乃至(14)にしたがって計算する。
【0124】
【数11】
Figure 0004577543
【0125】
【数12】
Figure 0004577543
【0126】
【数13】
Figure 0004577543
【0127】
【数14】
Figure 0004577543
【0128】
ここで、ξ(t)(i)は、第tフレームにおける平均ベクトルξ(t)のi番目のコンポーネントを表す。また、E[]は、[]内の平均値を意味する。x(t)(i)は、第tフレームにおける真の音声のパワースペクトラムx(t)のi番目のコンポーネントを表す。さらに、u(t)(i)は、第tフレームにおける環境ノイズのパワースペクトラムのi番目のコンポーネントを表し、P(u(t)(i))は、第tフレームにおける環境ノイズのパワースペクトラムのi番目のコンポーネントがu(t)(i)である確率を表す。ここでは、環境ノイズの分布として正規分布を仮定しているので、P(u(t)(i))は、式(14)に示したように表される。
【0129】
また、Ψ(t)(i,j)は、第tフレームにおける分散マトリクスΨ(t)の、第i行、第j列のコンポーネントを表す。さらに、V[]は、[]内の分散を表す。
【0130】
特徴分布パラメータ算出部42は、以上のようにして、各フレームごとに、平均ベクトルξおよび分散マトリクスΨを、真の音声の特徴ベクトル空間上での分布(ここでは、真の音声の特徴ベクトル空間上での分布が正規分布であると仮定した場合の、その分布)を表す特徴分布パラメータとして求める。
【0131】
特徴分布パラメータ算出部42は、音声区間の各フレームについて求めた特徴分布パラメータを、音声認識部32に出力する。すなわち、いま、音声区間がTフレームであったとし、そのTフレームそれぞれにおいて求められた特徴分布パラメータを、z(t)={ξ(t),Ψ(t)}(t=1,2,・・・,T)と表すと、特徴分布パラメータ算出部42は、特徴分布パラメータ(系列)Z={z(1),z(2),・・・,z(T)}を、音声認識部32に供給する。
【0132】
図14に戻り、音声認識部32は、特徴抽出部31から入力される特徴分布パラメータZを、所定数Kの音響モデルと1個の無音モデルのうちのいずれかに分類し、その分類結果を、入力された音声の認識結果として出力する。
【0133】
即ち、音声認識部32は、例えば、無音区間に対応する識別関数と、所定数Kの単語それぞれに対応する識別関数とを記憶しており、各音響モデルの識別関数の値を、特徴抽出部31からの特徴分布パラメータZを引数として計算する。そして、その関数値が最大である音響モデル(単語、または無音(ノイズ))が認識結果として出力される。
【0134】
ここで、図17は、図14の音声認識部32の詳細な構成例を示している。なお、図中、図4の音声認識部6における場合と対応する部分については、同一の符号を付してある。即ち、音声認識部32は、基本的に、図4の音声認識部6と同様に構成されている。
【0135】
但し、識別関数演算部21−1乃至21−k、および識別関数演算部21−sには、特徴抽出部31の特徴分布パラメータ算出部42が出力する特徴分布パラメータZが供給されるようになっており、識別関数演算部21−k(k=1,2,・・・,K,s)は、特徴分布パラメータZを引数とする識別関数Gk(Z)を、音響モデルとして記憶している。
【0136】
図17の実施の形態において、音声認識部32が、例えば、図4の音声認識部6と同様に、HMM法を用いて、クラスとしての単語または無音の識別(認識)を行う場合、音声認識部32は、音響モデルとしてのHMMにおいて、特徴分布パラメータの系列Z={z1,z2,・・・,zT}が観測される観測確率を、識別関数Gk(Z)によって求める。即ち、この場合、識別関数Gk(Z)は、特徴分布パラメータの系列Z={z1,z2,・・・,zT}に対する最適状態系列において、そのような特徴分布パラメータ(の系列)Z={z1,z2,・・・,zT}が観測される確率を求めるものとして、次式(15)で与えられる。
【0137】
【数15】
Figure 0004577543
【0138】
ここで、bk’(qi)(zj)は、出力がzjで表される分布であるときの出力確率を表す。式(1)で説明したように、状態遷移時に各特徴ベクトルを出力する確率である出力確率bk(S)(Ot)に(Sは状態を表す)、特徴ベクトル空間上のコンポーネントに相関がないものとして、正規分布関数を用いることとした場合、入力がztで表される分布であるときは、出力確率bk’(S)(zt)は、平均ベクトルμk(S)と分散マトリクスΣk(S)とによって規定される確率密度関数Pkm(S)(x)、および第tフレームの特徴ベクトル(ここでは、パワースペクトラム)xの分布を表す確率密度関数Pf(t)(x)を用いて、次式(16)により求めることができる。
【0139】
【数16】
Figure 0004577543
【0140】
ただし、式(16)における積分の積分区間は、D次元の特徴ベクトル空間(ここでは、パワースペクトラム空間)の全体である。
【0141】
また、式(16)において、P(S)(i)(ξ(t)(i),Ψ(t)(i,i))は、次式(17)で表される。
【0142】
【数17】
Figure 0004577543
【0143】
ただし、μk(S)(i)は、平均ベクトルμk(S)のi番目のコンポーネントを、Σk(S)(i,i)は、分散マトリクスΣk(S)の、第i行第i列のコンポーネントを、それぞれ表す。そして、kクラスモデルの出力確率は、これらによって規定される。
【0144】
なお、HMMは、上述した場合と同様に、学習用の音声データから特徴ベクトルを算出し、その特徴ベクトルを用いて、予め求めておく。
【0145】
ここで、特徴分布パラメータZに基づく音声認識に用いられる出力確率を規定する式(17)の確率分布は、特徴分布パラメータZの分散Ψ(t)(i,i)を0とすると、特徴ベクトルの分散を考慮しない場合の連続HMMにおける出力確率を規定する式(2)の確率分布に一致する。
【0146】
決定部22は、図4における場合と同様に、識別関数演算部21−1乃至21−k、および識別関数演算部21−sそれぞれからの関数値Gk(Z)(関数値Gs(Z)を含む)に対して、上述の式(3)と同様の決定規則を用いて、特徴分布パラメータZ、即ち、入力された音声が属するクラス(音響モデル)を識別し、音声認識結果として出力する。
【0147】
図14に戻り、無音モデル補正部33は、ノイズ観測区間抽出部3から入力されるノイズ観測区間TmとTnにおける音声データとしての環境ノイズに基づいて、音声認識部32に記憶されている無音モデルに対応する識別関数Gs(Z)を生成し、この識別関数Gs(Z)によって、音声認識部32に記憶されている無音モデルの適応を行う。
【0148】
具体的には、無音モデル補正部33では、ノイズ観測区間抽出部3から入力される後半のノイズ観測区間Tnの音声データ(環境ノイズ)のM個のフレームの各フレームについて、特徴ベクトルyが観測され、さらに、特徴抽出部31における場合と同様にして、前半のノイズ観測区間Tmにおける環境ノイズを用いて、後半のノイズ観測区間Tnの各フレーム#iにおける環境ノイズの特徴分布パラメータの、次式で示される系列が生成される。
【0149】
【数18】
Figure 0004577543
【0150】
ここで、環境ノイズの特徴分布パラメータFi(y)は、ユーザの音声のない部分、つまり無音(正確には、環境ノイズが存在する)の特徴ベクトルの分布を表すから、以下、適宜、無音特徴分布とも記述する。
【0151】
次に、無音モデル補正部33は、無音特徴分布を、次式(19)に従い、無音モデルに対応する確率分布Gs(Z)に写像する。
【0152】
【数19】
Figure 0004577543
【0153】
但し、Vは無音特徴分布{Fi(Z),i=1,2,・・・,M}を無音モデルGs(Z)に写像する補正関数(写像関数)である。
【0154】
この写像は、無音特徴分布の記述によって様々な方法が考えられるが、例えば、次式を採用することができる。
【0155】
【数20】
Figure 0004577543
【0156】
但し、βi(F1(y),F2(y),・・・,FM(y),M)は、ノイズ観測区間Tnの第iフレームから得られる無音特徴分布Fi(y)に対する重み関数であり、以下、βiと記述する。なお、重み関数βiは、次式(21)の条件を満足するものである。
【0157】
【数21】
Figure 0004577543
【0158】
ノイズ観測区間Tnにおける各フレームの特徴ベクトルyを構成するコンポーネントが無相関であれば、無音特徴分布{Fi(y),i=1,2,・・・,M}は、平均ベクトルμiと分散マトリクスΣiで規定される正規分布N(μi,Σi)となる。
【0159】
この場合、無音モデル補正部33は、ノイズ観測区間Tnの各フレームから得られる無音特徴分布Fi(y)としての正規分布を規定する平均ベクトルμiと分散マトリクスΣiを用い、例えば、次式にしたがって、無音モデルGs(Z)を表す正規分布を規定する平均ベクトルμsilと、Σsilを演算する。
【0160】
【数22】
Figure 0004577543
【0161】
ここで、係数aおよびbとしては、例えば、シミュレーションにより最適な値を決定することができる。
【0162】
なお、無音特徴分布Fi(y)から、無音モデルGs(Z)を生成する方法は、上述の方法に限定されるものではなく、例えば、本件出願人が先に出願した特願2000-276856号(特願平11-375766号を基礎とする国内優先権主張出願)等に開示されている各種の方法を採用することができる。
【0163】
ところで、上述のように、無音特徴分布を用いて、無音モデルの適応を行う場合においても、特徴ベクトルを用いて、無音モデルの適応を行う場合と同様に、注目音声区間の直前の環境ノイズだけでなく、過去の1以上の音声区間の直前の環境ノイズにも基づき、上述の第1乃至第3の3つの適応方法(図8乃至図13)によって、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うことが可能である。
【0164】
即ち、例えば、いま、第i発話の音声区間の直前のノイズ観測区間Tnの第jフレームの環境ノイズから得られる無音特徴分布を、Fj[Ii]と表すとすると、本実施の形態では、特徴ベクトルがD次のコンポーネントで構成されるから、無音特徴分布Fj[Ii]は、次式に示すようなD次のコンポーネントで表される。
【0165】
【数23】
Figure 0004577543
【0166】
また、第i発話の音声区間の直前のノイズ観測区間Tnの第jフレームの環境ノイズから得られる無音特徴分布Fj[Ii]のd番目のコンポーネントfd(i,j)は、上述したことから、式(24)に示すように、平均値μd(i,j)と、分散σd 2(i,j)によって規定される正規分布N(μd(i,j),σd 2(i,j))で表すことができる。
【0167】
【数24】
Figure 0004577543
【0168】
この場合、第1の適法方法(図8)では、無音モデル補正部33は、第1乃至第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズから得られる無音特徴分布のd番目のコンポーネントの平均値μsil(d)と分散σsil 2(d)を、次式にしたがって計算する。
【0169】
【数25】
Figure 0004577543
【0170】
そして、無音モデル補正部33は、次式で示される平均ベクトルμsilと分散マトリクスΣsilによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルGs[IN]とする。
【0171】
【数26】
Figure 0004577543
【0172】
次に、第2の適応方法(図10)では、無音モデル補正部33は、第1乃至第N−1発話の音声区間の直前のノイズ観測区間Tnの環境ノイズから得られる無音特徴分布Fj[I1]乃至Fj[IN-1]を計算する。さらに、無音モデル補正部33は、無音特徴分布Fj[I1]乃至Fj[IN-1]の平均ベクトルμsil-1と分散マトリクスΣsil-1を、式(25)および(26)における場合と同様に計算し、その平均ベクトルμsil-1と分散マトリクスΣsil-1によって規定される正規分布N(μsil-1,Σsil-1)を、式(27)に示すように、第1の無音モデルGs-1とする。
【0173】
【数27】
Figure 0004577543
【0174】
また、無音モデル補正部33は、注目フレームである第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズから得られる無音特徴分布Fj[IN]のd番目のコンポーネントについて、そのノイズ観測区間Tnにおける平均値μsil-2(d)と分散σsil-2 2(d)を、次式にしたがって計算する。
【0175】
【数28】
Figure 0004577543
【0176】
さらに、無音モデル補正部33は、式(29)で示される平均ベクトルμsil-2と分散マトリクスΣsil-2によって規定される正規分布N(μsil-2,Σsil-2)を、式(30)に示すように、第2の無音モデルGs-2とする。
【0177】
【数29】
Figure 0004577543
【0178】
【数30】
Figure 0004577543
【0179】
以上のようにして、第1の無音モデルGs-1と、第2の無音モデルGs-2を得た後は、無音モデル補正部33は、第1の無音モデルGs-1と、第2の無音モデルGs-2とを統合することにより、注目音声区間の音声の認識に用いる無音モデルGs[IN]を生成する。
【0180】
即ち、無音モデル補正部33は、例えば、上述の式(7)にしたがい、第1の無音モデルGs-1を規定する平均ベクトルμsil-1と、第2の無音モデルGs-2を規定する平均ベクトルμsil-2とを統合し、平均ベクトルμsilを求めるとともに、第1の無音モデルGs-1を規定する分散マトリクスΣsil-1と、第2の無音モデルGs-2を規定する分散マトリクスΣsil-2とを統合し、分散マトリクスΣsilを求める。そして、無音モデル補正部33は、その平均ベクトルμsilと分散マトリクスΣsilによって規定される正規分布N(μsil,Σsil)を、式(31)に示すように、注目音声区間の音声の認識に用いる無音モデルGs[IN]とする。
【0181】
【数31】
Figure 0004577543
【0182】
次に、第3の適応方法(図12)では、無音モデル補正部33は、直前の発話、つまり第N−1発話の音声区間の音声認識に用いられた無音モデルGs[IN-1]を、音声認識部32(図14)から取得する。
【0183】
さらに、無音モデル補正部33は、注目フレームである第N発話の音声区間の直前のノイズ観測区間Tnの環境ノイズから得られる無音特徴分布Fj[IN]の、そのノイズ観測区間Tnにおける平均ベクトルと分散マトリクスを、上述の式(28)および(29)にしたがって計算し、その平均ベクトルと分散マトリクスによって規定される正規分布としての無音モデルGs’[IN]を生成する。
【0184】
そして、無音モデル補正部33は、第N−1発話の音声区間の音声認識に用いられた無音モデルGs[IN-1]と、第N発話の音声区間の直前の環境ノイズだけから得られた無音モデルGs’[IN]とを統合することにより、注目音声区間の音声の認識に用いる無音モデルGs[IN]を生成する。
【0185】
即ち、例えば、第N−1発話の音声区間の音声認識に用いられた無音モデルGs[IN-1]としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμsil-1とΣsil-1とするとともに、第N発話の音声区間の直前の環境ノイズだけから得られた無音モデルGs’[IN]としての正規分布を規定する平均ベクトルと分散マトリクスを、それぞれμsil-2とΣsil-2とすると、無音モデル補正部33は、例えば、上述の式(7)にしたがい、平均ベクトルμsil-1とμsil-2とを統合し、平均ベクトルμsilを求めるとともに、分散マトリクスΣsil-1とΣsil-2とを統合し、分散マトリクスΣsilを求める。そして、無音モデル補正部33は、その平均ベクトルμsilと分散マトリクスΣsilによって規定される正規分布を、注目音声区間の音声の認識に用いる無音モデルGs[IN]とする。
【0186】
以上のように、特徴分布パラメータを用いる場合においても、注目音声区間の直前の環境ノイズだけでなく、過去の1以上の音声区間の直前の環境ノイズにも基づいて、注目音声区間の音声を認識するのに用いる無音モデルの適応を行うようにすることで、音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことができ、これにより、無音部分に起因する音声認識性能の劣化を防止(低減)することができる。
【0187】
なお、第i発話の音声区間の直前の環境ノイズから得られる無音特徴分布Fj[IN]の、そのノイズ観測区間Tnにおける平均ベクトルと分散マトリクスを、上述の式(28)および(29)にしたがって計算する場合においては、そのノイズ観測区間TnにおけるMフレームそれぞれから得られる時系列の無音特徴分布F1[Ii],F2[Ii],・・・,FM[Ii]は、平等に扱うのではなく、例えば、対応する音声区間に近いものほど重みをおいて扱うことが可能である。このような重み付けの方法の詳細については、例えば、上述の特願2000-276856号等に記載されている。
【0188】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0189】
そこで、図18は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0190】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0191】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0192】
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0193】
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0194】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0195】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0196】
なお、本実施の形態では、音響モデルとして、HMMを採用し、HMM法に基づいて音声認識を行うようにしたが、音響モデル、および音声認識のアルゴリズムは、特に限定されるものではない。
【0197】
また、本発明は、特徴ベクトルと、特徴分布パラメータの両方を用いて音声認識を行う場合にも適用可能である。
【0198】
【発明の効果】
本発明のモデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置によれば音声区間中の無音部分に十分対処可能な無音モデルの適応を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の第1実施の形態の構成例を示すブロック図である。
【図2】図1のノイズ観測区間抽出部3の処理を説明する図である。
【図3】特徴抽出部5の構成例を示すブロック図である。
【図4】音声認識部6の構成例を示すブロック図である。
【図5】HMMを示す図である。
【図6】音声認識処理を説明するフローチャートである。
【図7】各発話に対して、無音モデルの適応を行う様子を示す図である。
【図8】第1の無音モデルの適応方法を説明する図である。
【図9】第1の無音モデルの適応方法による無音モデル適応処理を説明するフローチャートである。
【図10】第2の無音モデルの適応方法を説明する図である。
【図11】第2の無音モデルの適応方法による無音モデル適応処理を説明するフローチャートである。
【図12】第3の無音モデルの適応方法を説明する図である。
【図13】第3の無音モデルの適応方法による無音モデル適応処理を説明するフローチャートである。
【図14】本発明を適用した音声認識装置の第2実施の形態の構成例を示すブロック図である。
【図15】図14のノイズ観測区間抽出部3の処理を説明する図である。
【図16】特徴抽出部31の構成例を示すブロック図である。
【図17】音声認識部32の構成例を示すブロック図である。
【図18】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 マイクロフォン, 2 フレーム化部, 3 ノイズ観測区間抽出部, 4 発話スイッチ, 5 特徴抽出部, 6 音声認識部, 7 無音モデル補正部, 11 パワースペクトラム分析部, 21−1乃至21−N,21−s識別関数演算部, 22 決定部, 31 特徴抽出部, 32 音声認識部, 33 無音モデル補正部, 42 特徴分布パラメータ算出部, 43 ノイズ特性算出部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (10)

  1. 音声を認識するのに用いる音響モデルの適応を行うモデル適応装置であって、
    音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、
    現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段と
    を備え
    前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
    デル適応装置。
  2. 前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた1以上の音声の音声区間の直前の区間における抽出データとから、現在の音声認識の対象となっている音声の認識に用いる前記無音モデルを生成する
    求項1に記載のモデル適応装置。
  3. 前記モデル適応手段は、過去に音声認識の対象とされた1以上の音声の音声区間の直前の区間における抽出データに基づいて、第1の無音モデルを生成するとともに、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データに基づいて、第2の無音モデルを生成し、前記第1と第2の無音モデルに基づいて、現在の音声認識の対象となっている音声の認識に用いる前記無音モデルを生成する
    求項1に記載のモデル適応装置。
  4. 前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データに基づいて、前記無音モデルを生成し、その無音モデルと、過去に音声認識の対象とされた音声の認識に用いられた前記無音モデルとに基づいて、現在の音声認識の対象となっている音声の認識に用いる前記無音モデルを生成する
    求項1に記載のモデル適応装置。
  5. 前記音声の認識は、音声の特徴空間における特徴量のベクトルまたは特徴量の分布に基づいて行われ、
    前記モデル適応手段は、前記抽出データから得られる前記特徴量のベクトルまたは特徴量の分布に基づいて、前記無音モデルの適応を行う
    求項1に記載のモデル適応装置。
  6. 前記モデル適応手段は、前記抽出データから得られる前記特徴量と特徴量の分布の両方に基づいて、前記無音モデルの適応を行う
    求項5に記載のモデル適応装置。
  7. 前記モデル適応手段は、統計的手法によって、前記無音モデルの適応を行う
    求項1に記載のモデル適応装置。
  8. 音声を認識するのに用いる音響モデルの適応を行うモデル適応方法であって、
    音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出ステップと、
    現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応ステップと
    を備え
    前記モデル適応ステップでは、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
    デル適応方法。
  9. 音声を認識するのに用いる音響モデルの適応を行うモデル適応処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、
    現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段
    して、コンピュータを機能させるためのプログラムであり、
    前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
    ログラムが記録されている録媒体。
  10. 音声を、音響モデルを用いて認識する音声認識装置であって、
    音声データの特徴量を抽出する特徴抽出手段と、
    前記特徴量と音響モデルに基づいて、前記音声を認識する音声認識手段と、
    音声区間の直前の区間で観測される音声データを抽出し、抽出データとして出力するデータ抽出手段と、
    現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データとに基づいて、無音を表す音響モデルである無音モデルの適応を行うモデル適応手段と
    を備え
    前記モデル適応手段は、現在の音声認識の対象となっている音声の音声区間の直前の区間における抽出データと、過去に音声認識の対象とされた音声の音声区間の直前の区間における抽出データそれぞれに重みを付して、前記無音モデルの適応を行う
    声認識装置。
JP2000353790A 2000-11-21 2000-11-21 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 Expired - Fee Related JP4577543B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000353790A JP4577543B2 (ja) 2000-11-21 2000-11-21 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000353790A JP4577543B2 (ja) 2000-11-21 2000-11-21 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置

Publications (2)

Publication Number Publication Date
JP2002156992A JP2002156992A (ja) 2002-05-31
JP4577543B2 true JP4577543B2 (ja) 2010-11-10

Family

ID=18826492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000353790A Expired - Fee Related JP4577543B2 (ja) 2000-11-21 2000-11-21 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置

Country Status (1)

Country Link
JP (1) JP4577543B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5230103B2 (ja) * 2004-02-18 2013-07-10 ニュアンス コミュニケーションズ,インコーポレイテッド 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
JP2007025076A (ja) * 2005-07-13 2007-02-01 Xanavi Informatics Corp 車載用音声認識装置
JP5597956B2 (ja) * 2009-09-04 2014-10-01 株式会社ニコン 音声データ合成装置
BR112012010181A2 (pt) * 2009-10-29 2016-04-12 Sharp Kk circuito de pixel e dispositivo de vídeo
JP5621783B2 (ja) 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US9633669B2 (en) * 2013-09-03 2017-04-25 Amazon Technologies, Inc. Smart circular audio buffer
KR101986354B1 (ko) * 2017-05-19 2019-09-30 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546196A (ja) * 1991-08-21 1993-02-26 Nec Corp 音声認識装置
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319493A (ja) * 1994-05-26 1995-12-08 Sony Corp 音声認識装置
JPH1115492A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0546196A (ja) * 1991-08-21 1993-02-26 Nec Corp 音声認識装置
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体

Also Published As

Publication number Publication date
JP2002156992A (ja) 2002-05-31

Similar Documents

Publication Publication Date Title
CN108447490B (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
US7043425B2 (en) Model adaptive apparatus and model adaptive method, recording medium, and pattern recognition apparatus
US8515758B2 (en) Speech recognition including removal of irrelevant information
US7219055B2 (en) Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model
KR101415534B1 (ko) 다단계 음성인식장치 및 방법
JP2002073072A (ja) モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP4577543B2 (ja) モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2002123285A (ja) 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP4856526B2 (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2001249681A (ja) モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
Tashev et al. SPEAKER MODELING BY PREPROCESSING SPEECH SIGNALS
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JP2001022377A (ja) 登録パターン更新を伴う話者照合装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100811

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees