JP4275353B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP4275353B2
JP4275353B2 JP2002142998A JP2002142998A JP4275353B2 JP 4275353 B2 JP4275353 B2 JP 4275353B2 JP 2002142998 A JP2002142998 A JP 2002142998A JP 2002142998 A JP2002142998 A JP 2002142998A JP 4275353 B2 JP4275353 B2 JP 4275353B2
Authority
JP
Japan
Prior art keywords
model
adaptation
speech
noise
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002142998A
Other languages
English (en)
Other versions
JP2003330484A (ja
Inventor
聡一 外山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2002142998A priority Critical patent/JP4275353B2/ja
Priority to CN03122309.5A priority patent/CN1453767A/zh
Priority to EP03009344A priority patent/EP1357541A3/en
Priority to US10/422,969 priority patent/US20030220791A1/en
Publication of JP2003330484A publication Critical patent/JP2003330484A/ja
Application granted granted Critical
Publication of JP4275353B2 publication Critical patent/JP4275353B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、例えば話者適応を施した音声モデルを用いて音声認識を行う音声認識装置及び音声認識方法に関するものである。
【0002】
【従来の技術】
音声認識技術の分野では、大量の音声データベースから学習した不特定話者音声モデルを使用して音声認識が行われている。
【0003】
しかし、この不特定話者音声モデルは、不特定多数の発話音声データに基づいて学習されたものであるため、標準的な発話を行う話者の発話音声を音声認識する場合には比較的高い認識性能が得られるものの、発話に特徴のある話者の発話音声を認識する場合は、必ずしも高い認識性能が得られるとは限らないという課題があった。
【0004】
そのため、個々の話者の発話音声によって不特定話者音声モデルを話者適応し、その話者適応した音響モデルを用いることにより、話者個々人に対して適切な音声認識を行おうとする話者適応法が開発された。
【0005】
従来の話者適応法では、大量の音声データベースを用いて音素等サブワード単位の不特定話者音声モデル(以下「初期音声モデル」という)を生成しておき、実際の音声認識を開始する前の前処理段階で、初期音声モデルに対して話者適応を施す。つまり、前処理段階の際に話者に発話をしてもらい、発話音声の特徴ベクトル系列に基づいて初期音声モデルを話者適応することにより、話者の個人差を考慮した話者適応モデルを生成する。
【0006】
そして、実際の音声認識に際して、その話者が発した認識すべき発話音声の特徴ベクトル系列と既述の話者適応モデルから構成される系列とを照合し、最も高い尤度の得られる話者適応モデル系列を音声認識結果としている。
【0007】
【発明が解決しようとする課題】
ところが、初期音声モデルに対して話者適応を行う際、話者の発話音声に発話環境下での背景雑音が重畳することとなる。
【0008】
このため、従来の話者適応法では、発話音声のみならず背景雑音の重畳した発話音声(すなわち、背景雑音重畳発話音声)の特徴ベクトル系列によって話者適応することとなり、精度の良い話者適応モデルを生成することが困難となる場合があった。
【0009】
特に、雑音の多い環境下での発話音声を用いて話者適応を行うことになると、背景雑音の影響を大きく受けてしまい、話者の特徴を適切に反映した話者適応モデルを生成することが困難となる場合があった。
【0010】
そして、実際に、従来の話者適応法で話者適応を施した上記話者適応モデルで音声認識を行うと、その認識時の環境下での背景雑音と、既述した話者適応時の背景雑音とが異なるような場合に、話者適応を行ったことによる効果すなわち音声認識率向上の効果を必ずしも十分に得られないという問題があった。
【0011】
本発明は、上記従来の問題点に鑑みてなされたものであり、背景雑音の影響に対してロバストな話者適応を行う音声認識装置及び音声認識方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するため請求項1に係る音声認識装置の発明は、初期音声モデルを有する記憶手段と、上記記憶手段の初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、上記雑音適応手段で生成された上記雑音適応モデルに対し、上記話者適応時に発話された発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、 上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新手段とを備えることを特徴とする。
【0013】
請求項2に係る音声認識装置の発明は、請求項1に係る音声認識装置の発明において、音声認識時に音声認識処理を行う認識処理手段を備え、更に上記雑音適応手段は、上記音声認識時の非発話期間における背景雑音によって、上記記憶手段に更新記憶された上記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、当該雑音適応を施した話者適応モデルを、発話音声を音声認識するための音響モデルとして上記音声認識手段に供給することを特徴とする。
【0014】
請求項3に係る音声認識装置の発明は、初期音声モデルを有する記憶手段と、音声認識時の非発話期間における背景雑音により上記記憶手段の初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、上記音声認識時の発話期間に発話された音声認識すべき発話音声と、上記雑音適応手段で生成された上記雑音適応モデルとを照合して音声認識を行う認識処理手段と、上記雑音適応手段で生成された上記雑音適応モデルに対し上記音声認識すべき発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、 上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新手段とを備えることを特徴とする。
【0015】
請求項4に係る音声認識装置の発明は、請求項3に係る音声認識装置の発明において、上記話者適応パラメータ算出手段と音声モデル更新手段は、上記認識処理手段の認識結果の信頼度が高い場合に、上記話者適応モデルを生成して上記初期音声モデルに代えて上記記憶手段に更新記憶させることを特徴とする。
【0016】
請求項5に係る音声認識方法の発明は、記憶手段に記憶されている初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、上記雑音適応処理工程で生成された上記雑音適応モデルに対し、上記話者適応時に発話された発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新処理工程とを備えることを特徴とする。
【0017】
請求項6に係る音声認識方法の発明は、請求項5に係る音声認識方法の発明において、更に上記雑音適応処理工程では、音声認識時の非発話期間における背景雑音によって、上記記憶手段に更新記憶された上記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、上記雑音適応を施した話者適応モデルと、上記音声認識時の発話期間における音声認識すべき発話音声とを照合することにより音声認識を行う音声認識処理工程とを備えることを特徴とする。
【0018】
請求項7に係る音声認識方法の発明は、音声認識時の非発話期間における背景雑音により、記憶手段に記憶されている初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、上記音声認識時の発話期間に発話される音声認識すべき発話音声と、上記雑音適応処理工程で生成された上記雑音適応モデルとを照合して音声認識を行う認識処理工程と、上記雑音適応処理工程で生成された上記雑音適応モデルに対し上記音声認識すべき発話音声によって話者適応演算を行い、上記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、上記記憶手段の初期音声モデルに上記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを上記初期音声モデルに代えて上記記憶手段に更新記憶させる音声モデル更新処理工程とを備えることを特徴とする。
【0019】
請求項8に係る音声認識方法の発明は、請求項7に係る音声認識方法の発明において、上記話者適応パラメータ算出処理工程と音声モデル更新処理工程は、上記認識処理工程の認識結果の信頼度が高い場合に、上記話者適応モデルを生成して上記初期音声モデルに代えて上記記憶手段に更新記憶させることを特徴とする。
【0020】
請求項1に係る音声認識装置と請求項5に係る音声認識方法の発明によれば、話者適応に際して、初期音声モデルに対して雑音適応を施し、その雑音適応で得られる雑音適応モデルに対して話者適応演算を行い、更に雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出して、初期音声モデルに対しその話者適応パラメータで話者適応を施すことにより、音声認識に際して利用する話者適応モデルを生成し、初期音声モデルをその話者適応モデルで更新する。
【0021】
これにより、話者適応時の背景雑音の悪影響を低減し、話者適応の本来の目的である話者の個人性への適応効果の高い話者適応モデルの生成を実現する。
【0022】
請求項2に係る音声認識装置と請求項6に係る音声認識方法の発明によれば、話者適応が行われた後の音声認識の際、その音声認識時の非発話期間における背景雑音によって、更新記憶された話者適応モデルに対し雑音適応を施す。これにより、雑音適応を施した話者適応モデルを生成する。そして、雑音適応を施した話者適応モデルと音声認識時の発話期間における音声認識すべき発話音声とを照合することにより音声認識を行う。
【0023】
請求項3に係る音声認識装置と請求項7に係る音声認識方法の発明によれば、音声認識時に話者適応も行う。
【0024】
すなわち、音声認識時の非発話期間における背景雑音により初期音声モデルに雑音適応を施すことで雑音適応モデルを生成し、その音声認識時の発話期間に発話される音声認識すべき発話音声と雑音適応モデルとを照合して音声認識を行う。更に雑音適応モデルに対して、音声認識すべき発話音声によって話者適応演算を行い、雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する。そして、初期音声モデルに話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、生成した話者適応モデルを初期音声モデルに代えて更新する。
【0025】
この結果、多くの発話音声を音声認識していくにしたがって、初期音声モデルを、話者の個人性への適応の度合いの高い話者適応モデルへと更新していくことになり、音声認識性能の向上を実現する。
【0026】
請求項4に係る音声認識装置と請求項8に係る音声認識方法の発明によれば、音声認識の結果が信頼度の高い場合に、話者適応モデルを生成して初期音声モデルを更新することにより、発話環境の状態等に応じて適切な話者適応を実現する。
【0027】
なお、初期音声モデルとは、話者適応を施す前の上記記憶手段に記憶されている音声モデルを指す。本発明では、話者適応によって生成された話者適応モデルで、記憶手段に記憶されている初期音声モデルを更新するが、この更新された話者適応音声モデルは、初期音声モデルとして扱われる。つまり、記憶手段には最初、初期音声モデルが記憶されているが、話者適応モデルで更新された後は、その更新された話者適応モデルを初期音声モデルとみなして扱うという処理が繰り返される。
【0028】
【発明の実施の形態】
以下、本発明の好適な実施の形態を図面を参照して説明する。
【0029】
(第1の実施の形態)
本発明の第1の実施の形態を図1及び図2を参照して説明する。図1は、本実施形態の音声認識装置の構成を示すブロック図である。
【0030】
なお、好適な一実施形態として、初期設定で話者適応を行い、認識時には初期設定された音声モデルを用いて行う実施形態を説明する。
【0031】
図1において、本音声認識装置はHMM(隠れマルコフモデル)を用いて音声認識を行う構成となっており、予め雑音のない環境で収録された音声データベースを用いて学習された不特定話者音声モデルである初期音声モデルMcが記憶された初期音声モデル記憶部1と、後述の話者適応演算処理で生成される話者適応モデルMc”を更新記憶するための話者適応モデル記憶部2と、雑音適応部3と、話者適応パラメータ算出部4及び音声モデル更新部5を有する話者適応部と、を備えて構成されている。
【0032】
更に、マイクロフォン7で収音された収音信号v(t)を所定のフレーム期間毎にケプストラム係数ベクトルに変換し、ケプストラム領域の特徴ベクトル系列V(n)を生成する音響分析部6と、切替スイッチ8及び認識処理部9が備えられている。
【0033】
尚、同図中、矢印付きの破線と矢印付きの実線とによって、信号の通る経路を模式的に示しているが、矢印付きの破線は、話者適応時にのみ通る信号の流れ、一方、矢印付きの実線は、音声認識時にのみ通る信号の流れ、又は音声認識時及び話者適応時の際の信号の流れを表している。
【0034】
ここで、音響分析部6は、マイクロフォン7が収音することで生じる時間軸上の収音信号v(t)を所定のフレーム時間毎にケプストラム係数ベクトルに変換することにより、ケプストラム領域の特徴ベクトル系列V(n)を生成して出力する。なお、符号V(n)中の変数nはフレーム番号を示している。
【0035】
切替スイッチ8は、後述する話者適応の処理に際して、話者が未だ発話を開始していない非発話期間内に雑音適応部3側に切り替わり、音声分析部6で生成される特徴ベクトル系列V(n)を雑音適応部3へ送出する。
【0036】
これは、発話者あるいは装置から処理開始の指示がなされた直後の数十ミリ秒ないし数秒の間は音声が発話されていない区間とみなして、切替スイッチ8を雑音適応部3側へ切り替え、その後は、切替スイッチ8を話者適応算出部4あるいは認識処理部9側へ切替え制御することで実現可能となっている。
【0037】
あるいは、マイクロフォン7からの収音信号v(t)を所定の監視制御手段(図示省略)で逐次監視し、収音信号v(t)に発話者の音声がないと判断したときには、切替スイッチ8を雑音適応部3側へ切り替え、発話者の音声が有ると判断すると、話者適応算出部4あるいは認識処理部9側へ切替え制御するようにしてもよい。要は、収音信号v(t)に発話者の音声が含まれている区間であるか否かに応じて、切替スイッチ8を上述の如く切り替える。
【0038】
また、その話者適応処理の際、話者が発話を開始すると、その発話期間内に話者適応パラメータ算出部4側に切り替わり、音声分析部6で生成される特徴ベクトル系列V(n)を話者適応パラメータ算出部4へ送出する。
【0039】
また、話者適応処理が完了した後、音声認識処理が開始された場合も切替スイッチ8は同様の動作を行うが、前述のように、信号は矢印付きの破線で示す経路を通らず、矢印付きの実線で示す経路を通ることとなる。
【0040】
話者が発話を開始する前の背景雑音のみが収音される期間では、切替スイッチ8は雑音適応部3側に切り替わり、背景雑音の特徴ベクトルN(n)を雑音適応部3へ送出する。
【0041】
マイクロフォン7が発話音声を収音する発話期間になると、切替スイッチ8は、話者適応処理時には話者適応パラメータ算出部4側に、認識処理時には、認識処理部9側に切り替わり、その発話期間における特徴ベクトル系列V(n)を話者適応パラメータ算出部4あるいは認識処理部9へ送出する。
【0042】
初期音声モデル記憶部1は、読出し専用の半導体メモリ(ROM)や、着脱自在に設けられたスマートメディアやコンパクトフラッシュメモリ等で形成された所謂データベースであり、予め、標準的な話者の音声を学習することによって生成された音素等サブワード単位の初期音声モデルMcが記憶されている。
【0043】
話者適応モデル記憶部2は、再記憶が可能な非破壊形の半導体メモリ等で形成されており、後述の話者適応の処理に際して、まず、初期音声モデル記憶部1に記憶されている初期音声モデルMcを複写して記憶する。
【0044】
そして後述する如く、話者適応パラメータ算出部4と音声モデル更新部5によってHMMは話者適応され、話者適応モデルMc”にて更新されることから、初期音声モデルMcを話者適応モデルMc”に置き換えて(更新して)記憶するようになっている。
【0045】
雑音適応部3は、話者適応の処理に際して、話者適応モデル記憶部2に記憶されている音素等サブワード単位での全ての初期音声モデルMcに雑音適応を施すことにより、全ての初期音声モデルMcに対応した雑音適応モデルMc’を生成し、同図中の矢印付き点線の経路を通じて、話者適応パラメータ算出部4へ送出する。
【0046】
また雑音適応部3は、音声認識時において、上記話者適応の処理により話者適応モデル記憶部2に更新記憶されることとなった音声モデル(すなわち、話者適応モデルMc”)に対して雑音適応を施し、その雑音適応した話者適応モデルMregを、同図中の矢印付き実線で示す経路を通じて認識処理部9へ送出する。
【0047】
すなわち、前者の話者適応処理の際には、話者適応時に話者が未だ発話していない非発話期間に、その発話環境で生じる背景雑音をマイクロフォン7が収音すると、音響分析部6がその収音信号v(t)より所定フレーム期間毎の特徴ベクトル系列V(n)を生成し、更に切替スイッチ8が雑音適応部3側に切り替わることで、その特徴ベクトル系列V(n)を背景雑音の特徴ベクトル系列N(n)として雑音適応部3へ送出する。
【0048】
そして、雑音適応部3は、その背景雑音特徴ベクトル系列N(n)を用いて、全ての初期音声モデルMcから、HMM合成手法やヤコビ適応手法等の雑音適応処理により、雑音適応モデルMc’を生成し、話者適応パラメータ算出部4へ送出する。
【0049】
また、後者の音声認識処理の際には、音声認識時に話者が未だ発話していない非発話期間に、その発話環境で生じる背景雑音をマイクロフォン7が収音し、音響分析部6がその収音信号v(t)より所定フレーム期間毎の特徴ベクトル系列V(n)を生成し、更に切替スイッチ8が雑音適応部3側に切り替わることで、その特徴ベクトル系列V(n)を背景雑音の特徴ベクトル系列N(n)として雑音適応部3へ送出する。
【0050】
そして、雑音適応部3は、その背景雑音特徴ベクトル系列N(n)を用いて、更新記憶されることとなった音声モデル(すなわち、話者適応モデルMc”)に対して雑音適応を施し、雑音適応した話者適応モデルMregを認識処理部9へ送出する。
【0051】
ここで、雑音適応部3が話者適応時にHMM合成法を用いて、音声認識率に大きく影響を与える話者適応モデルMc”の各分布の平均ベクトルμcを雑音適応する場合を説明する。
【0052】
まず、雑音適応部3は、背景雑音の特徴ベクトル系列N(n)より、背景雑音モデルNbを求める。
【0053】
ここで説明の便宜上、背景雑音は定常と仮定し、背景雑音モデルNbは1状態1混合モデルとし、更に背景雑音モデルNbの平均ベクトルをμNとして説明すると、平均ベクトルμNは背景雑音の特徴ベクトル系列N(n)をフレーム数で平均することで求める。
【0054】
更に、初期音声モデルMcの分布mの平均ベクトルμcmと背景雑音モデルNbの平均ベクトルμNを合成することで、次式(1)で表される、合成後の雑音適応した分布mの平均ベクトルμcm’を求める。
【0055】
【数1】
Figure 0004275353
【0056】
ここで、IDCT〔 〕は逆離散コサイン変換、log〔 〕は対数変換、exp〔 〕は指数変換、DCT〔 〕は離散コサイン変換、kはSN比より求まる混合比である。
【0057】
これを初期音声モデルMcの全ての分布に対して求める。これにより、初期音声モデルMcに話者適応時の発話環境下での背景雑音を重畳させた形の雑音適応モデルMc’を求め、話者適応パラメータ算出部4へ送出する。
【0058】
なお、ここでは、雑音モデルを1状態1混合としたが、2状態以上あるいは2混合以上の場合は、初期音声モデルMcの1つの分布に対し、対応する雑音適応モデルMc’の分布が複数求まることになる。また、共分散行列を考慮する場合も雑音適応モデルMc’を求めることが可能である。
【0059】
また、雑音適応手法としてHMM合成法を用いる場合を説明したが、本発明では、ヤコビ適応手法その他の、初期音声モデルMcに発話時の背景雑音を重畳した状態の雑音適応モデルMc’を求める雑音適応手法を用いることも可能である。
【0060】
話者適応パラメータ算出部4は、話者適応処理に際して、雑音適応部3からの雑音適応モデルMc’と、音響分析部6から切替スイッチ8を介して供給される発話音声の特徴ベクトル系列V(n)とを入力し、発話音声の特徴を有する話者適応パラメータPを生成して出力する。
【0061】
より具体的に述べると、話者適応処理に際して話者が発話を開始すると、その発話期間に切替スイッチ8が話者適応パラメータ算出部4側に切り替わり、背景雑音の重畳した発話音声の特徴ベクトル系列V(n)が音声分析部6から切替スイッチ8を介して話者適応パラメータ算出部4に供給される。
【0062】
こうして背景雑音の重畳した音声(背景雑音重畳音声)の特徴ベクトル系列V(n)とそれと同じ背景雑音で雑音適応された雑音適応モデルMc’が供給されると、話者適応パラメータ算出部4は、それらの特徴ベクトル系列V(n)と雑音適応モデルMc’を用いて話者適応演算処理を行い、雑音適応モデルMc’を話者適応するための話者適応パラメータPを生成する。
【0063】
ここでは話者適応演算処理としてMLLR(Maxmum Likelihood Linear Regression)を用いて、認識率に大きく影響する話者適応モデルMcの各分布の平均ベクトルを更新する場合を説明する。
【0064】
発話内容が既知の発話音声の特徴ベクトル系列V(n)と雑音適応モデルMc’とを用いてMLLR処理を行い、雑音適応モデルMc’の分布mの平均ベクトルμcm’を話者適応するための話者適応パラメータPとして、変換行列Wm’とオフセットベクトルbm’を求める。
【0065】
ここで、変換行列Wm’とオフセットベクトルbm’は複数の分布で共有させるので、いくつかの分布では同じ値の変換行列Wm’とオフセットベクトルbm’を使用する。
【0066】
また、変換行列Wm’とオフセットベクトルbm’を共有させる分布の選択は、全平均ベクトルをクラスタリングすることにより、雑音適応前の分布を元に予め計算しておく。
【0067】
また、全ての分布で変換行列Wm’とオフセットベクトルbm’を共有する場合は、全分布に共通の1種類の変換行列Wm’とオフセットベクトルbm’を求める。
【0068】
また、上述した雑音適応3で用いた雑音モデルが1状態1混合でない場合は、雑音適応モデルMc’の複数分布が初期音声モデルMcの1つの分布に対応することになるが、この場合は初期音声モデルMcの1つの分布に対応する全ての雑音適応モデルMc’で、変換行列Wm’とオフセットベクトルbm’を共有する。
【0069】
なお、MLLRでは、一般に数発話分の発話音声データを用いて計算を行うが、話者適応パラメータPの分布間の共有情報を全発話で共通に用い、発話音声データに対応する音響モデルは発話毎に雑音適応された雑音適応モデルMc’を用いて計算する。
【0070】
このように、話者適応手法としてMLLRを用いる場合、話者適応パラメータ算出部4では、発話内容が既知の発話音声の特徴ベクトル系列V(n)を用いて、音響モデルMc’の各分布の平均ベクトルを更新するための話者適応パラメータPとして、変換行列Wm’とオフセットベクトルbm’を求める。
【0071】
なお、上述したように、MLLRで変換行列Wm’とオフセットベクトルbm’を算出する場合を述べたが、MAP(Maxmum A Posteriori)推定法を適用することも可能である。
【0072】
このMAP推定法を採用して、平均ベクトルμcm’を適応するためのパラメータPを求めるには、雑音適応モデルMc’の平均ベクトルをMAP推定法により話者適応させ、そこから話者適応パラメータ算出部4で、目的の話者適応パラメータPに変換する。
【0073】
このMAP推定法では、発話内容既知の発話音声の特徴ベクトル系列V(n)の各フレームの特徴ベクトルと、雑音適応モデルMc’の各分布との対応関係をビタビ整合等により算出する。
【0074】
そして、雑音適応モデルMc’の分布mに対応するフレームの特徴ベクトルを集め、それをフレーム数で平均することで平均特徴ベクトルVm~を求める。
【0075】
このときの、分布mに対応するフレームの特徴ベクトルのフレーム数(個数)をnm、分布mの重み係数をτm’、分布mの平均ベクトルμcm’を話者適応した更新平均ベクトルをμcm’^とすると、その更新平均ベクトルμcm’^を次式(2)で表される関係に従って算出する
【0076】
【数2】
Figure 0004275353
【0077】
また、重み係数τm’も次式(3)で表される関係に従って、発話毎に更新する。
【0078】
【数3】
Figure 0004275353
【0079】
そして、更新平均ベクトルμcm’^で平均ベクトルμcm’を置き換え、更に重み係数もτm’^でτm’を置き換えることで、発話がなされる度に平均ベクトルμcm’と重み係数τm’を夫々更新平均ベクトルμcm’^と重み係数τm’^で順次に更新していく。
【0080】
ここで、話者適応パラメータPを話者適応後のモデルと話者適応前のモデルとの差ベクトルと考えると、分布mの話者適応パラメータPである差ベクトルdm’は、次式(4)で表される。
【0081】
【数4】
Figure 0004275353
【0082】
この式(4)によると、更新平均ベクトルμcm’^を算出することなく差ベクトルdm’を求めることができる。
【0083】
そして、差ベクトルdm’を後述の音声モデル更新部5に転送し、重み係数τm’は上記式(3)により更新し、話者適応パラメータ算出部4に保持しておく。なお、重み係数τm’の初期値は任意の値に選ぶことができる。
【0084】
また、上述した雑音適応3で用いた雑音適応モデルMc’が1状態1混合でない場合は、雑音適応モデルMc’の複数分布が初期音声モデルMcの1つの分布に対応することになる。
【0085】
例えば初期音声モデルMcの分布mが雑音適応モデルMc’の分布m1,m2,……,mkに対応したとする。そして雑音適応モデルの分布m1に対応する、上記式(4)より求まる話者適応パラメータをdm1’、重み係数をτm1’とすると、初期音声モデルMcの分布mを更新するための話者適応パラメータdm’を、次式(5)で表される加算平均処理にて求める。
【0086】
【数5】
Figure 0004275353
【0087】
また、上記式(5)に重み係数τm1’で重み付けした次式(6)で表される演算によって、k個のパラメータを統合して話者適応パラメータdm’を算出してもよい。
【0088】
【数6】
Figure 0004275353
【0089】
以上、話者適応手法としてMLLRとMAP推定法を用いる場合の話者適応パラメータ算出部4の動作を説明した。
【0090】
なお、話者適応手法として、他の手法を講じることもできる。
【0091】
MLLRの変換行列Wm’とオフセットベクトルbm’のように、話者適応処理により話者適応パラメータPが求まる話者適応手法を用いる場合は、それらの話者適応パラメータPを用いることとし、また、MAP推定法のように話者適応パラメータが直接使用できないような場合には、雑音適応モデルMc’に話者適応を行った話者雑音適応モデルを考え、その雑音適応モデルMc’と雑音適応モデルMc’の差を話者適応パラメータPとして用いることで、様々な話者適応手法に対応することが可能である。
【0092】
また、ここでは平均ベクトルを適応する場合を例示したが、共分散行列を適応する場合にも応用可能である。
【0093】
また、多くの話者適応手法では発話内容(発話された単語や文が何であったのか)を知る必要がある。この場合は、音声認識処理を行う前に話者適応処理のみを行い、その際、発話すべき内容は予め定めておき、定められた内容を話者に提示し、その提示に従って発話してもらうようにすることで対処する。
【0094】
話者適応では、話者の個人性への適応と共に発話環境への適応も行われる。
【0095】
背景雑音の無い環境でなされた発話を用いて、背景雑音の無い環境で収録された音声データベースを用いて学習された不特定話者モデルである初期音声モデルMcを話者適応する場合は、背景雑音の影響を受けないので話者の個人性への適応のみを行う。
【0096】
しかし、話者適応に用いる発話が背景雑音のある環境下でなされ、これを用いて上述の初期音声モデルMcを話者適応すると、話者の個人性への適応と適応発話時の背景雑音への適応が同時になされることになる。
【0097】
このため、一般には話者適応後の話者適応モデルを用いて音声認識を行うと、音声認識時の発話環境が適応発話時と同じ雑音環境であれば高い認識率を得ることができるが、認識を行う発話環境が適応発話時と異なる場合必ずしも高い認識率を得られない可能性がある。
【0098】
本発明では、かかる問題に対処すべく、話者適応処理を行う前に上述のように雑音適応部3で雑音適応を行うことにより、上述初期音声モデルMcを適応時の発話音声と同じ背景雑音環境に適応させた雑音適応モデルMc’を生成し、そして、話者適応パラメータ算出部4において、その雑音適応モデルMc’を用いて話者適応処理を行い、話者適応パラメータPを算出する。
【0099】
尚、雑音適応モデルMc’は話者適応処理を行う前に、既に適応用発話環境と同じ背景雑音に適応しているため、話者適応処理により求まる話者適応パラメータPからは背景雑音適応項の影響が軽減され、本来の目的である話者の個人性への適応項を多く含むものとなる。
【0100】
この話者適応パラメータPを用いて、後述する音声モデル更新部5が初期音声モデルを更新することで、適応発話時の背景雑音の影響の少ない話者適応モデルMc”を生成する。
【0101】
音声モデル更新部5は、話者適応モデル記憶部2に記憶されている初期音声モデルMcを、話者適応パラメータ算出部4の出力する話者適応パラメータPを用いて話者適応モデルMc”に変換する。
【0102】
なお、上述のMLLRとMAP推定法を採用し、初期音声モデルMcの分布mの平均ベクトルμcmを更新する場合の音声モデル更新部5の機能を説明することとする。
【0103】
上述のように、話者適応パラメータ算出部4で話者適応処理としてMLLRを用い、話者適応パラメータPとして変換行列Wm’とオフセットベクトルbm’を用いる場合、話者適応更新後の話者適応モデルMc”の分布mの平均ベクトルμcm”は、次式(7)の関係から求められる。
【0104】
【数7】
Figure 0004275353
【0105】
また、話者適応パラメータ算出部4で話者適応処理としてMAP推定法を用い、話者適応パラメータPとして差分ベクトルdm’を用いる場合、平均ベクトルμcm”は、次式(8)の関係から求められる。
【0106】
【数8】
Figure 0004275353
【0107】
いずれの場合も、平均ベクトルμcm”は上述のように、適応発話時の背景雑音の影響が少なく話者の個人性への適応がなされた平均ベクトルとなる。
【0108】
そして、上記のように音声モデル更新部5が話者適応モデル記憶部2に記憶された音声モデルMcを、話者適応パラメータ生成部4の出力する話者適応パラメータPを用いて更新し、その更新した話者適応モデルMc”を話者適応モデル記憶部2に更新記憶させる。すなわち、音声認識に際して、話者適応モデルMc”を音声モデルMcとして使用すべく、更新記憶させる。
【0109】
認識処理部9は、音声認識処理を行うために設けられている。すなわち、音声認識の際、雑音適応部3が、話者適応音声記憶部2に更新記憶されることとなった話者適応モデルMc(すなわち、話者適応モデルMc”)に対して、認識発話雑音環境下での背景雑音の特徴ベクトル系列N(n)で雑音適応を施すことにより、雑音適応を施した話者適応モデルMreg生成し、その話者適応モデルMregを認識処理部9に供給する。
【0110】
そして、認識処理部9は、その雑音適応された話者適応モデルMregを用いて構成した系列と、音響分析部6側から供給される認識すべき発話音声の特徴ベクトル系列V(n)とその認識候補単語や文のモデルとを照合して、最も大きな尤度となる話者適応モデルMregを用いて構成した系列を認識結果として出力する。
【0111】
ここで、音声認識時に使用される上記の雑音適応された話者適応モデルMregは、上述のように話者の個人性への適応がなされ、且つ認識発話時の背景雑音への適応もなされたものとなる。
【0112】
このため、音声認識時の背景雑音環境と適応発話時の背景雑音環境が異なっていても、音声認識時には高い認識性能を得ることが可能である。
【0113】
次に、図2のフローチャートを参照して本音声認識装置の動作を説明する。なお、図2は、話者適応時の動作を示している。
【0114】
図2において話者適応の処理を開始すると、まずステップS100において、初期音声モデル記憶部1に記憶されている初期音声モデルMcを話者適応モデル記憶部2に複写した後、雑音適応部3がその初期音声モデルMcに雑音適応を施すことにより、雑音適応モデルMc’を生成する。
【0115】
すなわち、話者適応時の非発話期間に収音される背景雑音の特徴ベクトル系列N(n)が音響分析部6から雑音適応部3に供給され、雑音適応部3がその特徴ベクトル系列N(n)によって初期音声モデルMcに雑音適応を施すことにより、雑音適応モデルMc’を生成し、話者適応パラメータ算出部4へ送出する。
【0116】
次に、ステップS102において、話者が発話を開始すると切替スイッチ8が話者適応パラメータ算出部4側に切り替わり、その発話期間内に、背景雑音の重畳した発話音声(背景雑音重畳音声)の特徴ベクトル系列V(n)が音声分析部6から話者適応パラメータ算出部4に供給される。
【0117】
そして、話者適応パラメータ算出部4がこれらの特徴ベクトル系列V(n)と雑音適応モデルMc’によって、話者適応パラメータPを生成する。
【0118】
つまり、既述したMLLRやMAP推定法を適応して話者適応パラメータPを求める場合には、変換行列Wm’とオフセットベクトルbm’を話者適応パラメータPとして生成する。
【0119】
次に、ステップS104において、音声モデル更新部5が、話者適応モデル記憶部2に記憶されている初期音声モデルMcと話者適応パラメータPとを用いて、モデル更新演算を行うことで、話者適応モデルMc”を求める。
【0120】
次に、ステップS106において、音声モデル更新部5が、話者適応モデル記憶部2に記憶されている初期音声モデルMcに代えて、話者適応モデルMc”を更新記憶させた後、話者適応の処理を終了する。
【0121】
そして、この話者適応処理の後、認識処理部9が音声認識の処理を行う際には、話者適応モデル記憶部2に記憶された話者適応モデルMc”を更新された初期音声モデルMcとして利用することとなり、その更新された初期音声モデルMc(別言うすれば、話者適応モデルMc”)を雑音適応部3が雑音適応することで、雑音適応を施した話者適応モデルMregを生成して音声認識部9に供給し、更に、音声認識部9がその話者適応モデルMregより構成される系列と音響分析部6からの話者音声の特徴ベクトル系列V(n)とを照合する。そして、最も高い尤度の得られる話者適応モデルMregより構成される話者適応系列を認識結果として出力する。
【0122】
このように本実施形態の音声認識装置によれば、話者適応の処理を行う前に雑音適応の処理を行うので、その話者適応処理に際して求まる話者適応パラメータに対して、話者適応時の背景雑音の悪影響を低減することができる。
【0123】
そして、この背景雑音の悪影響が低減された話者適応パラメータを用いて話者適応モデルMc”を生成するので、話者適応本来の目的すなわち話者適応効果の高い話者適応モデルMc”を生成することが可能である。
【0124】
さらに音声認識時には、更新記憶されている話者適応モデルMc”を、その認識発話時の背景雑音で雑音適応して用いる。
【0125】
このため、話者の個人性と発話時の背景雑音の双方に適応したモデルを用いて認識を行うことが可能であり、その結果高い認識性能が得られる。
(第2の実施の形態)
次に、本発明の第2の実施形態を図3及び図4を参照して説明する。尚、図3は本実施形態の音声認識装置の構成を示す図であり、図1と同一又は相当する部分を同一符号で示している。また、本実施形態は、音声認識の処理中に話者適応を行う。そこで、図3中にし示す信号の通過経路を全て矢印付きの実線で示している。
【0126】
図3において、本音声認識装置と第1の実施形態の音声認識装置との差異を述べると、第1の実施形態の音声認識装置では、話者適応を行った後に音声認識を行うのに対し、本実施形態の音声認識装置は、音声認識中に話者適応の処理を同時に行うようになっている。
【0127】
更に、雑音適応部3から出力される雑音適応モデルMc’は、話者適応を行うべく話者適応パラメータ算出部4へ送出される他、話者適応モデル記憶部2の内容が話者適応モデルMc”で更新されると、その雑音適応モデルMc’は、図1に示した雑音適応された話者適応モデルMregとして認識処理部9へ送出される。
【0128】
したがって、図3に示す雑音適応モデルMc’は、雑音適応部3から話者適応パラメータ算出部4及び認識処理部9へ出力されるが、話者適応パラメータ算出部4へは話者適応の処理のための雑音適応モデルMc’として、認識処理部9へは音声認識の処理のための雑音適応された話者適応モデルMregとして出力される。
【0129】
認識処理部9は、既述した話者適応モデルMc”を初期音声モデルMcとして雑音適応部3が雑音適応モデルMc’(すなわち、雑音適応された話者適応モデルMreg)から構成される系列と、認識すべき発話音声の特徴ベクトル系列V(n)とを照合して、最も大きな尤度の得られる話者適応モデルMregから構成される系列を認識結果として出力する。更に、その尤度から認識結果と発話音声との類似性を示すスコアデータSCRを生成して認識結果と共に出力する。
【0130】
つまり、上記の照合を行った結果、高い尤度が得られた場合には、音声認識結果の信頼度が高いことを示すスコアデータSCRと上述の認識結果とを出力し、高い尤度が得られなかった場合には、音声認識結果の信頼度が低いことを示すスコアデータSCRと上述の認識結果とを出力して、話者適応パラメータ算出部4に供給する。
【0131】
そして、話者適応パラメータ算出部4は、音声認識結果の信頼度が高いことを示すスコアデータSCRと上述の認識結果とが供給されると、発話音声を正しく認識したと判断して、その音声認識の対象となっている発話音声の特徴ベクトル系列V(n)と、雑音適応部3からの雑音適応モデルMc’とから話者適応用の話者適応パラメータPを生成する。
【0132】
更に音声モデル更新部5が、その話者適応パラメータPと、話者適応モデル記憶部2に記憶されている初期音声モデルMcとを用いて話者適応モデルMc”を生成し、その話者適応モデルMc”を話者適応モデル記憶部2に供給することで、音声モデルMcに代えて更新記憶させる。
【0133】
したがって、本音声認識装置は、音声認識の処理をすればするほど、話者適応モデル記憶部2に記憶されている初期音声モデルMcの話者の個人性への適応の度合いを次第に高めていくようになっている。
【0134】
次に、本音声認識装置の動作を図4に示すフローチャートを参照して説明する。
【0135】
図4において音声認識処理を開始すると、まずステップS200において、雑音適応部3が、話者適応モデル記憶部2に記憶されている初期音声モデルMcに雑音適応を施すことにより、雑音適応モデルMc’を生成する。
【0136】
すなわち、話者が未だ発話を開始する前の非発話期間に収音される背景雑音の特徴ベクトル系列N(n)が音響分析部6から雑音適応部3に供給され、雑音適応部3がその背景雑音の特徴ベクトル系列N(n)によって初期音声モデルMcを雑音適応することにより、雑音適応モデルMc’を生成する。
【0137】
次に、ステップS202において、話者が発話を開始すると、切替スイッチ8が認識処理部9側に切替わり、その発話期間に発話される発話音声の特徴ベクトル系列V(n)が音響分析部6から認識処理部9に供給されるようになる。
【0138】
そして、認識処理部9が、雑音適応部3で生成された雑音適応モデルMc’を用いて認識候補単語モデルや認識候補文モデルを生成する。
【0139】
そして更に認識処理部9は、次のステップS204において、認識候補単語モデルや認識候補文モデルと特徴ベクトル系列V(n)とを照合することにより、音声認識を行い、認識結果とスコアデータSCRを出力する。
【0140】
次にステップS206において、話者適応パラメータ算出部4が、スコアデータSCRが高スコアーとなっているか判断し、高スコアーでない場合(「NO」の場合)には認識結果の信頼度が低いと判断して後述のステップS214に移行し、高スコアーのとき(「YES」の場合)には、ステップS208へ移行する。
【0141】
ステップS208では、話者適応パラメータ算出部4は、現在認識対象となっている発話音声の特徴ベクトル系列V(n)と雑音適応モデルMc’と認識結果によって、話者適応のための話者適応パラメータPを生成する。
【0142】
次に、ステップS210において、音声モデル更新部5が、話者適応モデル記憶部2に記憶されている初期音声モデルMcと話者適応パラメータPとを用いて話者適応処理を行うことで、話者適応モデルMc”を求める。
【0143】
更にステップS212において、音声モデル更新部5が、生成した話者適応モデルMc”を話者適応モデル記憶部2に供給し、音声モデルMcに置き換えて更新記憶させた後、処理を終了する。
【0144】
このように、本実施形態の音声認識装置によれば、音声認識と話者適応を同時進行的に行い、話者の個人性への適応の度合いの高い話者適応モデルMc”を生成して、話者適応モデル記憶部2に更新記憶させる。
【0145】
このため、異なった単語や文がたくさん発話され、それらの発話音声を認識処理部9が累積的に音声認識していくにしたがって、話者適応モデル記憶部2に記憶されている初期音声モデルMcは、話者の個人性への適応の度合いの高い話者適応モデルMc”へと更新されていくことになり、音声認識性能の向上を図ることが可能となっている。
【0146】
また、高スコアーが得られた場合に、話者適応モデルMc”を生成して初期音声モデルMcを更新するので、発話環境の状態等に応じて適切な話者適応を行うことができ、音声認識性能を低下させるような不適切な話者適応を未然に防止し、ひいては音声認識性能の向上を実現することができる。
【0147】
また、音声認識と話者適応を同時進行的に行う本実施形態の音声認識装置においても、既述した第1の実施形態と同様、話者適応部で話者適応の処理を行う前に、雑音適応部3で雑音適応の処理が行われるので、その話者適応処理に際して求まる話者適応パラメータPに対して、話者適応時の背景雑音の悪影響を低減することができるという優れた効果が得られる。
【0148】
【発明の効果】
以上説明したように本発明の音声認識装置及び音声認識方法によれば、初期音声モデルに対し雑音適応を施すことで雑音適応モデルを生成し、この雑音適応モデルに対して話者適応演算を施すことで話者適応パラメータを求め、雑音適応前の初期音声モデルに対しこの話者適応パラメータで話者適応施すことで話者適応モデルを生成することとしたので、話者適応時の背景雑音の悪影響を低減し話者適応本来の目的である話者の個人性への適応効果の高い話者適応モデルを生成することができる。
【0149】
また、音声認識時に、上記の話者適応した話者適応モデルに雑音適応を施して雑音適応した話者適応モデルを生成し、その雑音適応話者適応モデルを用いて音声認識の処理を行うので、認識発話時の背景雑音と話者の個人性双方に適応した雑音話者適応モデルを用いて音声認識を行うことができ、様々な発話雑音環境において高い認識性能を得ることができる。
【図面の簡単な説明】
【図1】 第1の実施形態の音声認識装置の構成を示す図である。
【図2】 第1の実施形態の音声認識装置の動作を示すフローチャートである。
【図3】 第2の実施形態の音声認識装置の構成を示す図である。
【図4】 第2の実施形態の音声認識装置の動作を示すフローチャートである。
【符号の説明】
1…初期音声モデル記憶部
2…話者適応モデル記憶部
3…雑音適応部
4…話者適応パラメータ生成部
5…音声モデル更新部
6…音響分析部
7…マイクロフォン
8…切替スイッチ
9…認識処理部

Claims (8)

  1. 初期音声モデルを有する記憶手段と、
    前記記憶手段の初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、
    前記雑音適応手段で生成された前記雑音適応モデルに対し、前記話者適応時に発話された発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、
    前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新手段と、
    を備えることを特徴とする音声認識装置。
  2. 音声認識時に音声認識処理を行う認識処理手段を備え、
    更に前記雑音適応手段は、前記音声認識時の非発話期間における背景雑音によって、前記記憶手段に更新記憶された前記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、当該雑音適応を施した話者適応モデルを、発話音声を音声認識するための音響モデルとして前記音声認識手段に供給することを特徴とする請求項1に記載の音声認識装置。
  3. 初期音声モデルを有する記憶手段と、
    音声認識時の非発話期間における背景雑音により前記記憶手段の初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応手段と、
    前記音声認識時の発話期間に発話された音声認識すべき発話音声と、前記雑音適応手段で生成された前記雑音適応モデルとを照合して音声認識を行う認識処理手段と、
    前記雑音適応手段で生成された前記雑音適応モデルに対し前記音声認識すべき発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出手段と、
    前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新手段と、
    を備えることを特徴とする音声認識装置。
  4. 前記話者適応パラメータ算出手段と音声モデル更新手段は、前記認識処理手段の認識結果の信頼度が高い場合に、前記話者適応モデルを生成して前記初期音声モデルに代えて前記記憶手段に更新記憶させることを特徴とする請求項3に記載の音声認識装置。
  5. 記憶手段に記憶されている初期音声モデルに話者適応時の背景雑音によって雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、
    前記雑音適応処理工程で生成された前記雑音適応モデルに対し、前記話者適応時に発話された発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、
    前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新処理工程と、
    を備えることを特徴とする音声認識方法。
  6. 更に前記雑音適応処理工程では、音声認識時の非発話期間における背景雑音によって、前記記憶手段に更新記憶された前記話者適応モデルに対し雑音適応を施すことで雑音適応を施した話者適応モデルを生成し、
    前記雑音適応を施した話者適応モデルと、前記音声認識時の発話期間における音声認識すべき発話音声とを照合することにより音声認識を行う音声認識処理工程と、
    を備えることを特徴とする請求項5に記載の音声認識方法。
  7. 音声認識時の非発話期間における背景雑音により、記憶手段に記憶されている初期音声モデルに雑音適応を施すことで雑音適応モデルを生成する雑音適応処理工程と、
    前記音声認識時の発話期間に発話される音声認識すべき発話音声と、前記雑音適応処理工程で生成された前記雑音適応モデルとを照合して音声認識を行う認識処理工程と、
    前記雑音適応処理工程で生成された前記雑音適応モデルに対し前記音声認識すべき発話音声によって話者適応演算を行い、前記雑音適応モデルを雑音重畳話者適応モデルに変換するための話者適応パラメータを算出する話者適応パラメータ算出処理工程と、
    前記記憶手段の初期音声モデルに前記話者適応パラメータで話者適応を施すことにより話者適応モデルを生成し、当該話者適応モデルを前記初期音声モデルに代えて前記記憶手段に更新記憶させる音声モデル更新処理工程と、
    を備えることを特徴とする音声認識装置。
  8. 前記話者適応パラメータ算出処理工程と音声モデル更新処理工程は、前記認識処理工程の認識結果の信頼度が高い場合に、前記話者適応モデルを生成して前記初期音声モデルに代えて前記記憶手段に更新記憶させることを特徴とする請求項7に記載の音声認識方法。
JP2002142998A 2002-04-26 2002-05-17 音声認識装置及び音声認識方法 Expired - Fee Related JP4275353B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002142998A JP4275353B2 (ja) 2002-05-17 2002-05-17 音声認識装置及び音声認識方法
CN03122309.5A CN1453767A (zh) 2002-04-26 2003-04-23 语音识别装置以及语音识别方法
EP03009344A EP1357541A3 (en) 2002-04-26 2003-04-24 Speaker adaptation for speech recognition
US10/422,969 US20030220791A1 (en) 2002-04-26 2003-04-25 Apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002142998A JP4275353B2 (ja) 2002-05-17 2002-05-17 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2003330484A JP2003330484A (ja) 2003-11-19
JP4275353B2 true JP4275353B2 (ja) 2009-06-10

Family

ID=29703125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002142998A Expired - Fee Related JP4275353B2 (ja) 2002-04-26 2002-05-17 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP4275353B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4340686B2 (ja) * 2004-03-31 2009-10-07 パイオニア株式会社 音声認識装置及び音声認識方法
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别系统
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
JP2008158328A (ja) * 2006-12-25 2008-07-10 Ntt Docomo Inc 端末装置及び判別方法
JP5670298B2 (ja) * 2011-11-30 2015-02-18 日本電信電話株式会社 雑音抑圧装置、方法及びプログラム
JP5740362B2 (ja) * 2012-07-31 2015-06-24 日本電信電話株式会社 雑音抑圧装置、方法、及びプログラム
JPWO2014049944A1 (ja) * 2012-09-27 2016-08-22 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
JP2015108654A (ja) * 2013-12-03 2015-06-11 三菱電機株式会社 音声認識装置
JP7020390B2 (ja) * 2018-12-20 2022-02-16 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム

Also Published As

Publication number Publication date
JP2003330484A (ja) 2003-11-19

Similar Documents

Publication Publication Date Title
US20030220791A1 (en) Apparatus and method for speech recognition
Anastasakos et al. Speaker adaptive training: A maximum likelihood approach to speaker normalization
Lee On stochastic feature and model compensation approaches to robust speech recognition
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
JP2733955B2 (ja) 適応型音声認識装置
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP2000507714A (ja) 言語処理
JPH0636156B2 (ja) 音声認識装置
JP5242782B2 (ja) 音声認識方法
CA2609247A1 (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US6895376B2 (en) Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
JPH075892A (ja) 音声認識方法
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP4275353B2 (ja) 音声認識装置及び音声認識方法
Herbig et al. Self-learning speaker identification for enhanced speech recognition
JP2003504653A (ja) ノイズのある音声モデルからのロバスト音声処理
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP4201471B2 (ja) 音声認識システム
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP4440502B2 (ja) 話者認証システム及び方法
Kuhn et al. Very fast adaptation with a compact context-dependent eigenvoice model
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP4603727B2 (ja) 音響信号分析方法及び装置
Takaki et al. Unsupervised speaker adaptation for DNN-based speech synthesis using input codes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090304

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140313

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees