JP5200080B2 - 音声認識装置、音声認識方法、およびそのプログラム - Google Patents

音声認識装置、音声認識方法、およびそのプログラム Download PDF

Info

Publication number
JP5200080B2
JP5200080B2 JP2010218255A JP2010218255A JP5200080B2 JP 5200080 B2 JP5200080 B2 JP 5200080B2 JP 2010218255 A JP2010218255 A JP 2010218255A JP 2010218255 A JP2010218255 A JP 2010218255A JP 5200080 B2 JP5200080 B2 JP 5200080B2
Authority
JP
Japan
Prior art keywords
noise
speech
model
normalized
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010218255A
Other languages
English (en)
Other versions
JP2010282239A (ja
Inventor
哲 小橋川
敏 高橋
厚徳 小川
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010218255A priority Critical patent/JP5200080B2/ja
Publication of JP2010282239A publication Critical patent/JP2010282239A/ja
Application granted granted Critical
Publication of JP5200080B2 publication Critical patent/JP5200080B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声の音響特徴量と音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得ることで音声認識を行う音声認識装置・方法に関する。
認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下ではHMMと記す。)を用いて音響モデルを構築し
、この音響モデルと入力音声の音響特徴量との照合によって音声認識を行う従来的手法は、認識性能が高く、現在の音声認識技術の主流となっている。図10に従来のHMMを用いた音声認識装置の機能構成例を示す。
まず、発話者であるユーザの発声した音声は、マイクロフォン(900)によって収音される。マイクロフォン(900)によって収音されたユーザの音声は、収音信号として音声認識装置の収音信号入力部(11)の入力となる。
次に、収音信号入力部(11)が、収音信号(但し、この段階ではアナログ信号である。)の入力を受け付ける。収音信号入力部(11)が受け付けた収音信号(ここでの説明では入力音声信号ということにする。)は、A/D変換部(12)の入力となる。
次いで、A/D変換部(12)が、入力された入力音声信号に対して、公知のA/D変換を行い、これをディジタル信号に変換して出力する。以下では、ディジタル信号に変換された入力音声信号を、単にディジタル信号と云うことにする。A/D変換部(12)が出力したディジタル信号は、特徴量抽出部(13)の入力となる。
次に、特徴量抽出部(13)は、入力されたディジタル信号から音響特徴量を抽出して出力する。音響特徴量とは、一般的にケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム)なども含む。〕、パワーやこれらの動的特徴量などである。特徴量抽出部(13)が出力した音響特徴量は、モデル照合尤度計算部(15)の入力となる。
ところで、モデル格納部(14)には、ある音声単位(既述のとおり、音声単位としては音素、音節、単語などが考えられるが、ここでは音素を例として説明する。)毎に予め作成した音響モデルが保存記憶(格納とも云う。)されているとする。この音響モデルは、音響特徴量と音素との関係を確率として与える確率モデルである。
音響特徴量と音響モデルとを照合して音声認識結果を出力する認識結果出力部(19)は、モデル照合尤度計算部(15)および認識結果決定部(16)から構成される。
モデル照合尤度計算部(15)は、モデル格納部(14)から音響モデルを読み込み、モデル照合尤度計算部(15)に入力された音響特徴量と読み込んだ音響モデルとを照合して、音響特徴量に対応した音素列ごとの尤度(照合尤度とも云う。)を計算し、この計算結果を出力する。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された音響特徴量と、読み込んだ音響モデル、言語モデル(辞書も含む。)などとを照合して、音響特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
認識結果決定部(16)は、入力された計算結果のうち、例えば最も大きな照合尤度やあるいは所定の閾値以上の照合尤度に対応した音素列ないし単語列を認識結果として出力する。
また、加法性雑音および乗法性雑音(乗法性歪み)が重畳した音声の認識方法として、CMN(Cepstral Mean Normalization)法(非特許文献1参照。)とHMM合成法(非特許文献2参照。)を連携させるNOVO+CMN法(非特許文献3参照。)が提案されている。
非特許文献3で提案されているNOVO+CMN法は、加法性および乗法性の雑音環境下の音声認識処理のレスポンス性(発話者であるユーザが音声認識装置に対して発話してから音声認識装置から認識結果が返ってくるまでの時間の短さ)に着目し、入力信号の非音声(雑音)区間の情報−つまり、雑音信号−のみから音響モデルの雑音適応およびモデルパラメータの正規化を行い、入力信号の音声区間の情報−つまり、音声信号−に対しては、その音響特徴量の正規化を行うことで音声認識精度を高める一方で、音声認識処理前の音響モデルの更新に音声の入力を待つ必要が無く高いレスポンス性を実現している。
しかしながら、NOVO+CMN法は、式(1)に示す定式化の過程で式(2)に示す近似を含むものである。なお、式(1)において、記号上部にバーが付されたものは、長時間平均であることを表す。例えば、S ̄(この明細書では記号xの上部にバーが付されたものをx ̄のように表す。以下同様である。)は、クリーン音声信号のスペクトルの長時間平均を表す。
Figure 0005200080
このNOVO+CMN法を、図11に示した機能構成例を参照して具体的に説明する。
まず、発話者であるユーザの発声した音声および雑音は、マイクロフォン(900)によって収音される。マイクロフォン(900)によって収音されたユーザの音声および雑音は、収音信号として音声認識装置の収音信号入力部(11)の入力となる。
次に、収音信号入力部(11)が、収音信号(但し、この段階ではアナログ信号である。)の入力を受け付ける。収音信号入力部(11)が受け付けた収音信号(以下、入力信号という。)は、A/D変換部(12)の入力となる。
次いで、A/D変換部(12)が、入力された入力信号に対して、公知のA/D変換を行い、これをディジタル信号に変換して出力する。以下では、ディジタル信号に変換された入力信号を、単にディジタル信号と云うことにする。A/D変換部(12)が出力したディジタル信号は、音声/雑音区間判定部(21)および特徴量抽出部(13)の入力となる。
次に、音声/雑音区間判定部(21)は、入力されたディジタル信号が音声区間のものであるか雑音区間のものであるかを判定して、この判定結果(音声/雑音判定結果)を出力する。この音声/雑音判定結果は、音声/雑音切替制御部(25)の入力となる。
また、特徴量抽出部(13)は、入力されたディジタル信号から音響特徴量を抽出して出力する。上記同様、音響特徴量とは、一般的にケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム)なども含む。〕、パワーやこれらの動的特徴量などである。なお、後述の雑音適応や正規化で更新される音響特徴量はケプストラムに関するものであることに留意しなければならない。特徴量抽出部(13)が出力した音響特徴量は、音声/雑音切替制御部(25)の入力となる。
続いて、音声/雑音切替制御部(25)は、入力された音声/雑音判定結果に基づき、音声/雑音判定結果が「音声区間」と判定された結果を表すものであれば、入力された音響特徴量を音声ケプストラム平均正規化部(26)および音声ケプストラム平均計算部(211)への入力とし(図11の符号23側)、音声/雑音判定結果が「雑音区間」と判定された結果を表すものであれば、入力された音響特徴量を雑音モデル生成部(27)への入力とする(図11の符号24側)。
<音声/雑音判定結果が「雑音区間」の場合>
雑音モデル生成部(27)は、入力された音響特徴量に基づき「雑音モデル」を生成する。雑音モデルは、雑音HMMとして生成される。雑音HMMは、雑音とこの音響特徴量との関係を確率として与える確率モデルである。この雑音HMMの生成は公知の方法で達成される(非特許文献2参照。)。
ところで、クリーン音声モデル格納部(28)には、雑音環境を可能な限り排除した空間(以下、「非雑音環境」という。)で収音した音声(クリーン音声)に対して、ある音声単位(ここでは音素を例として説明する。)毎に予め作成したHMM(「クリーン音声モデル」)が格納されているとする。このクリーン音声モデルは、クリーン音声における音響特徴量と音素との関係を確率として与える確率モデルである。
雑音適応部(210)は、雑音モデル生成部(27)によって生成された雑音モデルおよびクリーン音声モデル格納部(28)に格納されているクリーン音声モデルを読み込み、雑音モデルとクリーン音声モデルとを合成して「雑音重畳音声モデル」を生成する。この雑音重畳音声モデルはHMMである。雑音モデルとクリーン音声モデルとの合成は公知の方法で達成される(非特許文献2参照。)。ここで生成された雑音重畳音声モデルは、例えて言えば、式(1)[C]の右辺の分子に相当するものである。
次に、雑音適応モデル生成部(212)が、まず、雑音適応部(210)によって生成された雑音重畳音声モデルのモデルパラメータを平均してモデルパラメータ平均(例えて言えば、式(1)[C]の右辺の分母に相当するものである。)を生成し、次に、雑音重畳音声モデルのモデルパラメータを、前記モデルパラメータ平均によって正規化して「正規化済み雑音適応モデル」を生成する。ここで生成された正規化済み雑音適応モデルは、例えて言えば、式(1)[C]の右辺に相当するものである。ここで生成された正規化済み雑音適応モデルは、雑音適応モデル格納部(213)に格納される。
以上のように、音声/雑音区間判定部(21)の音声/雑音判定結果が「雑音区間」の場合、クリーン音声モデルに対して、雑音信号のみを用いて得られる雑音モデルを重畳適応して正規化することによって、正規化済み雑音適応モデルが生成され、この正規化済み雑音適応モデルを雑音適応モデル格納部(213)に上書き格納することで、正規化済み雑音適応モデルが更新されることになる。
<音声/雑音判定結果が「音声区間」の場合>
音声ケプストラム平均計算部(211)が、入力された音響特徴量から「音声ケプストラム平均」(例えて言えば、式(1)[B]の右辺の分母に相当するものである。)を求め、この音声ケプストラム平均を出力する。音声ケプストラム平均計算部(211)が出力した音声ケプストラム平均は、音声ケプストラム平均正規化部(26)の入力となる。
次に、音声ケプストラム平均正規化部(26)が、入力された音響特徴量を、入力された音声ケプストラム平均によって正規化して「正規化音声成分特徴量」を出力する。音声ケプストラム平均正規化部(26)が出力した正規化音声成分特徴量は、モデル照合尤度計算部(15)の入力となる。
続いて、認識結果出力部(19)が正規化音声成分特徴量と正規化済み雑音適応モデルとを照合して音声認識結果を出力する。この認識結果出力部(19)は、モデル照合尤度計算部(15)および認識結果決定部(16)から構成される。
モデル照合尤度計算部(15)は、雑音適応モデル格納部(213)から正規化済み雑音適応モデルを読み込み、モデル照合尤度計算部(15)に入力された正規化音声成分特徴量と読み込んだ正規化済み雑音適応モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの尤度(照合尤度とも云う。)を計算し、この計算結果を出力する。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された正規化音声成分特徴量と、読み込んだ正規化済み雑音適応モデル、言語モデル(辞書も含む。)などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
認識結果決定部(16)は、入力された計算結果のうち、例えば最も大きな照合尤度やあるいは所定の閾値以上の照合尤度に対応した音素列ないし単語列を認識結果として出力する。
以上のように、式(1)[C]の右辺はクリーン音声モデルの雑音適応および正規化というモデルパラメータ変換によって実現しており、式(2)の近似に基づき乗法性雑音(乗法性歪み)を必要としないため、正規化済み雑音適応モデルの更新を雑音区間のみの情報(即ち、雑音信号である。)によって行うことができ、高いレスポンス性に寄与している。
B. S. Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification", Proc. J. Acoust. Soc. Am, vo1.55, pp.1304-1312, 1974. F. Martin 他, "Recognition of Noisy Speech by Composition of Hidden Markov Models", 電子情報通信学会技術研究報告 SP92-96, pp.9-16, 1992. KOBASHIKAWA Satoshi, TAKAHASHI Satoshi, YAMAGUCHI Yoshikazu and OGAWA Atsunori, "Rapid Response and Robust Speech Recognition by Preliminary Model Adaptation for Additive and Convolutional Noise", Interspeech 2005, pp.968-971, 2005.
実際の環境において、例えばハンズフリーを想定して、発話者であるユーザの口元とマイクロフォンが離れている状況では、接話型のマイクロフォンを用いた場合と比べて、まず周囲の背景雑音(環境雑音とも云う。)が混入しやすくなる。このため、加法性雑音の影響によって、マイクロフォンに収音される音声はS/N(信号対雑音比)が悪い雑音重畳音声となる。また、ユーザの口元とマイクロフォンの間の空間伝達特性により、マイクロフォンに収音される音声は、接話型のマイクロフォンで収録された音声とは異なる周波数特性を持つ、乗法性雑音(乗法性歪み)重畳音声となる。
このように実環境において収録された音声を認識するためには背景雑音による加法性雑音と、伝達特性による乗法性雑音(乗法性歪み)に対して対策する必要がある。
また、携帯電話等に入力された音声も背景雑音に基づく加法性雑音の影響に加え、マイクロフォン特性および電話回線の乗法性雑音(乗法性歪み)の影響を強く受けるため、加法性および乗法性の両方の雑音に対策する必要がある。
これに対し、音響モデル合成法に基づく加法性雑音対策法と、長時間平均特徴量正規化法に基づく乗法性雑音(乗法性歪み)対策法とを連携させることによって、実環境下における音声認識、具体的にはハンズフリー音声や電話音声などに対する頑健な音声認識方法が考えられる。
上記非特許文献3で提案される従来手法では、上記のような加法性および乗法性の両方の雑音に対策するとともに、音声認識処理の高いレスポンス性を要求されている状況を想定しており、高レスポンス性を実現するため認識性能を多少劣化させる近似を含んでいた。実際に、理想条件として実験されている乗法性雑音(乗法性歪み)既知のNOVO+CMN(optimum)法が高S/N条件でNOVO+CMN法よりも高性能を達成している。
即ち、NOVO+CMN法は、式(2)の近似によって高いレスポンス性を実現しているものの、乗法性雑音(乗法性歪み)情報を未知としていることで、性能がやや劣化してしまっているといえる。
また、音声認識の利用アプリケーションとしては、非特許文献3で提案されたNOVO+CMN法が想定している状況とは異なり、蓄積メディアに蓄積された音声を認識する(オフライン音声認識処理が可能な)状況などを想定すると、レスポンス性よりも高い音声認識性能が必要とされる場合もある。
そこで、本発明は、上記の問題点に鑑み、実環境下の音声に対する高い認識性能で音声認識できる音声認識装置、音声認識方法、そのプログラムおよびその記録媒体を提供することを目的とする。
上記課題を解決するために、本発明は、記憶手段に、非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号(音声および雑音を含む収音信号をA/D変換したものである。)を記憶しておき、音声/雑音区間判定手段が、このディジタル信号の音声区間と雑音区間とを判定して音声/雑音判定結果を出力し、特徴量抽出手段が、ディジタル信号からケプストラムを抽出する。そして、雑音モデル生成手段が、音声/雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムからは雑音モデルを生成し、音声特徴量平均計算手段が、音声/雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する。次いで、正規化雑音モデル生成手段が、音声特徴量平均、クリーン音声モデルのクリーン音声のケプストラムの平均および雑音モデルの雑音ケプストラム平均から雑音のケプストラムの平均を減算した値をクリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを乗法性雑音特徴量として算出し、この乗法性雑音特徴量を雑音モデルのケプストラムのモデルパラメータから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する。そして、雑音適応手段が、クリーン音声モデルと正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、雑音適応モデル生成手段が、正規化雑音重畳音声モデルのモデルパラメータを正規化して正規化済み雑音適応モデルを生成する。また、音声特徴量平均正規化手段は、音声区間のディジタル信号のケプストラムから音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する。さらに、認識結果出力手段が、正規化音声成分特徴量と少なくとも正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る。
このように、クリーン音声モデルと、乗法性雑音特徴量を用いて雑音モデルを正規化した正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、この正規化雑音重畳音声モデルを正規化した正規化済み雑音適応モデルを音声認識に用いる音響モデルとして構築する。そして、この音響モデルと、音声区間ディジタル信号のケプストラムを正規化した正規化音声成分特徴量とを照合して照合尤度を求め、この照合尤度に基づいて音声認識結果を得る。
また、雑音抑圧手段が、音声/雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う構成としてもよい。
雑音抑圧処理によってS/Nを向上させることで、音声の特徴が雑音に埋まってしまうことを抑えて、低S/Nにおける音声認識性能劣化を防止する。
S/N推定手段が、音声/雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのS/Nを推定してS/N推定結果を出力し、雑音適応手段が、このS/N推定結果に基づき、クリーン音声モデルと正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するとしてもよい。
音声認識対象のS/N推定結果に適合して合成された正規化雑音重畳音声モデルを用いるため、高い音声認識性能が期待できる。
また、本発明の音声認識方法の処理手順をコンピュータに実行させる音声認識プログラムによって、コンピュータを音声認識装置として作動処理させることができる。そして、この音声認識プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声認識装置として機能させることや、音声認識プログラムを流通させることなどが可能になる。
本発明によれば、クリーン音声モデルと、乗法性雑音(乗法性歪み)に相当する乗法性雑音特徴量を用いて雑音モデルを正規化した正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、この正規化雑音重畳音声モデル、あるいはこの正規化雑音重畳音声モデルを正規化して正規化済み雑音適応モデルを音声認識に用いる音響モデルとする。即ち、加法性雑音および乗法性雑音の音響特徴量を加味してクリーン音声モデルをチューニングして音響モデルを構築するから、実環境下の音声に対する高い認識性能で音声認識できる。
第1実施形態に係わる音声認識装置のハードウェア構成例を示す図。 第1実施形態に係わる音声認識装置の機能構成例を示すブロック図。 第1実施形態に係わる音声認識処理の処理フローを示す図。 第2実施形態に係わる音声認識装置の機能構成例を示すブロック図。 第2実施形態に係わる音声認識処理の処理フローを示す図。 第3実施形態に係わる音声認識装置の機能構成例を示すブロック図。 第3実施形態に係わる音声認識処理の処理フローを示す図。 第4実施形態に係わる音声認識装置の機能構成例を示すブロック図。 第4実施形態に係わる音声認識処理の処理フローを示す図。 従来のHMMを用いた音声認識装置の機能構成例を示すブロック図。 NOVO+CMN法を用いた音声認識装置の機能構成例を示すブロック図。
《第1実施形態》
本発明の第1実施形態について、図面を参照しながら説明する。
<第1実施形態の音声認識装置>
図1に例示するように、音声認識装置(100)は、キーボードなどが接続可能な入力部(111)、液晶ディスプレイなどが接続可能な出力部(112)、音声認識装置(100)の外部に通信可能な通信装置(例えばモデム)が接続可能な通信部(113)、CPU(Central Processing Unit;114)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)(115)、ROM(Read Only Memory)(116)やハードディスクである外部記憶装置(117)、例えば音声、音楽、雑音などの音を受音する音響信号収音手段(例えばマイクロフォン)を接続可能であって、マイクロフォン(900)によって得られた(アナログ)信号の入力を受ける信号入力部(119)並びにこれらの入力部(111)、出力部(112)、通信部(113)、CPU(114)、RAM(115)、ROM(116)、外部記憶装置(117)、信号入力部(119)間のデータのやり取りが可能なように接続するバス(118)などを備えている。また必要に応じて、音声認識装置(100)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。信号入力部(119)にはマイクロフォン(900)が接続される。
音声認識装置(100)の外部記憶装置(117)には、音声認識のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、RAM(115)などに適宜に保存記憶される。
本実施形態では、外部記憶装置(117)の所定の記憶領域であるディジタル信号格納部(10)に、予めマイクロフォン(900)で収音した収音信号(発話者であるユーザが発声した音声および雑音が収音されたものである。)が公知のA/D変換を受けて、データであるディジタル信号として保存記憶されている。また、外部記憶装置(117)の所定の記憶領域であるクリーン音声モデル格納部(28)に、非雑音環境で収音された音声(クリーン音声)に対して、ある音声単位(ここでは音素を例として説明する。)毎に予め作成したHMM(「クリーン音声モデル」)が格納されているとする。このクリーン音声モデルは、クリーン音声における音響特徴量と音素との関係を確率として与える確率モデルである。
なお、本明細書の各実施形態では、マイクロフォン(900)で収音した収音信号をA/D変換したディジタル信号を予めデータとしてディジタル信号格納部(10)に保存記憶しておくとしているが、このような実施形態に限定する趣旨ではない。例えば、マイクロフォン(900)で収音しながら、この収音信号にA/D変換を適用して所定の時間単位で保存記憶したディジタル信号に対して本発明における音声認識処理を逐次適用することや、発話単位で保存記憶したディジタル信号に対して本発明における音声認識処理を逐次適用することでリアルタイムに準じた音声認識処理を行うとしてもよい。
また外部記憶装置(117)には、ディジタル信号が音声区間であるか雑音区間であるかを判定するためのプログラム、ディジタル信号から音響特徴量を抽出するためのプログラム、ディジタル信号が音声区間であるか雑音区間であるかの判定結果に基づき実行する処理の切替制御を行うためのプログラム、雑音区間のディジタル信号の音響特徴量から雑音モデルを生成するためのプログラム、音声区間のディジタル信号の音響特徴量から音声特徴量平均(音声ケプストラム平均)を計算して得るためのプログラム、音声ケプストラム平均およびクリーン音声モデルを用いて雑音モデルを正規化した正規化雑音モデルを生成するためのプログラム、クリーン音声モデルに正規化雑音モデルを重畳適応させて正規化雑音重畳音声モデルを生成するためのプログラム、正規化雑音重畳音声モデルを正規化して正規化済み雑音適応モデルを生成するためのプログラム、音声ケプストラム平均を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラム、正規化音声成分特徴量と正規化済み雑音適応モデルとを照合して音素の尤度(照合尤度)を得るためのプログラム、照合尤度に基づいて認識結果を出力するためのプログラムが保存記憶されている。
音声認識装置(100)では、外部記憶装置(117)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(音声/雑音区間判定部、特徴量抽出部、音声/雑音切替制御部、雑音モデル生成部、音声ケプストラム平均計算部、正規化雑音モデル生成部、雑音適応部、雑音適応モデル生成部、音声ケプストラム平均正規化部、モデル照合尤度計算部、認識結果決定部)を実現することで、音声認識が実現される。
<第1実施形態の概要>
まず音響特徴量とは、既述のとおりケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム)なども含む。〕、パワーやこれらの動的特徴量などであり、後述の雑音適応や正規化で更新される音響特徴量はケプストラムに関するものである(例えば後述の雑音モデルの生成で用いる音響特徴量は、ケプストラムに関する音響特徴量に限らず、パワーなどの音響特徴量も用いることに留意しなければならない。)。
第1実施形態では、雑音区間のディジタル信号の音響特徴量から雑音モデル(例えて言えば、式(1)[B]の右辺のNに相当する。)を合成し、音声区間のディジタル信号の音響特徴量から音声特徴量平均であるケプストラム平均(音声ケプストラム平均;例えて言えば、式(1)[A]の右辺の分母に相当する。)を求める。そして、この音声ケプストラム平均と、クリーン音声の音響特徴量の平均(例えて言えば、式(1)[B]の右辺のS ̄に相当する。)と、雑音の音響特徴量の平均(例えて言えば、式(1)[B]の右辺のN ̄に相当する。)とを用いて、乗法性雑音(乗法性歪み)に相当する音響特徴量(乗法性雑音特徴量とも云う。)を得て、次いで、この乗法性雑音特徴量によって雑音モデルを正規化して、正規化雑音モデルを生成する。
雑音モデルは、従来技術同様、雑音HMMとして生成される。この雑音HMMの生成は公知の方法で達成される(上記非特許文献2参照。)。
音声ケプストラム平均およびその算出方法については、従来技術と同様であり、例えば、音声区間のケプストラムの長時間平均を用いる。なお、音響特徴量の平均としては、長時間(例えば10秒程度)の移動平均、短時間(例えば1秒程度)の移動平均なども用いることができる。
音声ケプストラム平均と、クリーン音声の音響特徴量の平均(クリーン音声特徴量平均とも云う。)と、雑音の音響特徴量の平均(雑音特徴量平均とも云う。)とを用いて、乗法性雑音特徴量を得ることを、便宜的にスペクトル領域で定性的に説明する。
或る音声区間として観測される観測スペクトルOは、クリーン音声の音声スペクトルS、乗法性雑音の伝達特性H、加法性雑音スペクトルNを用いて、O=HS+Nと表される。そして、観測スペクトルの長時間平均(観測スペクトル平均)OCMをOCM=(HS+N) ̄とすると、乗法性雑音の伝達特性Hが一定との仮定の下に、観測スペクトル平均OCMはOCM≒H・S ̄+N ̄と近似できる。そうすると、乗法性雑音の伝達特性Hは、観測スペクトル平均OCM、音声スペクトルSの長時間平均(音声スペクトル平均)S ̄、加法性雑音スペクトルNの長時間平均(加法性雑音スペクトル平均)N ̄を用いて、H=(OCM−N ̄)/S ̄として得ることができる。従って、スペクトル領域を対数変換したケプストラム領域では、観測スペクトル平均OCMが音声ケプストラム平均に相当し、加法性雑音スペクトル平均N ̄が雑音特徴量平均に相当し、音声スペクトル平均S ̄がクリーン音声特徴量平均に相当するとして、乗法性雑音の伝達特性Hに相当する乗法性雑音特徴量を得ることができる。
クリーン音声特徴量平均は、例えばクリーン音声モデルを学習した際の学習データの音響特徴量の長時間平均を用いることが考えられる。そして、この長時間平均をクリーン音声モデルに付加して予め格納しておく。あるいは、クリーン音声モデルの各正規分布の平均パラメータの加算平均を、クリーン音声特徴量平均として近似的に用いることも考えられる(本実施形態)。
また、雑音特徴量平均は、雑音モデルの各正規分布の平均パラメータの加算平均などを近似的に用いればよい(参考文献1参照。)。
(参考文献1) 特願2005−172122号明細書
ここで、平均パラメータなどについて説明を加えておく。
まず、モデルパラメータとは、HMMを特徴付けるパラメータであり、HMMがクリーン音声モデルの場合を例にしてこれを説明する。クリーン音声における音響特徴量と音素との関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、1個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第i次元ケプストラム、第i次元Δケプストラム(ケプストラム係数の1次差分)、第i次元ΔΔケプストラム(Δケプストラム係数の1次差分)などのケプストラム係数および対数パワー、Δ対数パワー(対数パワーの1次差分)、ΔΔ対数パワー(Δ対数パワーの1次差分)の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各正規分布の平均、分散や、多次元正規分布の重みがモデルパラメータである。加算平均など区別するため、このモデルパラメータである平均を平均パラメータと云うことにする。
また、モデルパラメータの平均(モデルパラメータ平均とも云う。)とは、全正規分布のモデルパラメータの加算平均などである(上記参考文献1参照。)。各正規分布の平均パラメータを、加算平均することで全体の平均と近似することが出来る。なお、クリーン音声モデルを1つの正規分布あるいは混合正規分布として表現したものを格納しておくことで近似精度の問題を解消するとともに計算量の削減も可能である。
モデルパラメータの正規化とは、各正規分布のモデルパラメータからモデルパラメータ平均を減算することである。スペクトル領域では、或る音響特徴量を音響特徴量の平均で除算して正規化を行うが、ケプストラム領域では、或る音響特徴量から音響特徴量の平均を減算して正規化を行うことに留意しなければならない。
なお、以上の内容については、上記参考文献1も参照のこと。
次に、上記正規化雑音モデルを生成した後、正規化雑音モデルとクリーン音声モデルとを合成して、正規化雑音重畳音声モデルを生成する。そして、正規化雑音重畳音声モデルのモデルパラメータを正規化して正規化モデルパラメータを生成し、次いで、正規化雑音重畳音声モデルのモデルパラメータを、前記正規化モデルパラメータによって正規化して正規化済み雑音適応モデルを生成する。
<第1実施形態の音声認識処理>
次に、図2および図3を参照して、音声認識装置(100)における音声認識処理の流れを叙述的に説明する。
まず、音声/雑音区間判定部(21)は、ディジタル信号格納部(10)に保存記憶されているディジタル信号を読み込み、このディジタル信号が音声区間のものであるか雑音区間のものであるかを判定して、この判定結果(音声/雑音判定結果)を出力する(ステップS2)。この音声/雑音判定結果は、音声/雑音切替制御部(25)の入力となる。
音声/雑音区間判定部(21)による音声/雑音区間判定は、音圧に基づくパワーの大小判定や音声のピッチ性に基づく基本周波数による判定といった自動判定で実現するが、このような自動判定に限定するものではない。例えば、収音信号を収録するに際して、収音信号に加え、発話者であるユーザが発話中には手動ボタン等を作動させて発話状態を示す情報も収録しておき、音声/雑音区間判定部(21)は、この発話状態を示す情報に基づいて、ディジタル信号の音声/雑音区間判定を行うようにしてもよい。
また、特徴量抽出部(13)は、入力されたディジタル信号から公知の方法で音響特徴量を抽出して出力する(ステップS3)。特徴量抽出部(13)が出力した音響特徴量は、音声/雑音切替制御部(25)の入力となる。
続いて、音声/雑音切替制御部(25)は、入力された音声/雑音判定結果に基づき、音声/雑音判定結果が「音声区間」と判定された結果を表すものであれば、入力された音響特徴量を音声ケプストラム平均正規化部(26)および音声ケプストラム平均計算部(211)への入力とし〔図2の符号23側〕、音声/雑音判定結果が「雑音区間」と判定された結果を表すものであれば、入力された音響特徴量を雑音モデル生成部(27)への入力とする〔図2の符号24側〕(ステップS4)。
<音声/雑音判定結果が「雑音区間」の場合>
雑音モデル生成部(27)は、入力された音響特徴量に基づき「雑音モデル」を生成する(ステップS5)。雑音モデルは、雑音HMMとして生成される。雑音HMMは、雑音とこの音響特徴量との関係を確率として与える確率モデルである。この雑音HMMの生成は公知の方法で達成される(上記非特許文献2参照。)。
<音声/雑音判定結果が「音声区間」の場合>
音声ケプストラム平均計算部(211)が、入力された音響特徴量から「音声ケプストラム平均」を求め、この音声ケプストラム平均を出力する(ステップS6)。音声ケプストラム平均計算部(211)が出力した音声ケプストラム平均は、音声ケプストラム平均正規化部(26)および正規化雑音モデル生成部(29)の入力となる。
正規化雑音モデル生成部(29)は、雑音モデル生成部(27)によって生成された雑音モデルおよびクリーン音声モデル格納部(28)に格納されているクリーン音声モデルを読み込み、クリーン音声モデルの各正規分布の平均パラメータの加算平均からクリーン音声の音響特徴量の平均を求め、雑音モデルの各正規分布の平均パラメータの加算平均から雑音の音響特徴量の平均を求める。正規化雑音モデル生成部(29)は、これらに加えて、正規化雑音モデル生成部(29)に入力された音声ケプストラム平均を用いて、上述した乗法性雑音特徴量を得る。さらに、正規化雑音モデル生成部(29)は、この乗法性雑音特徴量によって雑音モデルのモデルパラメータを正規化して、正規化雑音モデルを生成する(ステップS7)。
次に、雑音適応部(210)は、雑音モデル生成部(29)によって生成された正規化雑音モデルおよびクリーン音声モデル格納部(28)に格納されているクリーン音声モデルを読み込み、雑音モデルとクリーン音声モデルとを合成して「正規化雑音重畳音声モデル」を生成する(ステップS8)。この正規化雑音重畳音声モデルはHMMである。正規化雑音モデルとクリーン音声モデルとの合成は公知の方法で達成される(上記非特許文献2参照。)。正規化雑音モデルは、例えて言えば、式(1)[B]の右辺の分子に相当するものである。
次に、雑音適応モデル生成部(212)が、まず、雑音適応部(210)によって生成された正規化雑音重畳音声モデルのモデルパラメータを平均してモデルパラメータ平均(例えて言えば、式(1)[B]の右辺の分母に相当するものである。)を生成し、次に、正規化雑音重畳音声モデルのモデルパラメータを、前記モデルパラメータ平均によって正規化して「正規化済み雑音適応モデル」を生成する(ステップS9)。ここで生成された正規化済み雑音適応モデルは、例えて言えば、式(1)[B]の右辺に相当するものである。ここで生成された正規化済み雑音適応モデルは、雑音適応モデル格納部(213)に格納される。
音声ケプストラム平均正規化部(26)は、入力された音響特徴量を、入力された音声ケプストラム平均によって正規化して「正規化音声成分特徴量」を出力する(ステップS10)。音声ケプストラム平均正規化部(26)が出力した正規化音声成分特徴量は、モデル照合尤度計算部(15)の入力となる。
続いて、認識結果出力部(19)が正規化音声成分特徴量と正規化済み雑音適応モデルとを照合して音声認識結果を出力する。この認識結果出力部(19)は、モデル照合尤度計算部(15)および認識結果決定部(16)から構成される。
モデル照合尤度計算部(15)は、雑音適応モデル格納部(213)から正規化済み雑音適応モデルを読み込み、モデル照合尤度計算部(15)に入力された正規化音声成分特徴量と読み込んだ正規化済み雑音適応モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの照合尤度を計算し、この計算結果を出力する(ステップS11)。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された正規化音声成分特徴量と、読み込んだ正規化済み雑音適応モデル、言語モデル(辞書も含む。)などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
認識結果決定部(16)は、入力された計算結果のうち、例えば最も大きな照合尤度やあるいは所定の閾値以上の照合尤度に対応した音素列ないし単語列を認識結果として出力する。本実施形態では最大照合尤度に対応した音素列ないし単語列を認識結果として出力する。(ステップS12)。なお、このことは、認識結果決定部(16)が入力された計算結果をそのまま認識結果として出力する構成とすることを排除するものではない。
出力された音声認識結果は、例えば可読文字としてディスプレイに表示されたり、あるいは、対話システムにおける応答生成に用いられたりする。
《第2実施形態》
本発明の第2実施形態について図面を参照しながら説明するが、第1実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。<第2実施形態の概要>
第2実施形態は、第1実施形態に音声認識処理の前処理として雑音抑圧機能を付加した形態である。
雑音抑圧方法としては、スペクトルサブトラクション法(SS法;参考文献2参照。)やウィナー・フィルタ法(WF法;参考文献3)に基づく雑音抑圧方法などを用いる。
(参考文献2) Steven F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-27, No.2, pp.113-120, April 1979
(参考文献3) J. S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech", Proc. IEEE, vo1.67, No.12, pp.1586-1604, Dec 1979
上記非特許文献3に示されるように、S/Nが低い場合では、乗法性雑音(乗法性歪み、インパルス応答)が既知の場合でも、認識性能が劣化してしまう。これは、インパルス応答の逆特性に基づき高域が強調された雑音によって音声モデルにおける音素を識別するための音声の特徴が埋まってしまうためと考えられる。この問題に対しては、雑音抑圧処理によってS/Nを向上させることで、音声の特徴が雑音に埋まってしまうことを抑えて、低S/Nにおける音声認識性能劣化を防止する。
<第2実施形態の音声認識装置>
第2実施形態の音声認識装置は、第1実施形態に係わる音声認識装置(100)と同じハードウェア構成であり、外部記憶装置(117)にディジタル信号の雑音抑圧を行うためのプログラムも保存記憶されており、このプログラムがRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(雑音抑圧部)を実現する。
<第2実施形態の音声認識処理>
次に、図4および図5を参照して、第2実施形態における音声認識処理の流れを、第1実施形態と異なる部分について説明する。
第1実施形態におけるステップS1の処理で得られたディジタル信号は、音声/雑音区間判定部(21)および雑音抑圧部(31)の入力となる。また、第1実施形態におけるステップS2の処理で得られた音声/雑音判定結果は、音声/雑音切替制御部(25)および雑音抑圧部(31)の入力となる。
ステップS2の処理に続いて、雑音抑圧部(31)は、音声/雑音判定結果が「音声区間」の場合に、入力されたディジタル信号の雑音抑圧をSS法やWF法などによって行い、雑音抑圧されたディジタル信号を出力する(ステップS2a)。雑音抑圧部(31)が出力した雑音抑圧されたディジタル信号は、特徴量抽出部(13)の入力となる。
そして、特徴量抽出部(13)は、雑音抑圧されたディジタル信号の音響特徴量を抽出する。以後の処理は第1実施形態と同様である。
《第3実施形態》
本発明の第3実施形態について図面を参照しながら説明するが、第1実施形態および第2実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。
<第3実施形態の概要>
第3実施形態は、第1実施形態あるいは第2実施形態に対して、ディジタル信号のS/N推定を行い、S/N推定結果に基づいて正規化雑音重畳音声モデルを生成する機能を付加した形態である。第3実施形態では、音声認識対象に合致したS/N条件で合成された正規化雑音重畳音声モデルを用いるため、高い認識性能が期待できる。
ここでは、第2実施形態に上記機能付加をした形態として第3実施形態を説明する。
<第3実施形態の音声認識装置>
第3実施形態の音声認識装置は、第2実施形態に係わる音声認識装置と同じハードウェア構成であり、外部記憶装置(117)にディジタル信号のS/N推定を行うためのプログラムが保存記憶されており、このプログラムがRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(S/N推定部)を実現する。
<第3実施形態の音声認識処理>
次に、図6および図7を参照して、第3実施形態における音声認識処理の流れを、第2実施形態と異なる部分について説明する。
第2実施形態におけるステップS1の処理で得られたディジタル信号は、音声/雑音区間判定部(21)、雑音抑圧部(31)およびS/N推定部(41)の入力となる。また、第1実施形態におけるステップS2の処理で得られた音声/雑音判定結果は、音声/雑音切替制御部(25)、雑音抑圧部(31)およびS/N推定部(41)の入力となる。
ステップS2の処理に続いて、S/N推定部(41)は、音声/雑音判定結果に基づき、入力されたディジタル信号の音圧レベルなどから当該ディジタル信号のS/N推定を公知の従来的方法によって行い、S/N推定結果を出力する(ステップS2b)。S/N推定部(41)が出力したS/N推定結果は、雑音適応部(210)の入力となる。
そして、雑音適応部(210)は、入力されたS/N推定結果に合わせて正規化雑音モデルとクリーン音声モデルとを合成し、正規化雑音重畳音声モデルを生成する(ステップS8b)。2つのHMM(ここでは正規化雑音モデルおよびクリーン音声モデルである。)を入力されたS/N推定結果に合わせて合成する方法の一例としては、上記非特許文献2に記載の方法がある。以後の処理は第2実施形態と同様である。
《第4実施形態》
本発明の第4実施形態について図面を参照しながら説明するが、第1、第2、第3実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。
<第4実施形態の概要>
第4実施形態は、第1、第2、第3実施形態のように、正規化雑音重畳音声モデルの正規化を行わない。これによって、正規化雑音重畳音声モデルのモデルパラメータの正規化にかかる計算量を削減でき、ステップS10処理以降の処理時間を削減することが出来る。当該モデル中のモデルパラメータの正規化処理には、正規分布数に応じた計算量がかかり、数万個の正規分布に対する処理ではある程度大きい計算量が必要になり、この削減効果は比較的大きい。収録された収音信号のデータに対するオフラインの処理であっても音声認識処理時間を減らすことによって、相対的に処理できる音声データ量を増やすことが出来るので、利用価値の高い音声認識装置が実現される。
ここでは第3実施形態を前提とした形態として第4実施形態を説明するが、第1、第2実施形態を前提とした形態としてもよいことに留意する必要がある。
<第4実施形態の音声認識装置>
第4実施形態の音声認識装置は、第3実施形態に係わる音声認識装置と同じハードウェア構成であり、外部記憶装置(117)には、音声ケプストラム平均を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラムに替えて、正規化雑音モデル生成部(29)で得た乗法性雑音特徴量を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラムが保存記憶されており、このプログラムがRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(音声ケプストラム平均正規化第2部)を実現する。
<第4実施形態の音声認識処理>
次に、図8および図9を参照して、第4実施形態における音声認識処理の流れを、第3実施形態と異なる部分について説明する。
まず、第4実施形態において、ステップS9の処理は不要である。即ち、第4実施形態では、雑音適応部(210)によって生成された正規化雑音重畳音声モデルの正規化を行わず、正規化済み雑音適応モデルを生成しない。
また、第3実施形態におけるステップS6の処理で得られた音声ケプストラム平均は、正規化雑音モデル生成部(29)のみに入力される。さらに、正規化雑音モデル生成部(29)によって得られた乗法性雑音特徴量は、音声ケプストラム平均正規化第2部(26a)の入力となる。
ステップS8bの処理に続いて、音声ケプストラム平均正規化第2部(26a)は、入力された音響特徴量(ステップS3で得られたものである。)を、入力された乗法性雑音特徴量によって正規化して「正規化音声成分特徴量」を出力する(ステップS10c)。音声ケプストラム平均正規化第2部(26a)が出力した正規化音声成分特徴量は、モデル照合尤度計算部(15)の入力となる。
続いて、モデル照合尤度計算部(15)は、雑音適応部(210)によって生成された正規化雑音重畳音声モデルを読み込み、モデル照合尤度計算部(15)に入力された上記正規化音声成分特徴量と読み込んだ正規化雑音重畳音声モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの照合尤度を計算し、この計算結果を出力する(ステップS11c)。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された正規化音声成分特徴量と、読み込んだ正規化雑音重畳音声モデル、言語モデル(辞書も含む。)などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
以後の処理は第3実施形態と同様である。
以上の各実施形態の他、本発明である音声認識装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声認識装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記音声認識装置における処理機能をコンピュータによって実現する場合、音声認識装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声認識装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声認識装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、実環境下における音声認識を可能とするものであり、例えば収録された音声データに対するオフライン状態での音声認識や、キーボードからの文字入力に替わる音声認識に基づく文字入力や対話システムの音声認識など幅広く利用可能である。
12 A/D変換部
13 特徴量抽出部
15 モデル照合尤度計算部
16 認識結果決定部
19 認識結果出力部
21 音声/雑音区間判定部
25 音声/雑音切替制御部
26 音声ケプストラム平均正規化部
26a 音声ケプストラム平均正規化第2部
27 雑音モデル生成部
28 クリーン音声モデル格納部
29 正規化雑音モデル生成部
210 雑音適応部
211 音声ケプストラム平均計算部
212 雑音適応モデル生成部
213 雑音適応モデル格納部
31 雑音抑圧部
41 S/N推定部

Claims (7)

  1. 音声および雑音を含む収音信号をA/D変換したディジタル信号のケプストラムと音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得る音声認識装置であって、
    非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号を記憶する記憶手段と、
    上記ディジタル信号の音声区間と雑音区間とを判定して、音声/雑音判定結果を出力する音声/雑音区間判定手段と、
    上記ディジタル信号からケプストラムを抽出する特徴量抽出手段と、
    音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムから雑音モデルを生成する雑音モデル生成手段と、
    音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する音声特徴量平均計算手段と、
    上記音声ケプストラム平均から上記雑音のケプストラムの平均を減算した値を上記クリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを、乗法性雑音特徴量として算出し、この乗法性雑音特徴量を上記雑音モデルのケプストラムのモデルパラメータから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する正規化雑音モデル生成手段と、
    上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成する雑音適応手段と、
    上記正規化雑音重畳音声モデルのケプストラムのモデルパラメータから上記ケプストラムのモデルパラメータの平均を減算したパラメータをモデルパラメータとする正規化済み雑音適応モデルを生成する雑音適応モデル生成手段と、
    音声区間のディジタル信号のケプストラムから上記音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する音声特徴量平均正規化手段と、
    上記正規化音声成分特徴量と少なくとも上記正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る認識結果出力手段と
    を備えたことを特徴とする音声認識装置。
  2. 上記音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う雑音抑圧手段
    を備えたことを特徴とする請求項1記載の音声認識装置。
  3. 上記音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのS/Nを推定して、このS/N推定結果を出力するS/N推定手段を備え、
    上記雑音適応手段は、
    S/N推定手段によって推定されたS/N推定結果に基づき、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するものである
    ことを特徴とする請求項1または請求項2記載の音声認識装置。
  4. 音声および雑音を含む収音信号をA/D変換したディジタル信号のケプストラムと音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得る音声認識方法であって、
    記憶手段には、非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号が記憶されており、
    音声/雑音区間判定手段が、上記ディジタル信号の音声区間と雑音区間とを判定して、音声/雑音判定結果を出力する音声/雑音区間判定ステップと、
    特徴量抽出手段が、上記ディジタル信号からケプストラムを抽出する特徴量抽出ステップと、
    雑音モデル生成手段が、音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムから雑音モデルを生成する雑音モデル生成ステップと、
    音声特徴量平均計算手段が、音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する音声特徴量平均計算ステップと、
    正規化雑音モデル生成手段が、上記音声ケプストラム平均から上記雑音のケプストラムの平均を減算した値を上記クリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを、乗法性雑音特徴量として算出し、この乗法性雑音特徴量を上記雑音モデルのケプストラムのモデルパラメータから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する正規化雑音モデル生成ステップと、
    雑音適応手段が、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成する雑音適応ステップと、
    雑音適応モデル生成手段が、上記正規化雑音重畳音声モデルのケプストラムのモデルパラメータから上記ケプストラムのモデルパラメータの平均を減算したパラメータをモデルパラメータとする正規化済み雑音適応モデルを生成する雑音適応モデル生成ステップと、
    音声特徴量平均正規化手段が、音声区間のディジタル信号のケプストラムから上記音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する音声特徴量平均正規化ステップと、
    認識結果出力手段が、上記正規化音声成分特徴量と少なくとも上記正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る認識結果出力ステップとを有することを特徴とする音声認識方法。
  5. 雑音抑圧手段が、上記音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う雑音抑圧ステップを有することを特徴とする請求項4記載の音声認識方法。
  6. S/N推定手段が、上記音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのS/Nを推定して、このS/N推定結果を出力するS/N推定ステップを有し、
    上記雑音適応ステップは、
    上記S/N推定ステップにおいて推定されたS/N推定結果に基づき、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するものである
    ことを特徴とする請求項4または請求項5記載の音声認識方法。
  7. コンピュータに請求項4から請求項6のいずれかに記載の音声認識方法を実行させるための音声認識プログラム。
JP2010218255A 2010-09-29 2010-09-29 音声認識装置、音声認識方法、およびそのプログラム Expired - Fee Related JP5200080B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010218255A JP5200080B2 (ja) 2010-09-29 2010-09-29 音声認識装置、音声認識方法、およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010218255A JP5200080B2 (ja) 2010-09-29 2010-09-29 音声認識装置、音声認識方法、およびそのプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005355460A Division JP4728791B2 (ja) 2005-12-08 2005-12-08 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2010282239A JP2010282239A (ja) 2010-12-16
JP5200080B2 true JP5200080B2 (ja) 2013-05-15

Family

ID=43538947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010218255A Expired - Fee Related JP5200080B2 (ja) 2010-09-29 2010-09-29 音声認識装置、音声認識方法、およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5200080B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10720165B2 (en) 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP4705414B2 (ja) * 2005-06-13 2011-06-22 日本電信電話株式会社 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP4728791B2 (ja) * 2005-12-08 2011-07-20 日本電信電話株式会社 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10720165B2 (en) 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication

Also Published As

Publication number Publication date
JP2010282239A (ja) 2010-12-16

Similar Documents

Publication Publication Date Title
Yapanel et al. A new perceptually motivated MVDR-based acoustic front-end (PMVDR) for robust automatic speech recognition
US8306817B2 (en) Speech recognition with non-linear noise reduction on Mel-frequency cepstra
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
Droppo et al. Environmental robustness
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US20030093269A1 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
Garner Cepstral normalisation and the signal to noise ratio spectrum in automatic speech recognition
EP3262641B1 (en) Systems and methods for speech restoration
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
JP2005078077A (ja) 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
US20150162014A1 (en) Systems and methods for enhancing an audio signal
KR102051966B1 (ko) 음성 인식 향상 장치 및 방법
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
Alam et al. A novel feature extractor employing regularized MVDR spectrum estimator and subband spectrum enhancement technique
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Kathania et al. Experiments on children's speech recognition under acoustically mismatched conditions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100929

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5200080

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees