JP2005091518A - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP2005091518A
JP2005091518A JP2003322135A JP2003322135A JP2005091518A JP 2005091518 A JP2005091518 A JP 2005091518A JP 2003322135 A JP2003322135 A JP 2003322135A JP 2003322135 A JP2003322135 A JP 2003322135A JP 2005091518 A JP2005091518 A JP 2005091518A
Authority
JP
Japan
Prior art keywords
acoustic
model
likelihood
speech
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003322135A
Other languages
English (en)
Other versions
JP4362054B2 (ja
Inventor
Shoe Sato
庄衛 佐藤
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2003322135A priority Critical patent/JP4362054B2/ja
Publication of JP2005091518A publication Critical patent/JP2005091518A/ja
Application granted granted Critical
Publication of JP4362054B2 publication Critical patent/JP4362054B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】 入力音声に雑音が重畳された場合であっても、音声認識の認識誤りを低減させることが可能な音声認識装置を提供する。
【解決手段】 音声認識装置10は、音響尤度算出手段16によって、音響モデル12aと入力音声の特徴ベクトルとの音響尤度を算出し、信頼度算出手段15によって、雑音モデル11aと音響モデル12aとに基づいて、前記音響尤度の信頼度を算出し、音響尤度補正手段17が、前記音響尤度を信頼度に基づいて補正し、その補正された補正音響尤度と、言語モデル13aとに基づいて、探索手段18が、接続される単語等の出力系列の候補を探索することで、前記入力音声の音声認識を行うことを特徴とする。
【選択図】 図1

Description

本発明は、音声認識技術に関し、より詳細には、雑音環境下において、入力された音声の認識を行う音声認識装置及び音声認識プログラムに関する。
従来、音声認識を行う手法として、入力音声の音響信号を分析して得られる特徴量(特徴ベクトル)と、音声中の音素の特徴量をモデル化した音響モデルとから、類似度を示す音響尤度を算出し、その音響尤度と、単語の出現頻度や接続確率をモデル化した言語モデルとから、認識候補となる単語を探索することで音声認識を行っている(例えば、非特許文献1)。
ここで、図4を参照して、従来の音声認識装置について説明する。図4は、従来の音声認識装置の構成を示すブロック図である。図4に示すように、従来の音声認識装置20は、音響モデル(音響モデル記憶手段21に記憶)と、言語モデル(言語モデル記憶手段22に記憶)とに基づいて、入力音声である発話の内容を探索アルゴリズムにより決定し、認識結果を出力するものである。
この音声認識装置20は、まず、音響分析手段23によって、入力された音声(入力音声)から、音素毎の特徴量(例えば、ケプストラム等)を複数抽出する。そして、音響尤度算出手段24によって、音響分析手段23で抽出された複数の特徴量(特徴ベクトル)と、音響モデル記憶手段21に記憶されている音響モデルとに基づいて、入力された音声と音響モデルとの類似度を示す音響尤度を算出する。
そして、音声認識装置20は、探索手段25によって、音響尤度算出手段24で算出された音響尤度と、言語モデル記憶手段22に記憶されている言語モデルで示される単語の接続確率とに基づいて、接続される単語の候補を探索し、その探索結果(探索候補)を音響尤度算出手段24に通知する。そして、音声認識装置20は、音響尤度算出手段24と、探索手段25とを順次動作させることで、入力音声を単語列としたときの、その単語列の接続確率を算出することができる。そして、探索手段25が、その接続確率が最大となる単語列を、入力音声の認識結果として出力する。
このように、従来は、予め学習データから学習した音響モデル及び言語モデルに基づいて、音声認識を行う手法が一般的である。
今井,小林,尾上,安藤,「ニュース番組自動字幕化のための音声認識システム」,情報処理学会音声言語処理技研報,23−11,pp.59−64,Oct.,1998
しかし、前記した音声認識手法は、入力音声に雑音が重畳され、その雑音が音響モデルでモデル化されている音素に類似している場合、その雑音を音素として認識してしまい、入力音声に対して誤った音声認識結果を出力してしまうという問題があった。
この問題は、音響モデルに学習されていない雑音部分では、音響尤度の信頼性が低下しているにも関わらず、音声部分と同様の探索を行ったことに起因している。また、この問題は、音響モデルが、雑音が重畳された入力音声の特徴を十分に学習していないことにも起因している。
このような問題に対して、音響モデルを、音声に雑音を重畳させた学習データ(雑音重畳音声)から作成することも考えられるが、音響モデルに学習させる学習データは有限であるため、音響モデルを多種多様な雑音重畳音声に対応させて学習させることは困難である。
本発明は、以上のような問題点に鑑みてなされたものであり、入力音声に雑音が重畳された場合であっても、多種多様な雑音重畳音声に対応した音響モデルを用いることなく、音声認識の認識誤りを低減させることが可能な音声認識装置及び音声認識プログラムを提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の音声認識装置は、音響モデル及び言語モデルと、雑音をモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、音響分析手段と、信頼度算出手段と、音響尤度算出手段と、音響尤度補正手段と、出力系列探索手段と、認識結果出力手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響分析手段によって、入力された音声(入力音声)の音響信号をスペクトル分析、線形予測分析、ケプストラム分析等によって分析し、音声の特徴量を抽出する。この特徴量は、1つの特徴量である必要はなく複数の特徴量を持つ特徴ベクトルとすることで、入力された音声の特徴を適切に表現することができる。
また、音声認識装置は、信頼度算出手段によって、音響分析手段で抽出した特徴量(特徴ベクトル)が音声の特徴量である度合いを示す信頼度を算出する。すなわち、予め雑音のデータをモデル化した雑音モデルと、音声のデータをモデル化した音響モデルとに基づいて、その各モデルにおける確率密度関数の値の比率によって、その特徴量を有する入力音声が音声であるかどうかの度合い(信頼度)を算出する。なお、ここで雑音モデルとは、予め想定される雑音のデータを学習し、例えば、混合正規分布モデル等のよってモデル化したものである。また、音響モデルとは、大量の音声データから予め学習した、音素毎の特徴量を隠れマルコフモデルによってモデル化したものである。
そして、音声認識装置は、音響尤度算出手段によって、特徴量と音響モデルとに基づいて、入力音声と音響モデルとの類似度を示す音響尤度を算出する。すなわち、この音響尤度算出手段では、入力音声が音声であるかどうかを示す音響尤度を音響モデルのみで算出する。しかし、この入力音声には雑音が重畳されている場合があって、音響尤度は正確である保証がない。そこで、音声認識装置は、音響尤度補正手段によって、音響尤度算出手段で算出した音響尤度を、信頼度算出手段で算出した信頼度により補正することで、雑音を考慮した音響尤度(補正音響尤度)を算出する。
また、音声認識装置は、出力系列探索手段によって、補正音響尤度と言語モデルとに基づいて、接続確率が高くなる出力系列(単語、形態素、音素等)を探索する。なお、ここで探索された出力系列の候補(探索候補)は、適宜音響尤度算出手段に通知されることで、音響尤度算出手段が、探索候補の音響モデルに基づいて、入力音声の音響尤度を算出する。
そして、音声認識装置は、認識結果出力手段によって、出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を、入力音声を認識した出力系列であると特定し、音声認識結果として出力する。
また、請求項2に記載の音声認識装置は、請求項1に記載の音声認識装置において、前記音響尤度補正手段が、前記信頼度をべき数として、前記音響尤度をべき乗することで前記補正音響尤度を算出することを特徴とする。
かかる構成によれば、音声認識装置は、音響尤度補正手段によって、信頼度をべき数として、音響尤度をべき乗計算することで補正音響尤度を算出する。これによって、信頼度が低い部分では、音響尤度のダイナミックレンジが小さくなり、出力系列探索手段において、言語モデルによる探索比重を高めることができる。
さらに、請求項3に記載の音声認識装置は、請求項2に記載の音声認識装置において、前記信頼度算出手段が、予め定めた下限値を設けて、前記信頼度を算出することを特徴とする。
かかる構成によれば、音声認識装置は、信頼度が0になる(近づく)ことを回避することができる。これによって、例えば、雑音モデルの精度が十分でない場合に、音響尤度そのものの情報を無くしてしまうという弊害を回避することができる。
また、請求項4に記載の音声認識装置は、請求項1乃至請求項3のいずれか一項に記載の音声認識装置において、前記信頼度算出手段が、前記特徴量と前記音響モデルとの類似度を示す音響モデル尤度と、前記特徴量と前記雑音モデルとの類似度を示す雑音モデル尤度との比率により、前記信頼度を算出することを特徴とする。
かかる構成によれば、音声認識装置は、信頼度算出手段によって、特徴量と音響モデルとの類似度を示す尤度(音響モデル尤度)と、特徴量と雑音モデルとの類似度を示す尤度(雑音モデル尤度)との比によって、信頼度を算出する。これによって、特徴量で示される入力音声が、音声であるのか雑音であるのかを簡単な比率で表現することができる。また、この比率は、入力音声に雑音が重畳されている場合、その重畳の割合を示す指標ともなるため、入力音声が音声である信頼度として適切な値となる。
さらに、請求項5に記載の音声認識装置は、請求項4に記載の音声認識装置において、前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の総和で算出し、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の総和で算出することを特徴とする。
かかる構成によれば、音声認識装置は、信頼度算出手段によって、特徴量と、複数のクラスタモデルで構成される音響モデル及び雑音モデルの各クラスタモデルとの尤度を、クラスタモデル分加算することで、それぞれの尤度である音響モデル尤度及び雑音モデル尤度として算出する。これによって、種々の音響環境でモデル化した複数のクラスタモデルで構成される音響モデル及び雑音モデルであっても、信頼度を算出することができる。
また、請求項6に記載の音声認識装置は、請求項4に記載の音声認識装置において、前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、
前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の最大値とし、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の最大値とすることを特徴とする。
かかる構成によれば、音声認識装置は、信頼度算出手段によって、特徴量と複数のクラスタモデルで構成される音響モデルとから、尤度が最大値となるクラスタモデルの尤度を、音響モデル尤度とする。また、同様に、特徴量と複数のクラスタモデルで構成される雑音モデルとから、尤度が最大値となるクラスタモデルの尤度を、雑音モデル尤度とする。これによって、入力音声に類似するクラスタモデルから信頼度を求めることが可能になる。
さらに、請求項7に記載の音声認識装置は、請求項4に記載の音声認識装置において、前記信頼度算出手段が、前記音響モデル尤度及び前記雑音モデル尤度を、前記入力音声を特定の長さでフレーム化したときの、複数のフレームの移動平均値として算出することを特徴とする。
かかる構成によれば、音声認識装置は、ハミング窓等の窓関数によって、入力音声をフレーム化した各フレームにおいて、信頼度算出手段が、複数のフレーム毎に一定期間、尤度を加算して平均化した移動平均値を信頼度として算出する。これによって、入力音声に不規則な変動があっても算出される信頼度は平均化されることになり、信頼度の精度が向上する。
また、請求項8に記載の音声認識装置は、音響モデル及び言語モデルと、前記音響モデルをモデル化した第二音響モデルと、雑音をモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、音響分析手段と、第二音響モデルを用いて信頼度を算出する信頼度算出手段と、音響尤度算出手段と、音響尤度補正手段と、出力系列探索手段と、認識結果出力手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響分析手段によって、入力された音声(入力音声)の音響信号をスペクトル分析、線形予測分析、ケプストラム分析等によって分析し、音声の特徴量を抽出する。
また、音声認識装置は、信頼度算出手段によって、音響分析手段で抽出した特徴量(特徴ベクトル)が音声の特徴量である度合いを示す信頼度を算出する。例えば、予め雑音のデータをモデル化した雑音モデルと、音響モデルのデータ量を削減した第二音響モデルとに基づいて、その各モデルにおける確率密度関数の値の比率によって、その特徴量を有する入力音声が音声であるかどうかの度合い(信頼度)を算出する。ここで、第二音響モデルは、例えば、音響モデルを混合正規化分布モデルによりモデル化することで生成する。このように、データ量を削減した第二音響モデルを用いることで、信頼度を算出する際の演算量を抑えることができる。
そして、音声認識装置は、音響尤度算出手段によって、特徴量と音響モデルとに基づいて、入力音声と音響モデルとの類似度を示す音響尤度を算出する。そして、音響尤度補正手段によって、音響尤度算出手段で算出した音響尤度を、信頼度算出手段で算出した信頼度により補正することで、雑音を考慮した音響尤度(補正音響尤度)を算出する。
また、音声認識装置は、出力系列探索手段によって、補正音響尤度と言語モデルとに基づいて、接続確率が高くなる出力系列(単語、形態素、音素等)を探索し、認識結果出力手段によって、出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を、入力音声を認識した出力系列であると特定し、音声認識結果として出力する。
さらに、請求項9に記載の音声認識プログラムは、音響モデル及び言語モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識するために、コンピュータを、音響分析手段、信頼度算出手段、音響尤度算出手段、音響尤度補正手段、出力系列探索手段、認識結果出力手段、として機能させることを特徴とする。
かかる構成によれば、音声認識プログラムは、音響分析手段によって、入力された音声(入力音声)の音響信号を分析し、音声の特徴量を抽出する。
また、音声認識プログラムは、信頼度算出手段によって、予め雑音のデータをモデル化した雑音モデルと、音声のデータをモデル化した音響モデルとに基づいて、音響分析手段で抽出した特徴量(特徴ベクトル)が音声である度合いを示す信頼度を算出する。
そして、音声認識プログラムは、音響尤度算出手段によって、特徴量と音響モデルとに基づいて、入力音声と音響モデルとの類似度を示す音響尤度を算出し、音響尤度補正手段によって、音響尤度算出手段で算出した音響尤度を、信頼度算出手段で算出した信頼度により補正することで、雑音を考慮した音響尤度(補正音響尤度)を算出する。
また、音声認識プログラムは、出力系列探索手段によって、補正音響尤度と言語モデルとに基づいて、接続確率が高くなる出力系列(単語、形態素、音素等)を探索し、認識結果出力手段によって、出力系列探索手段で探索された出力系列の中で、接続確率が最大となる出力系列を、入力音声を認識した出力系列であると特定し、音声認識結果として出力する。
請求項1又は請求項9に記載の発明によれば、雑音が重畳された音声であっても、雑音のデータをモデル化した雑音モデルに基づいて、入力音声がどの出力系列に対応するのかを示す音響尤度を補正することができる。これによって、音響尤度の信頼度が低下した場合は、言語モデルによる語彙、文法、意味等の言語的制約に重みを付けて認識を行うことが可能になるため、雑音環境下における音声認識の誤りを低減させることができる。
また、音響モデルを多種多様な雑音重畳音声に対応させてモデル化する必要がなく、雑音モデルのみを構築すればよいので、モデルの構築を簡単に行うことができる。
請求項2に記載の発明によれば、信頼度をべき数として、音響尤度をべき乗計算するため、入力音声で、信頼度が低い部分では、音響尤度のダイナミックレンジが小さくなり、言語モデルによる探索比重を高めることができる。これによって、雑音環境下における音声認識の誤りを低減させることができる。
請求項3に記載の発明によれば、雑音モデルの精度が十分でない場合であっても、音響尤度そのものの情報を無くさないため、認識精度劣化を抑えることができる。
請求項4に記載の発明によれば、入力音声が、音声であるのか雑音であるのかを簡単な比率で表現することができる。また、この比率は、入力音声に重畳されている雑音の割合を示す指標ともなるため、入力音声が音声である信頼度として適切な値となり、この信頼度を用いることで、雑音環境下における音声認識の誤りを低減させることができる。
請求項5に記載の発明によれば、種々の音響環境でモデル化した複数のクラスタモデルで構成される音響モデル及び雑音モデルであっても、信頼度を算出することができる。
請求項6に記載の発明によれば、入力音声に類似するクラスタモデルから信頼度を求めることが可能になる。
請求項7に記載の発明によれば、信頼度を複数のフレームの移動平均値で算出するため、入力音声に不規則な変動があっても算出される信頼度は平均化されることになり、信頼度の精度が向上する。これによって、雑音環境下における音声認識の誤りを低減させることができる。
請求項8に記載の発明によれば、音響尤度を算出するために用いる音響モデルのデータ量を削減した第二音響モデル(音声モデル)を用いて信頼度を算出するため、信頼度算出にかかる演算量を抑えることができる。
以下、本発明の実施の形態について図面を参照して説明する。
[音声認識装置の構成]
まず、図1を参照して、本発明に係る音声認識装置の構成について説明する。図1は、音声認識装置の構成を示したブロック図である。
図1に示すように、音声認識装置10は、入力された音声(入力音声)を認識し、入力音声に対応する単語列、形態素、音素等の出力系列を認識結果として出力するものである。ここでは、音声認識装置10は、雑音モデル記憶手段11と、音響モデル記憶手段12と、言語モデル記憶手段13と、音響分析手段14と、信頼度算出手段15と、音響尤度算出手段16と、音響尤度補正手段17と、探索手段18とを備えている。すなわち、音声認識装置10は、従来の音声認識装置20(図4参照)に対して、雑音モデル記憶手段11と、信頼度算出手段15と、音響尤度補正手段17とを付加して構成している。以下、音声認識装置10の構成について詳細に説明する。
雑音モデル記憶手段11は、雑音モデル11aを記憶した一般的なハードディスク等の記憶媒体である。ここに記憶される雑音モデル11aは、予め想定される雑音のデータを蓄積したデータベース(図示せず)に基づいて、雑音のデータをモデル化したものである。この雑音モデル11aには、例えば、混合正規分布モデルを用いることができる。なお、雑音モデル11aは、単一の雑音モデルλNを用いてもよいし、雑音の種別毎に複数のモデル(クラスタモデル)λN={λ1 N,λ2 N,…,λM N}(Mは雑音モデルのクラスタ数)を用いてもよい。
ここで雑音とは、音声認識を行いたい音声以外の音をいい、例えば、飛行機やサイレンの音、雑踏の音声、あるいはニュース番組で原稿をめくる音等である。
音響モデル記憶手段12は、音響モデル12aを記憶した一般的なハードディスク等の記憶媒体である。ここに記憶される音響モデル12aは、大量の音声データから予め学習した音素毎の特徴量を「隠れマルコフモデル」によってモデル化したものである。この音響モデル12aも、雑音モデル11aと同様に、単一の音響モデルλSを用いてもよいし、音響の種別(例えば、人物別)毎に複数のモデル(クラスタモデル)λS={λ1 S,λ2 S,…,λK S}(Kは音響モデルのクラスタ数)を用いてもよい。また、例えば、音響モデル12aを、1つの音素に対して前後の音素を組としたトライフォンを認識の単位としてモデル化した場合は、トライフォンの数だけクラスタモデルが存在することになる。
言語モデル記憶手段13は、言語モデル13aを記憶した一般的なハードディスク等の記憶媒体である。ここに記憶される言語モデル13aは、大量の音声データから学習した出力系列(単語、形態素、音素等)の出現頻度や接続確率等をモデル化したものである。例えば、一般的な「N−gram言語モデル」等を用いることができる。
なお、ここでは、雑音モデル記憶手段11と、音響モデル記憶手段12と、言語モデル記憶手段13とを別々の記憶手段で構成しているが、同一の記憶手段に各モデルを記憶することも可能である。また、各記憶手段は、ネットワークを介して接続された形態であってもよい。
音響分析手段14は、外部から入力された音声(入力音声)を分析し、その音声の特徴量を抽出するものである。ここで抽出された音声の特徴量は、特徴ベクトルとして時系列に信頼度算出手段15及び音響尤度算出手段16に出力される。
なお、この音響分析手段14は、入力された音声の音声波形に窓関数(ハミング窓等)をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出する。例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とする。この特徴量には、ケプストラム係数以外にも、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)、LPC(Linear Predictive Cordind)係数、対数パワー等、一般的な音声特徴量を用いることができる。
信頼度算出手段15は、雑音モデル記憶手段11に予め学習し記憶されている雑音モデル11aと、音響モデル記憶手段12に予め学習し記憶されている音響モデル12aとに基づいて、音響分析手段14から時系列に出力される時刻tの特徴ベクトルxtが、音声である(雑音でない)度合いを示す信頼度P(S|xt)を算出するものである。ここで算出された信頼度は、音響尤度補正手段17に出力される。
以下、信頼度P(S|xt)を算出する手法について具体的に説明する。
まず、雑音モデル11aをλN={λ1 N,λ2 N,…,λM N}(Mは雑音モデルのクラスタ数)とし、雑音モデル11aのi番目のクラスタモデルλi Nにおける、特徴ベクトルxtが雑音の特徴量である度合い(尤度)を、条件付確率P(xt|λi N)(1≦i≦M)とする。すると、特徴ベクトルxtが雑音の特徴量である度合い(雑音モデル尤度)P(xt|λN)は、(1)式に示すように、各クラスタモデルλi Nにおける尤度和として算出することができる。
Figure 2005091518
また、同様に、音響モデル12aをλS={λ1 S,λ2 S,…,λK S}(Kは音響モデルのクラスタ数)とし、音響モデル12aのi番目のクラスタモデルλi Sにおける、特徴ベクトルxtが音声の特徴量である度合い(尤度)を、条件付確率P(xt|λi S)(1≦i≦K)とする。すると、特徴ベクトルxtが音声の特徴量である度合い(音響モデル尤度)P(xt|λS)は、(2)式に示すように、各クラスタモデルλi Sにおける尤度和として算出することができる。
Figure 2005091518
このように、(1)式及び(2)式で求めた、特徴ベクトルxtが雑音の特徴量である度合いP(xt|λN)及び音声の特徴量である度合いP(xt|λS)に基づいて、特徴ベクトルxtが、音声である(雑音でない)度合いを示す信頼度P(S|xt)は、(3)式によって算出することができる。
Figure 2005091518
なお、雑音モデル11aの精度不足によって、十分な精度の信頼度が得られない場合は、信頼値P(S|xt)に下限値を設けることとしてもよい。例えば、下限値をαとし、(4)式によって、P(S|xt)を補正したP´(S|xt)を信頼値として算出することとしてもよい。これによって、雑音モデルの精度が十分でない場合に、音響尤度そのものの情報を無くしてしまうという弊害を回避することができる。
Figure 2005091518
また、ここでは、(1)式及び(2)式に示したように、特徴ベクトルxtが雑音又は音声の特徴量である度合いを、各クラスタモデルにおける尤度和として算出したが、簡易的に各クラスタモデルλi N,λi Sにおける最大の度合い(尤度)を、特徴ベクトルxtが雑音又は音声の特徴量である度合いとしてもよい。すなわち、以下の(5)式及び(6)式によって、雑音の特徴量である度合い(雑音モデル尤度)P(xt|λN)、音声の特徴量である度合い(音響モデル尤度)P(xt|λS)を算出することとしてもよい。
Figure 2005091518
Figure 2005091518
また、特徴ベクトルxtが雑音の特徴量である度合いP(xt|λN)、音声の特徴量である度合いP(xt|λS)は、(7)式及び(8)式に示すように、特徴ベクトルxtに対して特定の時間幅(移動平均窓幅w)を設定し、その時間幅毎の雑音又は音声の特徴量である度合い(尤度)を加算することで算出してもよい。この(7)式及び(8)式は、ハミング窓等の窓関数によって、入力音声をフレーム化した各フレームにおいて、複数のフレーム毎に一定期間の平均値を加算した移動平均値である。これによって、信頼度の精度を向上させることができる。なお、ここで、除算による平均化を行っていないのは、前記(3)式により、信頼度を比率として算出するためである。
Figure 2005091518
Figure 2005091518
図1に戻って、音声認識装置10の構成について説明を続ける。
音響尤度算出手段16は、音響分析手段14で抽出され、時系列に入力される特徴ベクトルと、音響モデル記憶手段12に記憶されている音響モデル12aでモデル化されている音素との類似度を示す音響尤度を算出するものである。なお、この音響尤度算出手段16は、探索手段18から逐次出力される出力系列の探索候補毎に音響尤度を算出する。ここで算出された音響尤度は、音響尤度補正手段17に出力される。
例えば、探索手段18から逐次出力される探索候補の音響モデルがλAM={λ1 AM,λ2 AM,…,λJ AM}(Jは探索候補のモデルの総数)であった場合、音響尤度算出手段16は、特徴ベクトルxtが音声である度合い(音響尤度)を、条件付確率P(xt|λj AM)(1≦j≦J)で算出する。
音響尤度補正手段17は、信頼度算出手段15で算出された信頼度に基づいて、音響尤度算出手段16で算出された、探索候補毎の音響尤度を補正して補正音響尤度を生成するものである。ここで算出された補正音響尤度は、探索手段18に出力される。
例えば、音響尤度算出手段16から、時刻tにおける探索候補の音響尤度P(xt|λj AM)(1≦j≦J)が出力される場合、音響尤度補正手段17は、(9)式に示すように、信頼度算出手段15で算出された信頼度P(S|xt)をべき数として、音響尤度P(xt|λj AM)をべき乗することで、音響尤度を補正した補正音響尤度P´(xttλj AMt)を生成する。
Figure 2005091518
なお、(9)式において、信頼度は0≦P(S|xt)≦1で正規化されるため、補正音響尤度P´(xt|λj AM)は、音響尤度P(xt|λj AM)に比べて高くなってしまう。しかし、後記する探索手段18で、探索候補を探索する際の対立候補間における音声尤度(補正音響尤度)の比較において、音響尤度の対数をとった対数尤度の差をとれば、対数尤度差のダイナミックレンジがP(S|xt)倍になるだけで、音響尤度が高くなっても影響はない。
探索手段18は、音響尤度補正手段17で生成された補正音響尤度に基づいて、言語モデル13aから、接続される出力系列の候補を探索し、その探索結果である探索候補を音響尤度算出手段16に出力するとともに、接続確率が最大となる出力系列を入力音声に対する認識結果として外部に出力するものである。ここでは、探索手段18は、出力系列探索部18aと、認識結果出力部18bとで構成している。
出力系列探索部(出力系列探索手段)18aは、音響尤度補正手段17で生成された補正音響尤度と、言語モデル記憶手段13に記憶されている言語モデル13aとに基づいて、接続確率が高くなる出力系列を探索するものである。なお、雑音が重畳された音声については、補正音響尤度が低くなるため、出力系列探索部18aは、言語モデル13aの言語的制約(例えば、語彙、文法、意味等)によって出力系列を探索する度合いを大きくする。すなわち、雑音が重畳された音声(雑音重畳音声)については、音響的制約を弱め、相対的に言語的制約の重みを大きくすることで、雑音により歪められた音声の認識精度を高めることができる。
認識結果出力部(認識結果出力手段)18bは、出力系列探索部18aで探索された複数の出力系列の中で、接続確率が最大となる出力系列を出力するものである。なお、出力系列探索部18aでは、複数の出力系列が探索されるが、認識結果出力部18bでは、その複数の出力系列の中から、接続経路の確率が最大となる経路(出力系列)を音声認識結果とする。
以上、本発明に係る音声認識装置10の構成について説明したが、本発明はこれに限定されるものではない。例えば、信頼度算出手段15は、音響モデル12aのデータ量を削減してモデル化した音声モデルを用いて、信頼度を算出することとしてもよい。
すなわち、図2に示した音声認識装置10Bのブロック図のように、音声認識装置10(図1参照)に音声モデル記憶手段19を付加して構成してもよい。なお、この音声認識装置10Bは、音声認識装置10に、音声モデル19aを記憶した音声モデル記憶手段19を付加し、信頼度算出手段15の機能を変更した信頼度算出手段15Bで構成している。他の構成は、図1に示した音声認識装置10と同様であるので、同一の符号を付し、説明を省略する。
音声モデル記憶手段19に記憶した音声モデル(第二音響モデル)19aは、音響モデル12aよりデータ量を削減したモデルである。この音声モデル19aは、例えば、音響モデル12aを混合正規化分布モデルによりモデル化することで生成されたものとする。なお、この音声モデル19aは、大量の音声データから学習することでモデル化を行ってもよいが、信頼度算出手段15Bによって、信頼度を算出することが目的であるので、音響モデル12aを生成する際に用いた音声データから学習することが望ましい。
この音声モデル19aは、音響モデル12aと同様に、単一の音声モデルλSを用いてもよいし、音声の種別毎に複数のモデルλS={λ1 S,λ2 S,…,λK S}(Kは音声モデルのクラスタ数)を用いてもよい。
信頼度算出手段15Bは、雑音モデル記憶手段11に記憶されている雑音モデル11aと、音声モデル記憶手段19に記憶されている音声モデル19aとに基づいて、音響分析手段14から時系列に出力される時刻tの特徴ベクトルxtが、音声である度合いを示す信頼度P(S|xt)を算出する
このように、音響モデル12aのデータ量を削減した音声モデル19aを用いることで、音声認識の演算量を削減することができる。
なお、以上説明した音声認識10,10Bは、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(音声認識プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
[音声認識装置の動作]
次に、図3を参照(適宜図1参照)して、音声認識装置10の動作について説明する。図3は、音声認識装置10の動作を示すフローチャートである。
(音響分析ステップ)
音声認識装置10は、音響分析手段14によって、入力された音声(入力音声)を分析し、その音声の特徴量を時系列に特徴ベクトルxtとして抽出する(ステップS1)。
(信頼度算出ステップ)
そして、音声認識装置10は、信頼度算出手段15によって、特徴ベクトルxtで示される入力音声が音声である度合いを示す信頼度を算出する。すなわち、信頼度算出手段15が、前記(1)式に示したように、雑音モデル11aを参照して、特徴ベクトルxtが雑音である度合いを示す尤度和P(xt|λN)を算出する(ステップS2)。そして、信頼度算出手段15が、前記(2)式に示したように、音響モデル12aを参照して、特徴ベクトルxtが音声である度合いを示す尤度和P(xt|λS)を算出する(ステップS3)。そして、信頼度算出手段15が、このステップS2で算出した雑音の尤度和P(xt|λN)と、ステップS3で算出した音声の尤度和P(xt|λS)とに基づいて、前記(3)式により、特徴ベクトルxtが、音声である度合いを示す信頼度P(S|xt)を算出する(ステップS4)。
(音響尤度算出ステップ)
また、音声認識装置10は、音響尤度算出手段16によって、音響分析手段14で抽出された音声の特徴量である特徴ベクトルxtと、音響モデル12aとに基づいて、探索手段18の出力系列探索部18aで探索された出力系列の探索候補毎に音響尤度を算出する(ステップS5)。すなわち、探索候補の音響モデルがλAM={λ1 AM,λ2 AM,…,λJ AM}(Jは探索候補のモデルの総数)のとき、特徴ベクトルxtが音声である度合い(音響尤度)を、条件付確率P(xt|λj AM)(1≦j≦J)として算出する。
(音響尤度補正ステップ)
そして、音声認識装置10は、音響尤度補正手段17によって、前記(9)式に示したように、音響尤度算出手段16で算出された探索候補の音響尤度P(xt|λj AM)(1≦j≦J)を、信頼度算出手段15で算出された信頼度P(S|xt)に基づいて補正し、補正音響尤度P´(xt|λj AM)を生成する(ステップS6)。
(探索ステップ)
そして、音声認識装置10は、探索手段18の出力系列探索部18aによって、音響尤度補正手段17で生成された補正音響尤度P´(xt|λj AM)と、言語モデル13aとに基づいて、接続確率が高くなる出力系列を探索し、その探索結果である探索候補を音響尤度算出手段16に出力する(ステップS7)。なお、この探索結果はステップS5において、音響尤度算出手段16が、音響尤度を算出する際に用いられる。
また、音声認識装置10は、認識結果出力手部18bによって、ステップS7で探索された複数の出力系列の中で、接続確率が最大となる出力系列を音声認識結果として出力する(ステップS8)。本動作は、入力音声が入力されている間、ステップS1以降の動作が繰り返し実行される。
なお、ここでは、ステップS4において、信頼度を、特徴ベクトルが雑音の特徴量である度合い、及び音声の特徴量である度合いを用いて算出したが、前記(5)式及び(6)式に示したクラスタモデルにおける最大の尤度や、前記(7)式及び(8)式に示した移動平均値を用いて、信頼度を算出することとしてもよい。
以上の動作によって、音声認識装置10は、入力された音声に雑音が重畳されていた場合は、信頼度P(S|xt)が低下することで、言語モデル13aの言語的制約による探索の度合いを大きくすることができる。これによって、雑音により、音響モデル12aと入力音声とで不整合が発生した場合であっても、認識誤りを低減させることができる。
本発明に係る音声認識装置の構成を示したブロック図である。 本発明に係る音声認識装置の他の構成を示したブロック図である。 本発明に係る音声認識装置の動作を示すフローチャートである。 従来の音声認識装置の構成を示したブロック図である。
符号の説明
10、10B 音声認識装置
11 雑音モデル記憶手段
11a 雑音モデル
12 音響モデル記憶手段
12a 音響モデル
13 言語モデル記憶手段
13a 言語モデル
14 音響分析手段
15 信頼度算出手段
16 音響尤度算出手段
17 音響尤度補正手段
18 探索手段
18a 出力系列探索部(出力系列探索手段)
18b 認識結果出力部(認識結果出力手段)
19 音声モデル記憶手段
19a 音声モデル(第二音響モデル)

Claims (9)

  1. 音響モデル及び言語モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、
    前記入力音声の音響信号を分析して、前記入力音声の特徴量を抽出する音響分析手段と、
    この音響分析手段で抽出された特徴量と、前記雑音モデル及び前記音響モデルとに基づいて、前記入力音声が音声である度合いを示す信頼度を算出する信頼度算出手段と、
    前記特徴量と前記音響モデルとに基づいて、前記入力音声と前記音響モデルとの類似度を示す音響尤度を算出する音響尤度算出手段と、
    この音響尤度算出手段で算出された音響尤度を、前記信頼度により補正して補正音響尤度を生成する音響尤度補正手段と、
    この音響尤度補正手段で生成された補正音響尤度と、前記言語モデルとに基づいて、前記入力音声を構成する出力系列の候補を探索する出力系列探索手段と、
    この出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を前記入力音声の音声認識結果として出力する認識結果出力手段と、
    を備えていることを特徴とする音声認識装置。
  2. 前記音響尤度補正手段は、前記信頼度をべき数として、前記音響尤度をべき乗することで前記補正音響尤度を算出することを特徴とする請求項1に記載の音声認識装置。
  3. 前記信頼度算出手段は、予め定めた下限値を設けて、前記信頼度を算出することを特徴とする請求項2に記載の音声認識装置。
  4. 前記信頼度算出手段は、前記特徴量と前記音響モデルとの類似度を示す音響モデル尤度と、前記特徴量と前記雑音モデルとの類似度を示す雑音モデル尤度との比率により、前記信頼度を算出することを特徴とする請求項1乃至請求項3のいずれか一項に記載の音声認識装置。
  5. 前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、
    前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の総和で算出し、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の総和で算出することを特徴とする請求項4に記載の音声認識装置。
  6. 前記音響モデル及び前記雑音モデルは、それぞれ複数のクラスタモデルで構成され、
    前記信頼度算出手段は、前記音響モデル尤度を、前記特徴量と前記音響モデルの複数のクラスタモデルとの尤度の最大値とし、前記雑音モデル尤度を、前記特徴量と前記雑音モデルの複数のクラスタモデルとの尤度の最大値とすることを特徴とする請求項4に記載の音声認識装置。
  7. 前記信頼度算出手段は、前記音響モデル尤度及び前記雑音モデル尤度を、前記入力音声を特定の長さでフレーム化したときの、複数のフレームの移動平均値として算出することを特徴とする請求項4に記載の音声認識装置。
  8. 音響モデル及び言語モデルと、前記音響モデルをモデル化した第二音響モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識する音声認識装置であって、
    前記入力音声の音響信号を分析して、前記入力音声の特徴量を抽出する音響分析手段と、
    この音響分析手段で抽出された特徴量と、前記雑音モデル及び前記第二音響モデルとに基づいて、前記入力音声が音声である度合いを示す信頼度を算出する信頼度算出手段と、
    前記特徴量と前記音響モデルとに基づいて、前記入力音声と前記音響モデルとの類似度を示す音響尤度を算出する音響尤度算出手段と、
    この音響尤度算出手段で算出された音響尤度を、前記信頼度により補正して補正音響尤度を生成する音響尤度補正手段と、
    この音響尤度補正手段で生成された補正音響尤度と、前記言語モデルとに基づいて、前記入力音声を構成する出力系列の候補を探索する出力系列探索手段と、
    この出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を前記入力音声の音声認識結果として出力する認識結果出力手段と、
    を備えていることを特徴とする音声認識装置。
  9. 音響モデル及び言語モデルと、雑音のデータをモデル化した雑音モデルとを用いて、入力音声を認識するために、コンピュータを、
    前記入力音声の音響信号を分析して、前記入力音声の特徴量を抽出する音響分析手段、
    この音響分析手段で抽出された特徴量と、前記雑音モデル及び前記音響モデルとに基づいて、前記入力音声が音声である度合いを示す信頼度を算出する信頼度算出手段、
    前記特徴量と前記音響モデルとに基づいて、前記入力音声と前記音響モデルとの類似度を示す音響尤度を算出する音響尤度算出手段、
    この音響尤度算出手段で算出された音響尤度を、前記信頼度により補正して補正音響尤度を生成する音響尤度補正手段、
    この音響尤度補正手段で生成された補正音響尤度と、前記言語モデルとに基づいて、前記入力音声を構成する出力系列の候補を探索する出力系列探索手段、
    この出力系列探索手段で探索された複数の出力系列の中で、接続確率が最大となる出力系列を前記入力音声の音声認識結果として出力する認識結果出力手段、
    として機能させることを特徴とする音声認識プログラム。
JP2003322135A 2003-09-12 2003-09-12 音声認識装置及び音声認識プログラム Expired - Fee Related JP4362054B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003322135A JP4362054B2 (ja) 2003-09-12 2003-09-12 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003322135A JP4362054B2 (ja) 2003-09-12 2003-09-12 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2005091518A true JP2005091518A (ja) 2005-04-07
JP4362054B2 JP4362054B2 (ja) 2009-11-11

Family

ID=34453600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003322135A Expired - Fee Related JP4362054B2 (ja) 2003-09-12 2003-09-12 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4362054B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064815A (ja) * 2006-09-05 2008-03-21 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008250049A (ja) * 2007-03-30 2008-10-16 Yamaha Corp 音響変換装置およびプログラム
KR20150065171A (ko) * 2012-09-07 2015-06-12 카네기 멜론 유니버시티 하이브리드 지피유/씨피유(gpu/cpu) 데이터 처리 방법
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
CN110447068A (zh) * 2017-03-24 2019-11-12 三菱电机株式会社 语音识别装置和语音识别方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064815A (ja) * 2006-09-05 2008-03-21 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008250049A (ja) * 2007-03-30 2008-10-16 Yamaha Corp 音響変換装置およびプログラム
JP4544258B2 (ja) * 2007-03-30 2010-09-15 ヤマハ株式会社 音響変換装置およびプログラム
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
KR20150065171A (ko) * 2012-09-07 2015-06-12 카네기 멜론 유니버시티 하이브리드 지피유/씨피유(gpu/cpu) 데이터 처리 방법
JP2015529350A (ja) * 2012-09-07 2015-10-05 カーネギー メロン ユニバーシティCarnegie Mellon University ハイブリッドgpu/cpuデータ処理方法
KR101970041B1 (ko) 2012-09-07 2019-04-18 카네기 멜론 유니버시티 하이브리드 지피유/씨피유(gpu/cpu) 데이터 처리 방법
CN110447068A (zh) * 2017-03-24 2019-11-12 三菱电机株式会社 语音识别装置和语音识别方法

Also Published As

Publication number Publication date
JP4362054B2 (ja) 2009-11-11

Similar Documents

Publication Publication Date Title
US11545142B2 (en) Using context information with end-to-end models for speech recognition
US9934777B1 (en) Customized speech processing language models
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
Liao et al. Uncertainty decoding for noise robust speech recognition
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR100930714B1 (ko) 음성인식 장치 및 방법
US20040006469A1 (en) Apparatus and method for updating lexicon
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
Damavandi et al. NN-grams: Unifying neural network and n-gram language models for speech recognition
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
JP2004101963A (ja) 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090721

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090814

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130821

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140821

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees