JP2007017736A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2007017736A JP2007017736A JP2005199791A JP2005199791A JP2007017736A JP 2007017736 A JP2007017736 A JP 2007017736A JP 2005199791 A JP2005199791 A JP 2005199791A JP 2005199791 A JP2005199791 A JP 2005199791A JP 2007017736 A JP2007017736 A JP 2007017736A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- speech
- model
- input data
- correction value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 認識対象である音声に背景雑音が付加されている音声区間のパターンマッチングをする場合において、背景雑音が街中の人声の場合や、ガベジモデル学習時に使用したデータ以外の音声であっても、ガベジモデルが正しい音声区間とマッチすることを防止し、誤認識率を低下させる音声認識装置を得る。
【解決手段】 入力データの特徴量に基づき、認識対象の音声である可能性の高い区間に対してはガベジモデルに対する尤度を低くする補正を、認識対象の音声である可能性の低い区間に対してはガベジモデルに対する尤度を高くする補正を行い、補正後の尤度を用いてパターンマッチングを行う。
【選択図】 図1
【解決手段】 入力データの特徴量に基づき、認識対象の音声である可能性の高い区間に対してはガベジモデルに対する尤度を低くする補正を、認識対象の音声である可能性の低い区間に対してはガベジモデルに対する尤度を高くする補正を行い、補正後の尤度を用いてパターンマッチングを行う。
【選択図】 図1
Description
本発明は、背景雑音下の認識性能を改善する音声認識装置に関する。
音声認識は、入力信号から音声区間を切り出して予め用意してある標準パターンとパターンマッチングを行うことによってなされる。音声区間の切り出しは、入力信号のパワーを用い、パワーが所定の閾値以上になった区間を切り出すのが一般的である。しかし、背景雑音下では背景雑音のパワーが閾値を超え、正しい音声区間の前後に雑音区間を付加した音声区間を切り出すことがあり、誤認識の原因となるという問題があった。特にパワーが時間と共に変動する背景雑音が存在する状況下では閾値の調整だけでは正しい音声区間を切り出すことが困難であるといった問題があった。
上述の問題を解決するために、従来の音声認識装置においては音声区間として背景雑音を含めて切り出し、背景雑音の音声パターンをモデル化したガベジモデルと認識対象の音声をモデル化した認識対象語彙モデルとを用い、背景雑音込みで認識処理を行っていた。
「携帯電話音に含まれる雑音のモデル化による音声区間検出誤りの削減」 平成13年10月 日本音響学会講演論文集、pp.41−42
従来の音声認識装置は、ガベジモデル学習時に使用したデータ以外の背景雑音に対しては、背景雑音のモデル化が十分でなく認識率が低下するといった問題があった。
この発明は上述の問題を解決するためになされたものであり、入力データの特徴ベクトルを算出する分析手段と、背景雑音に対応する音パターンをモデル化したガベジモデルを記録している第1のデータベースと、認識対象に対応する音声パターンをモデル化した認識対象語彙モデルを記憶している第2のデータベースと、入力データの特徴量に基づいて補正値を算出する補正値算出手段と、特徴ベクトルを用いて、前記入力データと前記ガベジモデルとの尤度である第1の尤度および入力データと認識対象語彙モデルとの尤度である第2の尤度とを算出するとともに、第1の尤度を補正値に基づき補正し、補正後の第1の尤度および前記第2の尤度を使用して第2のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段とを備えたものである。
この発明は、入力データの特徴量に基づいて、入力データとガベジモデルとの尤度を補正する構成になっているため、ガベジモデル学習時に使用したデータ以外の背景雑音が付加されたような音声区間に対しても誤認識率が低下するという効果がある。
実施の形態1.
図1はこの発明を実施するための実施の形態1における音声認識装置を示す図である。図1において1は信号の入力端、2は入力信号をA/D変換しフレームと呼ぶ所定の時間区間ごとに分割し、フレーム毎にパワーと特徴ベクトルを算出する分析手段、3は分析手段2の出力から尤度の補正値を算出する補正値算出手段である。4はパターンマッチングを行う照合手段、5は背景雑音に対応する音パターンをモデル化した複数のガベジモデルを記録しているガベジモデルデータベース、6は認識対象に対応する音声パターンをモデル化した複数の認識対象語彙モデルを記録している認識対象語彙データベース、7は照合手段4が算出した認識結果を出力する出力端である。
図1はこの発明を実施するための実施の形態1における音声認識装置を示す図である。図1において1は信号の入力端、2は入力信号をA/D変換しフレームと呼ぶ所定の時間区間ごとに分割し、フレーム毎にパワーと特徴ベクトルを算出する分析手段、3は分析手段2の出力から尤度の補正値を算出する補正値算出手段である。4はパターンマッチングを行う照合手段、5は背景雑音に対応する音パターンをモデル化した複数のガベジモデルを記録しているガベジモデルデータベース、6は認識対象に対応する音声パターンをモデル化した複数の認識対象語彙モデルを記録している認識対象語彙データベース、7は照合手段4が算出した認識結果を出力する出力端である。
次にこのように構成された音声認識装置において、図2〜図4を用いて単語認識を行う動作について説明する。図2、図3、図4はそれぞれこの実施の形態1における分析手段2、補正値算出手段3、照合手段4の動作を示すフローチャートである。入力端1に入力された音の入力信号は分析手段2に入力される(st101)。分析手段2はこの入力信号をA/D変換した後、フレームと呼ばれる数10ms程度の区間に分割する(st102)。その後、各フレームについてパワーPおよび特徴ベクトルXを算出する(st103、st104)。パワーPの算出式を(数1)に示す。ここで特徴ベクトルとは、音信号の特徴量をあらわすベクトルであり、例えばLPC(Linear Predictive Coding)ケプストラムを用いるものとする。また、LPC以外の特徴ベクトルとして、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴ベクトルを用いても良い。
数1において、
P:フレームのパワー
n:フレーム内のデータの総数
y(i):フレーム内のi番目の振幅値
である。
P:フレームのパワー
n:フレーム内のデータの総数
y(i):フレーム内のi番目の振幅値
である。
また分析手段2はパワーPが予め定めた所定の閾値を超えた時間から、所定の閾値を所定の回数下回った時間までの入力信号を音声区間として切り出す(st105)。その後、この切り出した音声区間の総フレームを補正値算出手段3に出力すると共に(st106)、この音声区間内の特徴ベクトルの時系列X(t):(t=1,2,…,T)を照合手段4へ出力する(st107)。ここで、Tは音声区間内の総フレーム数である。また、音声区間には、認識対象とする音声の前後に騒音が含まれている場合がある。
補正値算出手段3は分析手段2からの音声区間の総フレームの入力をうけ(st201)、各フレームの特徴量から、フレームが認識対象の音声である可能性を示す音声度Vを算出する。音声度Vは、フレームが音声で有る可能性が高いほど大きくなり、非音声である可能性が高いほど小さくなるものとする。また、フレームが音声である可能性が非音声である可能性より高い場合には正の値をとり、逆に非音声である可能性が音声である可能性より高い場合には負の値をとるものとする。
次に音声度Vの算出方法について説明する。図5に補正値算出手段3の構成を表す図を示す。図5において、3aは認識対象である有声音および背景雑音である有声音のピッチ周波数、フォルマント周波数及び帯域幅の特徴量をガウス分布でモデル化した複数の有声区間音声モデルを記録している有声区間音声データベース、3bは背景雑音である有声音について、3aと同じ特徴量を同様にモデル化した複数の有声区間非音声モデルを記録している有声区間非音声データベースである。3cは認識対象である無声音のスペクトルをガウス分布でモデル化した複数の無声区間音声モデルが記録されている無声区間音声データベース、3dは背景雑音である無声音について3cと同じ特徴量を同様にモデル化した複数の無声区間非音声モデルを記録している無声区間非音声データベースである。3eはフレームが有声音か無声音かの判定をする判定部、3fは判定部3eが判定を行ったフレームの音声度を算出する音声度算出部、3gは音声度算出部3fが算出した音声度に基づいて補正値を算出する補正値算出部である。
判定部3eは音声区間のフレームを有声音または無声音と判定するための特徴量であるフレームのスペクトルの傾き及びピッチ性を算出する。スペクトルの傾きはフレームをFFT(First Fourier Transform)してパワースペクトルを求め、スペクトルの低域と高域の比をとることによって算出する。またピッチ性はフレームの自己相関係数を求め自己相関係数のピーク値を求めることによって算出する。そしてスペクトルの傾きが所定の閾値Ts以上、ピッチ性が所定の閾値Tp以上であれば有声音と判定し、それ以外の場合は無声音と判定する(st202)。
音声度算出部3fは判定部3eがフレームを有声音と判定した場合には、フレームのピッチ周波数、フォルマント周波数及び帯域幅を用いて、フレームと各有声区間音声モデルとの尤度を算出し、算出した尤度の最大値L1vを求める。同様にして、フレームと各有声区間非音声モデルとの尤度の最大値L1nを算出する。これらを用いて、(数2)より音声度Vを算出する(st203)。
(数2)において、
V:フレームの音声度
a:正の定数
L1v:フレームと各有声区間音声モデルとの尤度の最大値
L1n:フレームと各有声区間非音声モデルとの尤度の最大値
である。
V:フレームの音声度
a:正の定数
L1v:フレームと各有声区間音声モデルとの尤度の最大値
L1n:フレームと各有声区間非音声モデルとの尤度の最大値
である。
また、判定部3eがフレームを無声音と判定した場合は、フレームのスペクトルを用いて、フレームと各無声区間音声モデルとの尤度を算出し、算出した尤度の最大値L2vを求める。同様に、フレームと各無声区間音声モデルとの尤度の最大値L2nを算出する。これらを用いて、(数3)より音声度Vを算出する(st204)。
(数3)において、
V:フレームの音声度
b:正の定数
L2v:フレームと各無声区間音声モデルとの尤度の最大値
L2n:フレームと各無声区間非音声モデルとの尤度の最大値
である。
V:フレームの音声度
b:正の定数
L2v:フレームと各無声区間音声モデルとの尤度の最大値
L2n:フレームと各無声区間非音声モデルとの尤度の最大値
である。
次に補正値算出部3gは音声度Vに基づいて、照合手段4でパターンマッチングをおこなう際に使用する補正値Mを(数4)によって算出する(st205)。
(数4)において、
M:フレームの補正値
f():原点をとおる減少関数
である。また、(数4)におけるf()は、例えば(数5)で与えられる。
M:フレームの補正値
f():原点をとおる減少関数
である。また、(数4)におけるf()は、例えば(数5)で与えられる。
(数5)において、cは正定数である。また(数5)ではf()は、原点をとおる単調減少の直線となっているが、原点をとおる単調減少の曲線であっても良い。
(数4)および(数5)から明らかなように、補正値Mは音声度Vが正、すなわち音声である可能性が高い場合には負の値となり、逆に音声度Vが負、すなわち非音声である可能性が高い場合には正の値をとる。
補正値算出手段3は音声区間の総フレームに対してst202〜st205を繰り返すことにより補正値の時系列M(t):(t=1,2,…,T)を算出する(st206)。その後、この補正値の時系列M(t)を照合手段4へ出力する(st207)。
照合手段4は、分析手段2からの特徴ベクトルの時系列X(t)、補正値算出手段3からの補正値の時系列M(t)、ガベジモデルデータベース5に記録されているガベジモデルおよび認識対象語彙データベース6に記録されている認識対象語彙モデルを用いてパターンマッチングを行う。ここで、ガベジモデルデータベース5に記憶されているガベジモデルは背景雑音をHMM(Hidden Markov Model)でモデル化したものである。モデル化されている背景雑音は、例えば屋外の携帯電話から入力された音声を認識する場合、屋外の種々の背景騒音を収集してモデル化されたものである。また、車内のカーナビゲーションシステムにおいて運転手等の音声を認識する場合は、車内の種々の騒音、例えば、ウィンカ音やエンジン音などの背景雑音を収集してモデル化しておく。また、認識対象語彙データベース6に記録されている認識対象語彙モデルは単語単位の連続分布HMMで構成されている。
さらに、各ガベジモデル及び各認識対象語彙モデルは、音素に対応する複数の時間区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値及び分散が記録されている。尚、この分割される区間は音素に対応する時間区間に分割されるのではなく、所定長の時間幅で分割されていても良い。また、時間幅は一定ではなく、それぞれ異なる時間幅であっても良い。
次に、パターンマッチングの手法について説明する。照合手段4は、分析手段2からの音声区間の特徴ベクトルの時系列X(t)の入力を受け(st301)、X(t)とガベジモデルデータベース5に記録されているガベジモデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームとガベジモデルとの尤度の時系列Lg(t)を算出する(st302)。さらに、音声区間の特徴ベクトルX(t)と認識対象語彙データベース6に記録されている認識対象語彙モデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各認識対象語彙モデルとの尤度の時系列Lw(t)を算出する(st303)。
st302とst303を各ガベジモデル及び各認識対象語彙モデルに対し行うことにより、音声区間の総フレームと各ガベジモデルとの尤度の時系列Lg(sg,t):(sg=1,2,…,Ng)及び音声区間の総フレームと各認識対象語彙モデルとの尤度の時系列Lw(sw,t):(sw=1,2,…,Nw)が算出される(st304)。ここで、Ngはガベジモデルの総数、Nwは認識対象語彙モデルの総数である。
次に、照合手段4は補正値算出手段3からの補正値の時系列M(t)の入力受け(st305)、音声区間のフレームとガベジモデルとの尤度の時系列を(数6)のように補正する(st306)。
(数6)において、
L’g(sg,t):補正後の音声区間の総フレームと各ガベジモデルとの尤度の時系列
Lg(sg,t) :音声区間の総フレームと各ガベジモデルとの尤度の時系列
M(t) :補正値の時系列
L’g(sg,t):補正後の音声区間の総フレームと各ガベジモデルとの尤度の時系列
Lg(sg,t) :音声区間の総フレームと各ガベジモデルとの尤度の時系列
M(t) :補正値の時系列
(数6)から明らかなように、フレームとガベジモデルとの尤度は、補正値M(t)が正の区間、すなわち非音声である可能性が音声である可能性より高いと判断された区間に関しては大きくなるように補正され、補正値M(t)が負の区間、すなわち音声である可能性が非音声である可能性より高い区間に関しては小さくなるように補正される。
また照合手段4は、図6に示すような認識対象語彙モデルの前後にガベジモデルを接続したモデルの連鎖を算出しておく(st307)。図6はこの音声認識装置が認識し得る全ての状態を示すものである。図6においては、認識対象語彙モデルの前後にガベジモデルが接続した状態を表しているが、連鎖の状態はこの順番に限られない。すなわち、認識対象語彙モデルの前後にガベジモデルが接続していない状態でも良い。
図6に示す認識対象語彙モデルとガベジモデルの連鎖と、補正後の音声区間の総フレームと各ガベジモデルとの尤度の時系列L’g(sg,t)及び音声区間の総フレームと認識対象語彙モデルとの尤度の時系列Lw(sw,t)とをビタビアルゴリズム等のアルゴリズムを用いてパターンマッチングを行う(st308)。即ち、照合手段4は音声区間の総フレームの尤度和が最大になるガベジモデルと認識対象語彙モデルの組み合わせを選出し、その認識対象語彙モデルを認識結果として出力端7へ出力する(st309)。
以上により、この実施の形態1による音声認識装置は、音声区間のフレームとガベジモデルとの尤度を入力データの特徴量から算出した補正値に基づいて補正する構成になっているので、ガベジモデルが認識対象である音声とマッチすることを抑制でき、ガベジモデル学習時に使用したデータ以外の背景雑音に対しても、誤認識率を低下させる効果を奏する。
実施の形態2.
実施の形態1におけるガベジモデルデータベース5は、図7に示すように、この音声認識装置の使用が想定される環境下での背景雑音に対応する音パターンをモデル化した複数の既知騒音用ガベジモデルを記録した既知騒音データベース5aと、それ以外の各種の背景雑音に対応する音パターンをモデル化した複数の未知騒音用ガベジモデルを記録した未知騒音データベース5bと、に分かれていても良い。既知騒音用ガベジモデルは、この音声認識装置が使用されると想定される環境での背景雑音のデータにより予め学習されており、未知騒音用ガベジモデルは、既知騒音用ガベジモデルが学習した背景雑音以外の一般的な背景雑音のデータにより予め学習されているものとする。また、既知騒音用ガベジモデルは未知騒音用ガベジモデルよりも大量のデータを用いて学習されており、モデルの精度は既知騒音用ガベジモデルのほうが未知騒音用ガベジモデルよりも高いものとする。さらにまた、既知騒音用ガベジモデルおよび未知騒音用ガベジモデルは実施の形態1のガベジモデルと同様に、複数の区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値および分散も併せて記録されている。その他の構成は実施の形態1と同様であるので説明を省略する。
実施の形態1におけるガベジモデルデータベース5は、図7に示すように、この音声認識装置の使用が想定される環境下での背景雑音に対応する音パターンをモデル化した複数の既知騒音用ガベジモデルを記録した既知騒音データベース5aと、それ以外の各種の背景雑音に対応する音パターンをモデル化した複数の未知騒音用ガベジモデルを記録した未知騒音データベース5bと、に分かれていても良い。既知騒音用ガベジモデルは、この音声認識装置が使用されると想定される環境での背景雑音のデータにより予め学習されており、未知騒音用ガベジモデルは、既知騒音用ガベジモデルが学習した背景雑音以外の一般的な背景雑音のデータにより予め学習されているものとする。また、既知騒音用ガベジモデルは未知騒音用ガベジモデルよりも大量のデータを用いて学習されており、モデルの精度は既知騒音用ガベジモデルのほうが未知騒音用ガベジモデルよりも高いものとする。さらにまた、既知騒音用ガベジモデルおよび未知騒音用ガベジモデルは実施の形態1のガベジモデルと同様に、複数の区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値および分散も併せて記録されている。その他の構成は実施の形態1と同様であるので説明を省略する。
次にこのように構成された音声認識装置の動作について図2、図3、図8を用いて説明する。図8は本実施の形態における照合手段4の動作を示すフローチャートである。また、分析手段2および補正値算出手段3の動作は実施の形態1と同様なので図2、図3を用いて説明する。
分析手段2は実施の形態1と同様に、入力端1からの入力信号を受け、音声区間のフレームを補正値算出手段3へ出力すると共に、特徴ベクトルの時系列X(t)を照合手段4へ出力する(st101〜st107)。補正値算出手段3も実施の形態1と同様に、音声区間のフレームの入力を受け、照合手段4へ補正値の時系列M(t)を出力する(st201〜st207)。
照合手段4は、音声区間の特徴ベクトルX(t)の入力を受け(st401)、既知騒音データベース5aおよび未知騒音データベース5bに記録されている既知騒音用ガベジモデルと未知騒音用ガベジモデルで構成される各ガベジモデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各ガベジモデルとの尤度の時系列Lg(t)を算出する(st402)。さらに、音声区間の特徴ベクトルX(t)と認識対象語彙データベース6に記録されている認識対象語彙モデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと認識対象語彙モデルとの尤度の時系列Lw(t)を算出する(st403)。
st402とst403を各既知騒音用ガベジモデル、各未知騒音用ガベジモデル及び各認識対象語彙モデルに対し行うことにより、音声区間の総フレームと既知騒音用ガベジモデルおよび未知騒音用ガベジモデルとの尤度の時系列Lg(sg,t):(sg=1,2,…,Ng)及び音声区間の総フレームと各認識対象語彙モデルとの尤度の時系列Lw(sw,t):(sw=1,2,…,Nw)を算出する(st404)。従って、Lg(sg,t)には既知騒音用ガベジモデルおよび未知騒音用ガベジモデルに対する尤度が含まれることになる。すなわち、Ngは既知騒音用ガベジモデルの総数と、未知騒音用ガベジモデルの総数との和である。次に、補正値算出手段3からの補正値M(t)の入力を受けると(st405)、Lg(sg、t)が既知騒音ガベジモデルに対する尤度か、未知騒音ガベジモデルに対する尤度かであるかの判定を行う。すなわち、sg番目のガベジモデルが既知騒音用ガベジモデルに属するか、未知騒音用ガベジモデルに属するかの判定を行う(st406)。sg番目のガベジモデルが未知騒音ガベジモデルに属するときは、M(t)を用いて尤度を補正する(st407)。また、sg番目のガベジモデルが既知騒音ガベジモデルに属するときは尤度の補正は行わない。(数7)に尤度の補正式を示す。
(数7)から明らかなように、既知騒音用ガベジモデルに対する尤度は補正されず、未知騒音用ガベジモデルに対する尤度は、音声度V(t)に基づいて算出されたM(t)を用いて補正される。
次に、実施の形態1におけるst307〜st309と同様に、図6に示すような認識対象語彙モデルの前後にガベジモデルを接続したモデルの連鎖を算出し、ビタビアルゴリズム等のアルゴリズムを用いてパターンマッチングを行い、パターンマッチングの結果、音声区間の総フレームの尤度和が最大になるガベジモデルと認識対象語彙モデルの組み合わせを選択し、その認識対象語彙モデルを認識結果として出力端7へ出力する(st408〜st410)。本実施の形態においては、図6に示す各ガベジモデルはそれぞれ既知騒音用ガベジモデルまたは未知騒音用ガベジモデルである。
一般に、大量の音声データで学習した精度の高いモデルに対する尤度は補正を行わなくても有効な尤度が計算できるために、尤度を補正することによって逆に悪影響を及ぼす可能性がある。しかし、この実施の形態2における音声認識装置は、この音声認識装置の使用が想定される環境で大量に収集した背景雑音のデータで学習している精度の高い既知騒音ガベジモデルに対する尤度は補正せずに、精度の低い未知騒音ガベジモデルに対する尤度のみを補正しているので、補正による悪影響を低減することができる。従って、音声認識装置の使用が想定される環境下での背景雑音と、それ以外の背景雑音の両方に対して誤認識率を低下させる効果を奏する。また、ガベジモデルの分類は上述の分類に限定されるものではなく、精度の大きく異なる2種類のガベジモデルに分類されていれば同様の効果を奏する。さらにまた、ガベジモデルを背景雑音の種類で分類せずに、モデルの精度のみで分類しても良い。
実施の形態3.
実施の形態1におけるガベジモデルデータベース5は、図9に示すように、街中等の人の声の背景雑音に対応する音声パターンである複数の音声用ガベジモデルを記録している音声用データベース5cと、人の声以外の背景雑音に対応する音パターンである複数の非音声用ガベジモデルを記録している非音声用データベース5dと、に分かれていても良い。非音声用ガベジモデルは、実施の形態1のガベジモデルと同様に、この音声認識装置が使用されると想定される環境での背景雑音のデータを予め学習しておく。また、音声用ガベジモデルおよび非音声用ガベジモデルは実施の形態1のガベジモデルと同様に、複数の区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値および分散も併せて記録されている。また分析手段2は音声区間の総フレームに加え、音声区間のパワーも補正値算出手段3へ出力する構成になっている。その他の構成は実施の形態1と同様であるので、説明を省略する。
実施の形態1におけるガベジモデルデータベース5は、図9に示すように、街中等の人の声の背景雑音に対応する音声パターンである複数の音声用ガベジモデルを記録している音声用データベース5cと、人の声以外の背景雑音に対応する音パターンである複数の非音声用ガベジモデルを記録している非音声用データベース5dと、に分かれていても良い。非音声用ガベジモデルは、実施の形態1のガベジモデルと同様に、この音声認識装置が使用されると想定される環境での背景雑音のデータを予め学習しておく。また、音声用ガベジモデルおよび非音声用ガベジモデルは実施の形態1のガベジモデルと同様に、複数の区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値および分散も併せて記録されている。また分析手段2は音声区間の総フレームに加え、音声区間のパワーも補正値算出手段3へ出力する構成になっている。その他の構成は実施の形態1と同様であるので、説明を省略する。
次にこのように構成された音声認識装置の動作について図10、図11、図12を用いて説明する。図10、図11、図12はそれぞれこの実施の形態3における分析手段2、補正値算出手段3、照合手段4の動作を示すフローチャートである。分析手段2は実施の形態1のst101からst105と同様に、入力端子1からの入力信号を受けると、音声区間を切り出し、この音声区間の総フレームに対して特徴ベクトルの時系列X(t)およびパワーの時系列P(t)を算出する(st501〜st505)。その後、音声区間の総フレーム及びパワーの時系列P(t)を補正値算出手段3へ出力すると共に(st506)、特徴ベクトルの時系列X(t)を照合手段4へ出力する(st507)。
補正値算出手段3は分析手段2から音声区間の総フレーム及びパワーの時系列P(t)の入力を受けると(st601)、実施の形態1のst202〜st204と同様に音声度Vを算出する(st602〜st604)。この音声度に基づいて実施の形態1における補正値Mの算出方法と同様の方法で、非音声用ガベジモデルに対する非音声用補正値Mnを算出する(st605)。次に、パワーPに基づいて、音声用ガベジモデルに対する音声用補正値Mhを(数8)によって算出する(st606)。
数8において、
d:正の定数
P1:正の定数
P:フレームのパワー
である。
d:正の定数
P1:正の定数
P:フレームのパワー
である。
(数8)から明らかなように、音声用ガベジモデルに対する補正値MhはパワーPが所定の閾値P1より大きいフレームでは負の値をとり、小さい場合には正の値をとる。P1は、例えば、この音声認識装置が使用される状況での話者の音声データのパワー等を用いて決定される。
さらに、補正値算出手段3は音声区間の総フレームに対してst602〜st606を繰り返すことにより、各フレームのMhおよびMnを算出し、音声用ガベジモデルに対する音声用補正値の時系列Mh(t)および非音声用ガベジモデルに対する非音声用補正値の時系列Mn(t)を算出し(st607)、これらを照合手段4へ出力する(st608)。
照合手段4は、分析手段2からの音声区間の特徴ベクトルX(t)の入力を受け(st701)、X(t)と音声用データベース5cおよび非音声用データベース5dに記録されている音声用ガベジモデルと非音声用ガベジモデルで構成される各ガベジモデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各ガベジモデルとの尤度の時系列Lg(t)を算出する(st702)。さらに、音声区間の特徴ベクトルX(t)と認識対象語彙データベース6に記録されている認識対象語彙モデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各認識対象語彙モデルとの尤度の時系列Lw(t)を算出する(st703)。
st702とst703を各音声用ガベジモデル、各非音声用ガベジモデル及び各認識対象語彙モデルに対し行うことにより、音声区間の総フレームと音声用ガベジモデルとの尤度の時系列Lg(sg,t):(sg=1,2,…,Ng)及び、音声区間の総フレームと各認識対象語彙モデルとの尤度の時系列Lw(sw,t):(sw=1,2,…,Nw)を算出する(st704)。従って、Lg(sg,t)には音声用ガベジモデルおよび非音声用ガベジモデルに対する尤度が含まれることになる。すなわち、Ngは音声用ガベジモデルの総数と非音声用ガベジモデルの総数との和である。次に、補正値算出手段3からの音声用補正値の時系列Mh(t)および非音声用補正値の時系列Mn(t)を受けると(st705)、Lg(sg、t)が音声用ガベジモデルに対する尤度か、非音声用ガベジモデルに対する尤度であるかの判定を行う。すなわち、sg番目のガベジモデルが音声用ガベジモデルに属するか、非音声用ガベジモデルに属するかの判定を行う(st706)。sg番目のガベジモデルが音声用ガベジモデルに属するときは、音声用補正値Mh(t)を用いて尤度を補正し(st707)、非音声用ガベジモデルに属するときは非音声用補正値Mn(t)を用いて尤度を補正する(st708)。(数9)に尤度の補正式を示す。
(数9)から明らかなように、音声用ガベジモデルに対する尤度はフレームのパワーP(t)に基づいて算出されたMh(t)を用いて補正され、非音声用ガベジモデルに対する尤度は音声度V(t)に基づいて算出されたMn(t)を用いて補正される。
次に、実施の形態1と同様に、図6に示すような認識対象語彙モデルの前後にガベジモデルを接続したモデルの連鎖を算出し(st709)、ビタビアルゴリズムを等のアルゴリズムを用いてパターンマッチングを行う(st710)。本実施の形態における図6の各ガベジモデルはそれぞれ音声用ガベジモデルまたは非音声用ガベジモデルである。
照合手段4は、パターンマッチングの結果、音声区間の総フレームの尤度和が最大になるガベジモデルと認識対象語彙モデルの組み合わせを選択し、その認識対象語彙モデルを認識結果として出力端7へ出力する(st711)。
この実施の形態3による音声認識装置は、音声度Vでは判別が困難な人の声に対応する背景雑音について、フレームのパワーPを用いて補正値を算出している。通常、認識対象とする人の声は入力端1の付近で発生するため、背景雑音のよりもパワーPが大きい場合が多い。従って、本実施の形態のような構成にすることにより、人の声による背景雑音が音声区間に付加されている場合においても、誤認識率を低下させる効果を奏する。
2 分析手段、3 補正値算出手段、3a 有声区間音声モデルデータベース、3b 有声区間非音声データベース、3c 無声区間音声データベース、3d無声区間非音声データベース、4 照合手段、5 ガベジモデルデータベース、5a 既知騒音データベース、5b 未知騒音データベース、5c 音声用データベース、5c 非音声用データベース、6 認識対象語彙データベース
Claims (9)
- 入力データの特徴ベクトルを算出する分析手段と、
背景雑音に対応する音パターンをモデル化したガベジモデルを記録している第1のデータベースと、
認識対象に対応する音声パターンをモデル化した認識対象語彙モデルを記憶している第2のデータベースと、
前記入力データの特徴量に基づいて補正値を算出する補正値算出手段と、
前記特徴ベクトルを用いて、前記入力データと前記ガベジモデルとの尤度である第1の尤度および前記入力データと前記認識対象語彙モデルとの尤度である第2の尤度とを算出するとともに、前記第1の尤度を前記補正値に基づき補正し、補正後の第1の尤度および前記第2の尤度を使用して前記第2のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段と、
を有することを特徴とした音声認識装置。 - 入力データの特徴ベクトルを算出する分析手段と、
背景雑音に対応する音パターンをモデル化した第1のガベジモデルを記録している第1のデータベースと、
前記背景雑音とは異なる種類の背景雑音に対応する音パターンを前記第1のガベジモデルよりも低精度でモデル化した第2のガベジモデルを記録している第2のデータベースと、
認識対象に対応する音声パターンをモデル化した認識対象語彙モデルを記憶している第3のデータベースと、
前記入力データの特徴量に基づいて補正値を算出する補正値算出手段と、
前記特徴ベクトルを用いて、前記入力データと前記第1のガベジモデルとの尤度である第1の尤度および前記入力データと前記第2のガベジモデルとの尤度である第2の尤度および前記入力データと前記認識対象語彙モデルとの尤度である第3の尤度とを算出すると共に、前記第2の尤度を前記補正値に基づき補正し、第1の尤度および補正後の第2の尤度および前記第3の尤度を使用して前記第3のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段と、
を有することを特徴とした音声認識装置。 - 前記補正値算出手段は、
前記入力データのスペクトルの傾きまたはピッチ性に基づいて、前記入力データが有声音か無声音かを判定し、この判定結果に基づいて前記補正値を算出することを特徴とした請求項1または請求項2に記載の音声認識装置。 - 前記補正値算出手段は、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅に基づいて前記補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルに基づいて前記補正値を算出することを特徴とした請求項3に記載の音声認識装置。 - 前記補正値算出手段は、
認識対象の音声である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した有声区間音声モデルを記録した第4のデータベースと、
背景雑音である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した有声区間非音声モデルを記録した第5のデータベースと、
認識対象の音声である無声音のスペクトルをモデル化した無声区間音声モデルを記録した第6のデータベースと、
背景雑音である無声音のスペクトルをモデル化した無声区間非音声モデルを記録した第7のデータベースとを有し、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅を用いて、前記入力データと前記有声区間音声モデルとの尤度である第4の尤度および前記入力データと前記有声区間非音声モデルとの尤度である第5の尤度を算出すると共に、前記第4の尤度と前記第5との尤度に基づいて前記補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルを用いて前記入力データと前記無声区間音声モデルとの尤度である第6の尤度および前記入力データと前記無声区間非音声モデルとの尤度である第7の尤度を算出すると共に、前記第6の尤度と前記第7の尤度とに基づいて前記補正値を算出することを特徴とする請求項3に記載の音声認識装置。 - 入力データの特徴ベクトルを算出する分析手段と、
人声の背景雑音に対応する音声パターンをモデル化した音声用ガベジモデルを記録している第1のデータベースと、
人声以外の背景雑音に対応する音パターンをモデル化した非音声用ガベジモデルを記録している第2のデータベースと、
認識対象に対応する音声パターンをモデル化した複数の認識対象語彙モデルを記憶している第3のデータベースと、
前記入力データのパワーに基づいて音声用補正値を、前記入力データの特徴量に基づいて非音声用補正値を算出する補正値算出手段と、
前記特徴ベクトルを用いて、前記入力データと前記音声用ガベジモデルとの尤度である第1の尤度および前記入力データと前記非音声用ガベジモデルとの尤度である第2の尤度および前記入力データと前記認識対象語彙モデルとの尤度である第3の尤度とを算出するとともに、前記第1の尤度を前記音声用補正値に、前記第2の尤度を前記非音声用補正値に基づき補正し、補正後の第1の尤度および補正後の第2の尤度および前記第3の尤度を使用して前記第3のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段と、
を有することを特徴とした音声認識装置。 - 前記補正値算出手段は、
前記入力データのスペクトルの傾きまたはピッチ性に基づいて、前記入力データが有声音か無声音かを判定し、この判定結果に基づいて前記非音声用補正値を算出することを特徴とした請求項6に記載の音声認識装置。 - 前記補正値算出手段は、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅に基づいて前記非音声用補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルに基づいて前記非音声用補正値を算出することを特徴とした請求項7に記載の音声認識装置。 - 前記補正値算出手段は、
認識対象の音声である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した複数の有声区間音声モデルを記録した第4のデータベースと、
背景雑音である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した複数の有声区間非音声モデルを記録した第5のデータベースと、
認識対象の音声である無声音のスペクトルをモデル化した複数の無声区間音声モデルを記録した第6のデータベースと、
背景雑音である無声音のスペクトルをモデル化した複数の無声区間非音声モデルを記録した第7のデータベースを有し、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅を用いて、前記入力データと前記有声区間音声モデルとの尤度である第4の尤度および前記入力データと前記有声区間非音声モデルとの尤度である第5の尤度を算出すると共に、前記第4の尤度と前記第5との尤度に基づいて前記非音声用補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルを用いて、前記入力データと前記無声区間音声モデルとの尤度である第6の尤度および前記入力データと前記無声区間非音声モデルとの尤度である第7の尤度を算出すると共に、前記第6の尤度と前記第7の尤度とに基づいて前記非音声用補正値を算出することを特徴とする請求項7に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005199791A JP2007017736A (ja) | 2005-07-08 | 2005-07-08 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005199791A JP2007017736A (ja) | 2005-07-08 | 2005-07-08 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007017736A true JP2007017736A (ja) | 2007-01-25 |
Family
ID=37754957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005199791A Pending JP2007017736A (ja) | 2005-07-08 | 2005-07-08 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007017736A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181266A (ja) * | 2008-01-30 | 2009-08-13 | Yamaha Corp | 探索支援装置および被探索者報知装置 |
KR101068122B1 (ko) | 2008-12-15 | 2011-09-28 | 한국전자통신연구원 | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 |
JP2011227237A (ja) * | 2010-04-19 | 2011-11-10 | Honda Motor Co Ltd | コミュニケーションロボット |
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
US9002709B2 (en) | 2009-12-10 | 2015-04-07 | Nec Corporation | Voice recognition system and voice recognition method |
JP5949550B2 (ja) * | 2010-09-17 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US11132998B2 (en) | 2017-03-24 | 2021-09-28 | Mitsubishi Electric Corporation | Voice recognition device and voice recognition method |
-
2005
- 2005-07-08 JP JP2005199791A patent/JP2007017736A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181266A (ja) * | 2008-01-30 | 2009-08-13 | Yamaha Corp | 探索支援装置および被探索者報知装置 |
KR101068122B1 (ko) | 2008-12-15 | 2011-09-28 | 한국전자통신연구원 | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 |
US9002709B2 (en) | 2009-12-10 | 2015-04-07 | Nec Corporation | Voice recognition system and voice recognition method |
JP2011227237A (ja) * | 2010-04-19 | 2011-11-10 | Honda Motor Co Ltd | コミュニケーションロボット |
JP5949550B2 (ja) * | 2010-09-17 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
CN103229232A (zh) * | 2010-11-30 | 2013-07-31 | 三菱电机株式会社 | 声音识别装置及导航装置 |
DE112010006037T5 (de) | 2010-11-30 | 2013-09-19 | Mitsubishi Electric Corp. | Spracherkennungsvorrichtung und Navigationssystem |
JP5409931B2 (ja) * | 2010-11-30 | 2014-02-05 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
US11132998B2 (en) | 2017-03-24 | 2021-09-28 | Mitsubishi Electric Corporation | Voice recognition device and voice recognition method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455995B2 (en) | User recognition for speech processing systems | |
US11270685B2 (en) | Speech based user recognition | |
JP5621783B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
US9672816B1 (en) | Annotating maps with user-contributed pronunciations | |
US8140330B2 (en) | System and method for detecting repeated patterns in dialog systems | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP2007017736A (ja) | 音声認識装置 | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
CN110189750B (zh) | 词语检测系统、词语检测方法以及记录介质 | |
CN112397048B (zh) | 语音合成的发音稳定性评价方法、装置和系统及存储介质 | |
JP5375612B2 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
CN111078937B (zh) | 语音信息检索方法、装置、设备和计算机可读存储介质 | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP2015087557A (ja) | 発話様式検出装置および発話様式検出方法 | |
KR101037801B1 (ko) | 부단위 인식을 이용한 핵심어 검출 방법 | |
JP5158877B2 (ja) | 音声認識方法および装置 | |
CN116994570A (zh) | 语音识别模型的训练方法和装置、语音识别方法和装置 | |
JP2006235298A (ja) | 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム |