JP3026855B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3026855B2
JP3026855B2 JP3156541A JP15654191A JP3026855B2 JP 3026855 B2 JP3026855 B2 JP 3026855B2 JP 3156541 A JP3156541 A JP 3156541A JP 15654191 A JP15654191 A JP 15654191A JP 3026855 B2 JP3026855 B2 JP 3026855B2
Authority
JP
Japan
Prior art keywords
power
voice
input
parameter
correction value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3156541A
Other languages
English (en)
Other versions
JPH056196A (ja
Inventor
由実 滝沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP3156541A priority Critical patent/JP3026855B2/ja
Publication of JPH056196A publication Critical patent/JPH056196A/ja
Application granted granted Critical
Publication of JP3026855B2 publication Critical patent/JP3026855B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
【0002】
【従来の技術】近年、音声認識技術の発達と共に、音声
認識装置が様々の分野で実用化されようとしており、実
用化するためには、認識装置を実用する上での様々の問
題点を解決する必要がある。
【0003】例えば、その一つとして、実用上、装置の
使用環境に存在する様々な騒音のために発声が変形する
(例えば、周囲騒音が大きくなると大声で発声するため
に発声が変動する。騒音下で長時間装置を使用している
と発声者が疲労してくるために発声が変動する等)。そ
のために、騒音の無い状態で標準音声を学習し、騒音下
でその装置を使用する場合、標準音声が上記変形を吸収
できず誤認識してしまうという問題点がある。
【0004】この問題点を解決するために、あらかじめ
予測できる全ての変形パターンを装置に学習させておく
方法が考えられるが、全ての発声変形を学習させるため
には、学習時間、装置の容量、使用者の手間が膨大とな
り実用的ではない。
【0005】ところで、騒音下での発声変形を分析した
結果、音声の共振周波数(以後ホルマント周波数と呼
ぶ)が発声変形によりずれており、そのずれには次のよ
うな規則性の有ることがわかった。 (1) 一定周波数範囲(約300Hz〜約1500Hz)では、発声変
形によりホルマント周波数は上昇する。 (2) 上記のずれ量は、音声変形の度合により変化する。
【0006】そこで、発声変形の度合が、使用環境の騒
音パワーの大きさによると仮定し、発声変形によるホル
マント周波数のずれを下記推定式により推定し、推定さ
れたホルマント周波数のずれ量を用いて発声変形を補正
する方法が近年提案されている。この方法により、学習
時間、装置の容量、使用者の手間が少なく、しかも発声
変形を吸収することができるようになる。
【0007】以下、図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
標準音声を登録することで上記学習を行う登録型音声認
識装置を用いて説明する。
【0008】図3は従来例における単語音声認識装置の
ブロック図である。1は信号入力端子、22はパワー測
定部、23は騒音パワー判定部、24は変動量推定部、
3は分析部、6は母音判定部、7はホルマント周波数検
出部、8は補正値算出部、9はパラメータ補正部、10
は照合部、11は認識結果出力端子、19は標準音声保
管バッファ、25、26、27、15はスイッチであ
る。
【0009】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
【0010】まず標準音声学習時には、音声入力直前の
環境騒音が信号入力端子1より入力され、パワー測定部
22で環境騒音のパワーが算出され、パワーが一定閾値
P0以上の場合は、周囲状況が学習時にふさわしくない
とみなし、学習を中断する。
【0011】環境騒音のパワーが一定閾値P0以下の場
合には、信号声入力端子1より入力された標準音声用音
声信号は分析部3に入力され、特徴パラメータが算出さ
れる。分析方法は従来例と同様であり、認識パラメータ
として所定の次数のLPCケプストラム係数が算出され
る。そしてパワーが所定の音声区間検出閾値以上のフレ
ームにおける特徴パラメータが標準音声保管バッファ1
9に保管される。
【0012】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、学習を終了す
る。
【0013】次に認識時には、まず学習時と同様に環境
騒音のパワーがパワー測定部22にて測定された後、信
号入力端子1より認識されるべき信号が入力され、分析
部3で学習時と同様に認識パラメータが算出される。
【0014】パワー測定部22で測定されたパワー値は
騒音パワー判定部23に入力され、環境騒音パワーが一
定閾値Pt以下の場合には、騒音による発声変形がない
と判断して認識パラメータは照合部10に入力され、照
合を行った後、最短距離を示す単語を認識結果として認
識結果出力端子11より出力する。
【0015】環境騒音パワーが一定閾値Pt以上の場合
には、騒音パワー値は変動量推定部24に入力される。
変動量推定部24では、環境騒音のパワー値Pnより次
式を用いて騒音下での発声変形によるホルマント変動量
△fを推定する。この場合、パワーPn、Ptの単位はd
B、△fの単位はHzである。
【0016】
【数1】 (数1)は、環境騒音が小さい場合は、発声変形が少な
いためホルマント周波数の変動量が小さく、環境騒音が
大きい場合は、発声変形が大きいためホルマント周波数
の変動量も大きいという事実を反映しているものであ
る。次に、音声が入力され、上記の環境騒音パワー22
と分析部3でパラメータと共に算出されたフレーム毎の
音声パワーとは母音判定部6に入力される。母音判定部
6では、次の2つの条件で母音判定を行う。 [1]信号レベルは騒音レベルに一定値Cを加えたレベ
ル以上である。 [2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
【0017】上記[1]、[2]の条件を満足するフレ
ームを母音部と判断し、母音部の場合は入力信号をホル
マント周波数検出部7に、母音部以外の場合には照合部
10に入力する。
【0018】母音部の場合には、パラメータを補正する
ために、まずホルマント周波数検出部7で音声信号のホ
ルマント周波数を検出する。ホルマント周波数は次のよ
うに求める。従来例の認識パラメータであるLPCケプ
ストラムを算出する過程で、LPCパラメータa(i)が
求められており、このパラメータを用いて音声のスペク
トルは、
【0019】
【数2】 但し S:音声のスペクトル N:分析次数 で表される。このA(z)の複素根の実数部Re(z)と虚数部
Im(z)から、ホルマント周波数は、
【0020】
【数3】 但し f :ホルマント周波数 fs :サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を求
めることができる。
【0021】次に、補正値算出部8で、上記ホルマント
周波数とLPCケプストラムをホルマント周波数で微分
した値との積値を用いてLPCケプストラムの補正値を
算出する。算出式は数4の通りである。
【0022】
【数4】 この際に、数4のホルマント周波数の変動量は上記数1
で求めた値を用いる。他の変数は数4において bi(第iホルマントのハ゛ント゛幅)= 150Hz fs(サンフ゜リンク゛周波数)= 10KHz とし、発声変形により変動が大きかった周波数範囲(300
Hz〜1500Hz )に含まれるホルマントに対してのみ補正を
行うと数4は数5となる。
【0023】
【数5】 但し( 300Hz < fi < 1500Hz ) 数5にて算出された補正値はパラメータ補正部9に入力
され、下記数6のようにLPCケプストラムCn が補正
される。補正されたパラメータは照合部10で環境騒音
パワーが一定閾値Pt以下の場合と同様に照合され、認
識結果出力端子11より認識結果が出力される。
【0024】
【数6】 以上のように、従来例によれば、パワー測定部22で環
境騒音パワーを測定し、騒音パワー判定部23で騒音パ
ワーの大きさから発声変形の度合を判断し、変動量推定
部24で発声変形によるホルマント周波数の変動量を環
境騒音パワーを用いて数1のように推定し、分析部3で
認識パラメータとしてケプストラム係数を算出し、ホル
マント周波数検出部7で入力信号のホルマント周波数を
検出し、補正値算出部8で上記で推定されたホルマント
周波数の変動量を用いて数4にて補正値を算出し、パラ
メータ補正部9で入力音声の変動に対応して上記補正値
を認識パラメータに加算してパラメータを補正すること
で、騒音下で発声したことによるホルマント周波数の変
動の補正が可能となり、認識率を向上させることができ
ると考えられている。
【0025】なお、スイッチ25は音声入力直前の環境
騒音パワーを測定する場合はパワー測定部22に、音声
入力の際には分析部3に信号を入力するように動作す
る。またスイッチ26は、学習時には標準音声保管バッ
ファ19に、認識時には騒音パワー判定部23にパラメ
ータを入力するように動作する。スイッチ27は環境騒
音パワーが一定閾値Pt以上の場合には変動量推定部2
4に、一定閾値Pt以下の場合には照合部10にパラメ
ータを入力するように動作する。スイッチ15は母音の
場合にはホルマント周波数検出部7に、母音以外の場合
には照合部10にパラメータを入力するように動作す
る。
【0026】
【発明が解決しようとする課題】しかしながら、上記の
従来の音声認識方法では、騒音パワーの大きさにより発
声変形の度合を推定している。ところが実際には、同じ
騒音パワーの環境下であっても、発声者の騒音に対する
慣れの度合によって発声変形の度合が違う場合がある。
たとえば、周囲環境が無騒音から有騒音に変化した場
合、変化した直後では、発声者がまだ騒音環境にだ慣れ
ていないために発声変形は顕著に現れるが、変化して長
時間経つと、発声者が騒音に慣れてくるため発声変形の
度合が減少する。このような場合、騒音パワーの大きさ
だけにより発声変形の度合を推定している従来法では、
発声変形の度合の推定が誤ってしまうため、発声変形補
正が正しく行われず、補正効率が悪く、場合によっては
補正をしたため、かえって認識率が低下するという課題
を有していた。
【0027】請求項1〜4の本発明は、上記従来の音声
認識装置の課題に鑑み、入力音声のパワーを用いて発声
変形の度合を推定することで、発声者の騒音に対する慣
れに伴い発声変形度合が減少した場合でも、正確に発声
変形度合を推定し、常に補正により認識率を向上させる
ことができる音声認識装置を提供することを目的とする
ものである。
【0028】
【0029】
【課題を解決するための手段】この目的を達成するため
に本発明第1項〜第4項の音声認識装置は、入力された
音声のパワーを測定するパワー測定部と、入力信号の特
徴パラメータを分析する分析部と、発声変形に伴う一部
の特徴パラメータの変動量を推定する変動量推定部と、
補正値を検出する補正値算出部と、特徴パラメータを補
正するパラメータ補正部と、標準信号と入力信号とを照
合し認識結果を出力する照合部とを具備し、パワー測定
部で学習時または認識時の入力音声のパワーを測定し、
分析部で音響分析により特徴パラメータを算出し、変動
量推定部で上記の音声パワーを用いて発声変形に伴う一
部の特徴パラメータの変動量を推定し、補正値算出部で
変動量推定部にて推定された変動量を用いて補正値を算
出し、パラメータ補正部で入力音声の発声変形に対応し
て上記補正値にて特徴パラメータを補正し、照合部で補
正されたパラメータを用いて標準音声と入力音声との照
合を行うことを特徴とする音声認識装置を構成するもの
である。
【0030】
【0031】
【作用】この構成によって、正確に発声変形の度合を推
定し、常に補正により認識率を向上させることができ
る。
【0032】
【実施例】以下、請求項1〜4の本発明の一実施例につ
いて図面を参照しながら説明する。
【0033】図1において、1は信号入力端子、2は信
号入力端子1から入力される信号のパワーを測定するパ
ワー測定部、3はそのパワー測定部2に接続された分析
部、4はパワー比較部、5はパワー比較部4に接続され
た変動量推定部、6は変動量推定部5に接続された母音
判定部、7はホルマント周波数検出部、8は補正値算出
部、9はパラメータ補正部、10は照合部、11は認識
結果出力端子、12は標準音声保管バッファ、13、1
4、15はスイッチであり、前記従来例と同じものに
は、同一の番号を付与している。
【0034】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
【0035】まず標準音声学習時には、音声入力直前の
環境騒音が信号入力端子1より入力され、パワー測定部
2で環境騒音のパワーが算出され、パワーが一定閾値P
0以上の場合は、周囲状況が学習時にふさわしくないと
みなし、学習を中断する。
【0036】騒音パワーが一定閾値P0以下の場合は、
音声入力端子1より入力された標準音声はパワー測定部
2に入力されフレーム毎の信号のパワーP(i)と単語全
体の音声パワーPaとが算出される。単語全体の音声パ
ワーはたとえばフレーム毎の音声パワーを用いて次式の
ように算出される。
【0037】
【数7】 但し、P(i) > max(P(i)) − 20 dB N :上記不等式を満たすフレームの総数 一方、入力音声は分析部3にも入力され、特徴パラメー
タが算出される。分析方法は従来例と同様であり、認識
パラメータとして所定の次数のLPCケプストラム係数
が算出される。そしてパワーが所定の音声区間検出閾値
以上のフレームにおける特徴パラメータが標準音声保管
バッファ12に保管される。
【0038】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、全単語の音声パ
ワーの平均値を特徴パラメータ同様保管バッファ12に
保管し、学習を終了する。
【0039】次に認識時には、まず学習時と同様に環境
騒音のパワーがパワー測定部2にて測定された後、信号
入力端子1より認識されるべき信号が入力される。学習
時同様、パワー測定部2でフレーム毎の音声パワーと単
語全体の音声パワーが算出され、分析部3にてLPCケ
プストラム係数が算出され、算出結果は、パワー比較部
4に入力される。
【0040】パワー比較部4で、学習時に算出された全
単語の平均音声パワー値と入力音声パワー値を比較し、
学習時の音声パワー値に一定値加えた値より、入力音声
のパワーが小さい場合は入力音声に発声変形なし、大き
い場合には入力音声に発声変形ありとみなして、結果を
変動量推定部5に入力する。
【0041】発声変形なしと判断された場合には、変動
量推定部5で処理を行わず、パラメータを照合部10に
入力し、通常通り照合部10で照合を行い、最短距離を
示す単語を認識結果として認識結果出力端子11より出
力する。
【0042】発声変形ありと判断された場合には、変動
量推定部5で発声変形によるホルマントのずれ量を数8
のように推定し、推定結果とパラメータと音声パワー値
を母音判定部6に入力する。
【0043】
【数8】 △f:発声変形によるホルマント周波数のずれ量 Pw :入力単語音声のパワー値 Pa :学習音声の全単語音声のパワーの平均値 次に、母音判定部6で、次の2つの条件で母音判定を行
う。 [1]音声レベルは騒音レベルに一定値Cを加えたレベ
ル以上である。 [2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
【0044】上記[1]、[2]の条件を満足するフレ
ームを母音部と判断し、母音部の場合は入力信号をホル
マント周波数検出部5に、母音部以外の場合には照合部
8に入力する。
【0045】母音部の場合には、パラメータを補正する
ために、まずホルマント周波数検出部7で信号のホルマ
ント周波数を検出する。ホルマント周波数の算出式は従
来例と同様である。
【0046】次に、補正値算出部8で、上記ホルマント
周波数とLPCケプストラムをホルマント周波数で微分
した値との積値を用いてLPCケプストラムの補正値を
算出する。算出式は従来例の 数5の通りである。
【0047】数5にて算出された補正値はパラメータ補
正部9に入力され、従来例同様に、数6のようにLPC
ケプストラムCn が補正される。補正されたパラメータ
は照合部10で発声変形なしと判断された場合と同様に
照合され、認識結果出力端子11より認識結果が出力さ
れる。
【0048】以上のように、本実施例によれば、パワー
測定部2で学習時または認識時の音声のパワーを測定
し、パワー比較部4で学習時の音声パワーと認識時の音
声パワーを比較し、変動量推定部5で学習時と認識時と
の音声パワー用いて、数8にて発声変形によるホルマン
ト周波数変動量を推定し、分析部3でスペクトル分析を
行い、さらに分析されたスペクトルをケプストラム変換
したものを認識パラメータとして算出し、ホルマント周
波数検出部7で入力信号のホルマント周波数を検出し、
補正値算出部8で変動量推定部5にて推定されたホルマ
ント周波数の変動量と上記認識パラメータのホルマント
周波数に対する偏微分式を用いて数4のように補正値を
算出し、パラメータ補正部9で騒音下で発声した場合の
入力音声の発声変形に対応して上記補正値にてパラメー
タを補正し、照合部10で補正されたパラメータを認識
パラメータして標準音声と入力音声との照合を行うこと
により、正確に発声変形の度合を推定し、常に補正によ
り認識率を向上させることができる。
【0049】なお、スイッチ13は学習時には標準音声
保管バッファ12に、認識時にはパワー比較部4にパラ
メータを入力するように動作する。また、スイッチ14
は派生変形なしと判断された場合には照合部10に、発
声変形ありと判断された場合には母音判定部6にパラメ
ータを入力するように動作する。スイッチ15は母音の
場合にはホルマント周波数検出部7に、母音以外の場合
には照合部10に信号を入力するように動作する。
【0050】なお、本実施例は騒音下で発声することに
よる発声変形を補正する場合について述べているが、本
発明の請求項1〜4は、騒音下での発声変形以外でも、
使用状況の変化により、発声が変形する(たとえば、ど
なり声、叫び声等)場合でも同様に効果がある。
【0051】また、本実施例は、請求項2のように、発
声変形に伴いホルマント周波数が変動する場合について
説明したが、ホルマント周波数に限らず発声変形に伴う
他の特徴パラメータ(たとえば、LPCパラメータ、L
PCケプストラムパラメータ等)の変動量を推定しても
よい(請求項1参照)。もっとも、騒音下での発声変形
に伴うホルマント周波数の変動には一定の規則性のある
ことが実験により明かであるため、実施例のようにホル
マント周波数を用いる場合には、変動量の推定が容易で
あり、より高い補正効果期待できる。
【0052】また、本実施例は、請求項4のように、学
習時と認識時との音声パワーを比較し、その結果を用い
て発声変形の度合を推定する場合について説明したが、
学習時と認識時との音声パワーを比較しなくても、使用
環境の異なる認識時の入力音声間のパワーを比較しても
よい(請求項3参照)。なお、本実施例によれば、学習
は必ず騒音のない環境で行われるため、学習時と入力時
の使用環境の違いの判定が容易であり、本実施例のよう
に学習時と認識時との音声パワーを比較する場合にはよ
り高い補正効果が期待できる。
【0053】また、本実施例は、請求項3、4のよう
に、使用環境の異なる入力音声間のパワーを比較し、そ
の結果を用いて発声変形の度合を推定する場合について
説明したが、異なる入力音声間のパワーを比較しなくて
も、予め音声パワーしいき値を設定しておいて、左記の
しいき値と入力音声パワーを比較しその結果から発声変
形度合を推定するようにしてもよい(請求項1参照)。
なお、音声パワーは音声入力端子と発声者の距離や、発
声者により変動するため、本実施例のように同発声者の
音声間のパワーを比較した方が、より高い補正効果が期
待できる。
【0054】次に、本願発明に関連した技術の一例につ
いて図面を参照しながら説明する。
【0055】図2において、1は信号入力端子、16は
パワー測定部、3は分析部、17はS/N算出部、18
は変動量推定部、6は母音判定部、7はホルマント周波
数検出部、8は補正値算出部、9はパラメータ補正部、
10は照合部、11は認識結果出力端子、19は標準音
声保管バッファ、20、21、15はスイッチであり、
前記従来例と同じものは、同一の番号を付与している。
【0056】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
【0057】まず標準音声学習時には、音声入力直前の
環境騒音が信号入力端子1より入力され、パワー測定部
2で環境騒音のパワーが算出され、パワーが一定閾値P
0以上の場合は、周囲状況が学習時にふさわしくないと
みなし、学習を中断する。
【0058】騒音パワーが一定閾値P0以下の場合は、
入力音声はパワー測定部で処理されず、分析部3に入力
され、特徴パラメータが算出される。分析方法は従来例
と同様であり、認識パラメータとして所定の次数のLP
Cケプストラム係数が算出される。そしてパワーが所定
の音声区間検出閾値以上のフレームにおける特徴パラメ
ータが標準音声保管バッファ19に保管される。
【0059】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、学習を終了す
る。
【0060】次に認識時には、まず学習時と同様に環境
騒音のパワーがパワー測定部2にて測定された後、信号
入力端子1より認識されるべき信号が入力される。パワ
ー測定部2ではフレーム毎の音声パワーと単語全体の音
声パワーが前実施例と同様に数7によって算出され、分
析部3にてLPCケプストラム係数が算出され、算出結
果は、S/N算出部17に入力される。
【0061】S/N算出部17で、パワー測定部16で
算出された騒音パワーと、数7にて算出された音声パワ
ーの比を算出し、算出された結果を変動量推定部18に
入力する。変動量推定部18で、S/N値が一定値以下
であれば、入力音声に発声変形がないと判断して、特徴
パラメータを照合部10に入力し、照合部10で照合を
行い、最短距離を示す単語を認識結果として認識結果出
力端子11より出力する。
【0062】S/N値が一定値以上であれば、入力音声
の発声変形が有ると判断し、変動量推定部18で、発声
変形によるホルマント周波数のずれ量を、従来例同様数
1にて推定する。
【0063】次に、母音判定部6で、次の2つの条件で
母音判定を行う。 [1]音声レベルは騒音レベルに一定値Cを加えたレベ
ル以上である。 [2]上記条件[1]を満たすフレームが5フレーム以
上継続している。
【0064】上記[1]、[2]の条件を満足するフレ
ームを母音部と判断し、母音部の場合は入力信号をホル
マント周波数検出部7に、母音部以外の場合には照合部
10に入力する。
【0065】母音部の場合には、パラメータを補正する
ために、まずホルマント周波数検出部7で信号のホルマ
ント周波数を検出する。ホルマント周波数の算出式は前
実施例と同様である。
【0066】次に、補正値算出部8で、上記ホルマント
周波数とLPCケプストラムをホルマント周波数で微分
した値との積値を用いてLPCケプストラムの補正値を
算出する。算出式は前実施例の 数5の通りである。
【0067】数5にて算出された補正値はパラメータ補
正部9に入力され、前実施例同様に、数6のようにLP
CケプストラムCn が補正される。補正されたパラメー
タは照合部10で環境騒音パワーが一定閾値Pt以下の
場合と同様に照合され、認識結果出力端子11より認識
結果が出力される。
【0068】以上のように、本例によれば、パワー測定
部16で認識時の騒音および音声のパワーを測定し、S
/N算出部17で騒音と音声とのパワー比を算出し、変
動量推定部18で上記SN比を用いて、発声変形の有無
を判断し、発声変形のある場合には、数1にて発声変形
によるホルマント周波数変動量を推定し、分析部3でス
ペクトル分析を行い、さらに分析されたスペクトルをケ
プストラム変換したものを認識パラメータとして算出
し、ホルマント周波数検出部7で入力信号のホルマント
周波数を検出し、補正値算出部8で変動量推定部7にて
推定されたホルマント周波数の変動量と上記認識パラメ
ータのホルマント周波数に対する偏微分式を用いて数4
のように補正値を算出し、パラメータ補正部9で騒音下
で発声した場合の入力音声の発声変形に対応して上記補
正値にてパラメータを補正し、照合部10で補正された
パラメータを認識パラメータして標準音声と入力音声と
の照合を行うことにより、正確に発声変形の度合を推定
し、常に補正により認識率を向上させることができる。
【0069】なお、スイッチ20は学習時には標準音声
保管バッファ10に、認識時にはS/N算出部17にパ
ラメータを入力するように動作する。また、スイッチ2
1は発声変形がないと判断された場合には照合部10
に、発声変形がある場合には母音判定部6にパラメータ
を入力するように動作する。スイッチ15は母音の場合
にはホルマント周波数検出部7に、母音以外の場合には
照合部10に信号を入力するように動作する。
【0070】また、本例は、SN比を算出し、その結果
を用いて発声変形の度合を推定する場合について説明し
たが、騒音と音声のパワーを比較しなくても、先に騒音
パワーによって発声変形の度合を粗く推定し、次に音声
パワーによってさらに細かく発声変形度合を推定するよ
うにしてもよい。なお、騒音下での発声変形は、騒音に
より発声者自身が自分の音声を聞き取れなくなることが
原因である、という報告があることから、本例のように
SN比から発声変形度合を推定する場合には、より推定
が正確であり、高い補正効果が期待できる。
【0071】
【発明の効果】以上の説明から明らかなように、請求項
1の本発明は、入力音声のパワーを用いて発声変形に伴
う一部の特徴パラメータの変動量を推定し、特徴パラメ
ータを補正するので、正確に発声変形の度合を推定し、
常に補正により認識率を向上させることができる。
【0072】また、請求項2の本発明は、入力音声のパ
ワーを用いて発声変形に伴うホルマント周波数の変動量
を推定し、特徴パラメータを補正するので、正確に発声
変形の度合を推定し、常に補正により認識率を向上させ
ることができる。
【0073】また、請求項3の本発明は、入力環境の異
なる音声間のパワーを比較し、発声変形に伴う一部の特
徴パラメータの変動量を推定し、特徴パラメータを補正
するので、正確に発声変形の度合を推定し、常に補正に
より認識率を向上させることができる。
【0074】また、請求項4の本発明は、学習時の音声
パワーと認識時の音声パワーを比較し、発声変形に伴う
一部の特徴パラメータの変動量を推定し、特徴パラメー
タを補正するので、正確に発声変形の度合を推定し、常
に補正により認識率を向上させることができる。
【0075】
【0076】
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置のブロ
ック図である。
【図2】本発明に関連する例における音声認識装置のブ
ロック図である。
【図3】従来例における音声認識装置のブロック図であ
る。
【符号の説明】
1 信号入力端子 2、16 パワー測定部 3 分析部 4 パワー比較部 5、18 変動量測定部 6 母音判定部 7 ホルマント周波数検出部 8 補正値算出部 9 パラメータ補正部 10 照合部 11 認識結果出力部 12、19 標準音声保管バッファ 17 S/N算出部 13、14、15、20、21 スイッチ
フロントページの続き (56)参考文献 特開 平4−343399(JP,A) 特開 平4−257898(JP,A) 特許2867425(JP,B2) 特公 平8−14760(JP,B2) 日本音響学会平成2年度秋季研究発表 会講演論文集▲I▼ 1−8−9「雑音 下での発声変形に対するホルマント移動 による補正法の性能評価」p.17−18 (平成2年9月19日発表) 日本音響学会平成2年度春季研究発表 会講演論文集▲I▼ 1−3−9「雑音 下での発声変形に対する補正法の検討」 p.17−18(平成2年3月発行) 日本音響学会平成元年度秋季研究発表 会講演論文集▲I▼ 2−1−5「雑音 下での発声変形を考慮した認識方式の検 討」p.61−62(平成元年10月発行) 電子情報通信学会技術研究報告[音声 ]Vol.88,No.91,SP88−11, 「雑音環境下で発声した音声の認識方 式」p.1−6(1988年6月23日発行) 電子情報通信学会技術研究報告[音声 ]Vol.86,No.282,SP86−66, 「音声認識における高雑音中のLomb ard効果の適応化」p.41−48(1986 年12月18日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G10L 21/02 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声信号のパワーを測定する
    音声のパワーを測定するパワー測定手段と、入力信号
    の特徴パラメータを分析する分析手段と、発声変形に伴
    う一部の特徴パラメータの変動量を推定する変動量推定
    手段と、補正値を検出する補正値算出手段と、特徴パラ
    メータを補正するパラメータ補正手段と、標準信号と入
    力信号とを照合し認識結果を出力する照合手段とを備え
    た音声認識装置であって、前記パワー測定手段で入力音
    声のパワーを測定し、前記分析手段で音響分析により入
    力音声の特徴パラメータを算出し、前記変動量推定手段
    で上記測定された音声パワーを用いて発声変形に伴う一
    部の特徴パラメータの変動量を推定し、前記補正値算出
    手段で前記変動量推定手段にて推定された変動量を用い
    て補正値を算出し、前記パラメータ補正手段で入力音声
    の発声変形に対応して上記補正値にて特徴パラメータを
    補正し、前記照合手段で、補正されたパラメータを用い
    て標準音声と入力音声との照合を行うことを特徴とする
    音声認識装置。
  2. 【請求項2】 入力された音声のパワーを測定するパワ
    ー測定手段と、入力信号の特徴パラメータを分析する分
    析手段と、発声変形に伴うホルマント周波数の変動量を
    推定する変動量推定手段と、補正値を検出する補正値算
    出手段と、特徴パラメータを補正するパラメータ補正手
    段と、標準信号と入力信号とを照合し認識結果を出力す
    る照合手段とを備えた音声認識装置であって、前記パワ
    ー測定手段で入力音声のパワーを測定し、前記分析手段
    で音響分析により入力音声の特徴パラメータを算出し、
    前記変動量推定手段で上記測定された音声パワーを用い
    て発声変形に伴うホルマント周波数の変動量を推定し、
    前記補正値算出手段でその変動量推定手段にて推定され
    た変動量を用いて補正値を算出し、前記パラメータ補正
    手段で入力音声の発声変形に対応して上記補正値にて特
    徴パラメータを補正し、前記照合手段で、補正されたパ
    ラメータを用いて標準音声と入力音声との照合を行うこ
    とを特徴とする音声認識装置。
  3. 【請求項3】 入力された音声信号のパワーを測定する
    音声のパワーを測定するパワー測定手段と、音声パワ
    ーを比較するパワー比較手段と、入力信号の特徴パラメ
    ータを分析する分析手段と、発声変形に伴う一部の特徴
    パラメータの変動量を推定する変動量推定手段と、補正
    値を検出する補正値算出手段と、特徴パラメータを補正
    するパラメータ補正手段と、標準信号と入力信号とを照
    合し認識結果を出力する照合手段とを備えた音声認識装
    置であって、前記パワー測定手段で入力音声のパワーを
    測定し、前記パワー比較手段で入力環境の異なる音声間
    のパワーを比較し、前記分析手段で音響分析により入力
    音声の特徴パラメータを算出し、前記変動量推定手段で
    上記測定された音声パワー比較結果を用いて発声変形に
    伴う一部の特徴パラメータの変動量を推定し、前記補正
    値算出手段でその変動量推定手段にて推定された変動量
    を用いて補正値を算出し、前記パラメータ補正手段で入
    力音声の発声変形に対応して上記補正値にて特徴パラメ
    ータを補正し、前記照合手段で補正されたパラメータを
    用いて標準音声と入力音声との照合を行うことを特徴と
    する音声認識装置。
  4. 【請求項4】 入力された音声信号のパワーを測定する
    音声のパワーを測定するパワー測定手段と、音声パワ
    ーを比較するパワー比較手段と、入力信号の特徴パラメ
    ータを分析する分析手段と、発声変形に伴う一部の特徴
    パラメータの変動量を推定する変動量推定手段と、補正
    値を検出する補正値算出手段と、特徴パラメータを補正
    するパラメータ補正手段と、標準信号と入力信号とを照
    合し認識結果を出力する照合手段とを備えた音声認識装
    置において、前記パワー測定手段で入力音声のパワーを
    測定し、前記パワー比較手段で学習時の音声パワーと認
    識時の音声パワーを比較し、前記分析手段で音響分析に
    より入力音声の特徴パラメータを算出し、前記変動量推
    定手段で上記測定された音声パワー比較結果を用いて発
    声変形に伴う一部の特徴パラメータの変動量を推定し、
    前記補正値算出手段でその変動量推定手段にて推定され
    た変動量を用いて補正値を算出し、前記パラメータ補正
    手段で入力音声の発声変形に対応して上記補正値にて特
    徴パラメータを補正し、前記照合手段で補正されたパラ
    メータを用いて標準音声と入力音声との照合を行うこと
    を特徴とする音声認識装置。
JP3156541A 1991-06-27 1991-06-27 音声認識装置 Expired - Fee Related JP3026855B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3156541A JP3026855B2 (ja) 1991-06-27 1991-06-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3156541A JP3026855B2 (ja) 1991-06-27 1991-06-27 音声認識装置

Publications (2)

Publication Number Publication Date
JPH056196A JPH056196A (ja) 1993-01-14
JP3026855B2 true JP3026855B2 (ja) 2000-03-27

Family

ID=15630055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3156541A Expired - Fee Related JP3026855B2 (ja) 1991-06-27 1991-06-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP3026855B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012150658A1 (ja) * 2011-05-02 2012-11-08 旭化成株式会社 音声認識装置および音声認識方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成2年度春季研究発表会講演論文集▲I▼ 1−3−9「雑音下での発声変形に対する補正法の検討」p.17−18(平成2年3月発行)
日本音響学会平成2年度秋季研究発表会講演論文集▲I▼ 1−8−9「雑音下での発声変形に対するホルマント移動による補正法の性能評価」p.17−18(平成2年9月19日発表)
日本音響学会平成元年度秋季研究発表会講演論文集▲I▼ 2−1−5「雑音下での発声変形を考慮した認識方式の検討」p.61−62(平成元年10月発行)
電子情報通信学会技術研究報告[音声]Vol.86,No.282,SP86−66,「音声認識における高雑音中のLombard効果の適応化」p.41−48(1986年12月18日発行)
電子情報通信学会技術研究報告[音声]Vol.88,No.91,SP88−11,「雑音環境下で発声した音声の認識方式」p.1−6(1988年6月23日発行)

Also Published As

Publication number Publication date
JPH056196A (ja) 1993-01-14

Similar Documents

Publication Publication Date Title
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
EP1355296B1 (en) Keyword detection in a speech signal
US20140156276A1 (en) Conversation system and a method for recognizing speech
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
EP1774516B1 (en) Normalization of cepstral features for speech recognition
US20140129224A1 (en) Method and apparatus for utterance verification
KR20080025018A (ko) 음성 인증 장치, 음성 인증 방법 및 기계 판독가능 매체
JP3105465B2 (ja) 音声区間検出方法
JP2969862B2 (ja) 音声認識装置
JP2000250568A (ja) 音声区間検出装置
JP3119510B2 (ja) 音声認識装置
JP3026855B2 (ja) 音声認識装置
JP2817429B2 (ja) 音声認識装置
JPH0792989A (ja) 音声認識方法
KR20090068856A (ko) 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
JPH09258783A (ja) 音声認識装置
JP3868798B2 (ja) 音声認識装置
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JPH07109559B2 (ja) 音声区間検出方法
JPH0736477A (ja) パターンマッチング方式
JPH0546196A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees